C++如何使用正则表达式?(regex库入门)

C++11起标准库提供头文件,需注意编译器支持(GCC 4.9+、Clang 3.1+、MSVC 2015+并显式指定-std=c++11及以上)、regex_match要求全串匹配而regex_search只需子串匹配,提取结果常用smatch或regex_iterator。

C++11起标准库就提供了头文件,用起来不难,但有几个关键点容易踩坑——比如编译器支持、匹配模式选择、以及结果提取方式。

确认编译器和标准支持

不是所有编译器默认开启C++11及以上正则支持。GCC 4.9+、Clang 3.1+、MSVC 2015+基本可用,但需显式指定标准:

  • GCC/Clang:加-std=c++11或更高(如-std=c++17
  • MSVC:确保项目设置为C++14或更新
  • 某些旧版本GCC(如4.8)的std::regex实现有bug,建议升级

基础匹配:regex_match vs regex_search

这两个函数用途不同,别混用:

  • regex_match:要求**整个字符串完全匹配**正则模式
    例如:regex_match("123", regex("\\d+")) → true;但regex_match("abc123", regex("\\d+")) → false
  • regex_search:只要**子串匹配**就返回true
    上面的"abc123"regex_search就会成功

提取匹配内容:用smatch和regex_iterator

光判断是否匹配不够,通常还要取值。常用两种方式:

  • 单次匹配用smatch(string match):
    smatch result;
    if (regex_search(text, result, pattern)) {
    cout << "全文:" << result[0] << endl;
    cout << "第一组:" << result[1] << endl; // 对应第一个()括号
  • 多次匹配用sregex_iterator:
    for (sregex_iterator it(text.begin(), text.end(), pattern); it != sregex_iterator(); ++it) {
    cout << it->str() << endl;
    }

常用语法和转义注意点

C++字符串字面量里反斜杠要写两遍,这是最容易出错的地方:

  • 想匹配一个数字:写"\\d",不是"\d"(后者是非法转义)
  • 想匹配路径C:\temp\file.txt:正则中写"C:\\\\temp\\\\file\\.txt",或用原始字符串字面量更清爽:R"(C:\\temp\\file\.txt)"
  • 默认是ECMAScript语法(类似JavaScript),支持\\d\\w+*?等;如需POSIX风格,构造时传regex_constants::extended

基本上就这些。不用第三方库也能做常见文本解析,关键是选对函数、注意转义、检查编译器支持。