词法分析是编译器构建的第一阶段,其主要任务是将源代码分解成一系列有意义的符号或标记(Token)。Lex 是一种常用的词法分析器生成器,它允许程序员使用正则表达式定义词法规则,并生成相应的词法分析器代码。

开发者在 Lex 文件中编写规则,以匹配源代码中的特定模式,并指定匹配成功时应执行的操作。例如,识别整数的 Lex 规则如下:

%{ 
#include "y.tab.h" // 引入语法分析器的头文件
%}
%%
[0-9]+ { yylval = atoi(yytext); return INTEGER; } // 匹配整数,将其值存储在 yylval 中并返回 INTEGER Token
. { printf(\"未知字符: %c \", *yytext); } // 处理未定义的字符
%%

上述规则使用正则表达式 [0-9]+ 匹配一个或多个数字。匹配成功时,调用 C 函数 atoi 将字符串转换为整数,将结果存储在 yylval 中(与语法分析器交互的特殊变量),并返回预定义的 Token 类型 INTEGER

Lex 文件通常与语法分析器(如 Yacc 或 Bison)配合使用,后者处理词法分析器生成的 Token 流,以构建抽象语法树(AST)。编译过程中,编译器生成包含 Lex 自动生成的词法分析器代码的目标代码文件。编译该文件并最终链接生成可执行文件。