java词法分析源代码 java词法分析简单代码( 六 )

}
} else {
token[0] = ch;
token[1] = '\0';
ch = getc(fin);
es = 3;
fprintf(fout, "%s\t%s\n", "ERROR", token);
}
}
fclose(fin);
fclose(fout);
return es;
}
void main() {
int es = 0;
es = TESTscan();
if(es0) {
printf("词法分析有错, 编译停止!\n");
} else {
printf("词法分析成功!\n");
}
}
Java代码到底是如何编译成机器指令的编译器把一种语言规范转化为另一种语言规范的这个过程需要哪些步骤？回答这个问题需要参照《编译原理》，总结过程如下：
1）词法分析：读取源代码，一个字节一个字节的读进来，找出这些词法中我们定义的语言关键词如：if、else、while等，识别哪些if是合法的哪些是不合法的。这个步骤就是词法分析过程。
词法分析的结果：就是从源代码中找出了一些规范化的token流，就像人类语言中，给你一句话你要分辨出哪些是一个词语，哪些是标点符号，哪些是动词，哪些是名词。
2）语法分析：就是对词法分析中得到的token流进行语法分析，这一步就是检查这些关键词组合在一起是不是符合Java语言规范。如if的后面是不是紧跟着一个布尔型判断表达式。
语法分析的结果：就是形成一个符合Java语言规定的抽象语法树，抽象语法树是一个结构化的语法表达形式，它的作用是把语言的主要词法用一个结构化的形式组织在一起。这棵语法树可以被后面按照新的规则再重新组织。
3）语义分析：语法分析完成之后也就不存在语法问题了，语义分析的主要工作就是把一些难懂的，复杂的语法转化成更简单的语法。就如难懂的文言文转化为大家都懂的百话文，或者是注释一下一些不懂的成语。
语义分析结果：就是将复杂的语法转化为简单的语法，对应到Java就是将foreach转化为for循环，还有一些注释等。最后生成一棵抽象的语法树，这棵语法树也就更接近目标语言的语法规则。
4）字节码生成：将会根据经过注释的抽象语法树生成字节码，也就是将一个数据结构转化为另外一个数据结构。就像将所有的中文词语翻译成英文单词后按照英文语法组装文英文语句。代码生成器的结果就是生成符合java虚拟机规范的字节码。
怎么用java写一个词法分析器首先看下我们要分析的代码段如下：
输出结果如下：
输出结果(a).PNG
输出结果(b).PNG
输出结果(c).PNG
括号里是一个二元式：（单词类别编码，单词位置编号）
代码如下：
?
1234567891011121314
package Yue.LexicalAnalyzer; import java.io.*; /* * 主程序 */public class Main {public static void main(String[] args) throws IOException {Lexer lexer = new Lexer();lexer.printToken();lexer.printSymbolsTable();}}
?
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283
package Yue.LexicalAnalyzer; import java.io.*;import java.util.*; /* * 词法分析并输出 */public class Lexer {/*记录行号*/public static int line = 1;/*存放最新读入的字符*/char character = ' ';/*保留字*/HashtableString, KeyWord keywords = new HashtableString, KeyWord();/*token序列*/private ArrayListToken tokens = new ArrayListToken();/*符号表*/private ArrayListSymbol symtable = new ArrayListSymbol();/*读取文件变量*/BufferedReader reader = null;/*保存当前是否读取到了文件的结尾*/private Boolean isEnd = false;/* 是否读取到文件的结尾 */public Boolean getReaderState() {return this.isEnd;}/*打印tokens序列*/public void printToken() throws IOException {FileWriter writer = new FileWriter("E:\\lex.txt");System.out.println("词法分析结果如下：");System.out.print("杜悦-2015220201031\r\n\n");writer.write("杜悦-2015220201031\r\n\r\n");while (getReaderState() == false) {Token tok = scan();String str = "line " + tok.line + "\t(" + tok.tag + "," + tok.pos + ")\t\t"+ tok.name + ": " + tok.toString() + "\r\n";writer.write(str);System.out.print(str);}writer.flush();}/*打印符号表*/public void printSymbolsTable() throws IOException {FileWriter writer = new FileWriter("E:\\symtab1.txt");System.out.print("\r\n\r\n符号表\r\n");System.out.print("编号\t行号\t名称\r\n");writer.write("符号表\r\n");writer.write("编号 " + "\t行号 " + "\t名称 \r\n");IteratorSymbol e = symtable.iterator();while (e.hasNext()) {Symbol symbol = e.next();String desc = symbol.pos + "\t" + symbol.line + "\t" + symbol.toString();System.out.print(desc + "\r\n");writer.write(desc + "\r\n");}writer.flush();}/*打印错误*/public void printError(Token tok) throws IOException{FileWriter writer = new FileWriter("E:\\error.txt");System.out.print("\r\n\r\n错误词法如下：\r\n");writer.write("错误词法如下：\r\n");String str = "line " + tok.line + "\t(" + tok.tag + "," + tok.pos + ")\t\t"+ tok.name + ": " + tok.toString() + "\r\n";writer.write(str);}/*添加保留字*/void reserve(KeyWord w) {keywords.put(w.lexme, w);}public Lexer() {/*初始化读取文件变量*/try {reader = new BufferedReader(new FileReader("E:\\输入.txt"));} catch (IOException e) {System.out.print(e);}/*添加保留字*/this.reserve(KeyWord.begin);this.reserve(KeyWord.end);this.reserve(KeyWord.integer);this.reserve(KeyWord.function);this.reserve(KeyWord.read);this.reserve(KeyWord.write);this.reserve(KeyWord.aIf);this.reserve(KeyWord.aThen);this.reserve(KeyWord.aElse);}/*按字符读*/public void readch() throws IOException {character = (char) reader.read();if ((int) character == 0xffff) {this.isEnd = true;}}/*判断是否匹配*/public Boolean readch(char ch) throws IOException {readch();if (this.character != ch) {return false;}this.character = ' ';return true;}/*数字的识别*/public Boolean isDigit() throws IOException {if (Character.isDigit(character)) {int value = https://www.04ip.com/post/0;while (Character.isDigit(character)) {value = 10 * value + Character.digit(character, 10);readch();}Num n = new Num(value);n.line = line;tokens.add(n);return true;} elsereturn false;}/*保留字、标识符的识别*/public Boolean isLetter() throws IOException {if (Character.isLetter(character)) {StringBuffer sb = new StringBuffer();/*首先得到整个的一个分割*/while (Character.isLetterOrDigit(character)) {sb.append(character);readch();}/*判断是保留字还是标识符*/String s = sb.toString();KeyWord w = keywords.get(s);/*如果是保留字的话，w不应该是空的*/if (w != null) {w.line = line;tokens.add(w);} else {/*否则就是标识符，此处多出记录标识符编号的语句*/Symbol sy = new Symbol(s);Symbol mark = sy;//用于标记已存在标识符Boolean isRepeat = false;sy.line = line;for (Symbol i : symtable) {if (sy.toString().equals(i.toString())) {mark = i;isRepeat = true;}}if (!isRepeat) {sy.pos = symtable.size() + 1;symtable.add(sy);} else if (isRepeat) {sy.pos = mark.pos;}tokens.add(sy);}return true;} elsereturn false;}/*符号的识别*/public Boolean isSign() throws IOException {switch (character) {case'#':readch();AllEnd.allEnd.line = line;tokens.add(AllEnd.allEnd);return true;case '\r':if (readch('\n')) {readch();LineEnd.lineEnd.line = line;tokens.add(LineEnd.lineEnd);line++;return true;}case '(':readch();Delimiter.lpar.line = line;tokens.add(Delimiter.lpar);return true;case ')':readch();Delimiter.rpar.line = line;tokens.add(Delimiter.rpar);return true;case ';':readch();Delimiter.sem.line = line;tokens.add(Delimiter.sem);return true;case '+':readch();CalcWord.add.line = line;tokens.add(CalcWord.add);return true;case '-':readch();CalcWord.sub.line = line;tokens.add(CalcWord.sub);return true;case '*':readch();CalcWord.mul.line = line;tokens.add(CalcWord.mul);return true;case '/':readch();CalcWord.div.line = line;tokens.add(CalcWord.div);return true;case ':':if (readch('=')) {readch();CalcWord.assign.line = line;tokens.add(CalcWord.assign);return true;}break;case '':if (readch('=')) {readch();CalcWord.ge.line = line;tokens.add(CalcWord.ge);return true;}break;case '':if (readch('=')) {readch();CalcWord.le.line = line;tokens.add(CalcWord.le);return true;}break;case '!':if (readch('=')) {readch();CalcWord.ne.line = line;tokens.add(CalcWord.ne);return true;}break;}return false;}/*下面开始分割关键字，标识符等信息*/public Token scan() throws IOException {Token tok;while (character == ' ')readch();if (isDigit() || isSign() || isLetter()) {tok = tokens.get(tokens.size() - 1);} else {tok = new Token(character);printError(tok);}return tok;}}