编译原理技术与工具
‘壹’ 学习编译原理的重要性
编译原理代表了软件技术的最高层次,它表示了一个由人的理性思维到形式思维的过程,形式思维属于数学思维,接近计算机思维.编译原理的技术可以应用到软件开发的各个方面,包括需求分析,架构设计,模式等等,都可以应用到,语言是人类最伟大的工具.编译原理以语言为核心,构建了完美的解决方案.将现实生活中待解决的问题,以语言来描述,再翻译成计算机所识别的语言,形成完美、灵活、高效的神奇演绎。而语言的实现过程,将囊括许多算法和工具。
学习编译原理这门课程让我们在写代码的时候更简洁灵活,同时,学习编译原理可以提高你自己的程序设计的精简度以及有利于提高我们编译程序员的个人素质与能力。我们应该好好学习这门课程。
‘贰’ c语言编译程序属于应用软件,系统软件还是工具软件
c语言编译程序属于系统软件。
编译程序(Compiler,compiling program)也称为编译器,是指把用高级程序设计语言书写的源程序,翻译成等价的机器语言格式目标程序的翻译程序。
这里的编译程序是一种动作,是根据编译原理技术,由高级程序设计语言编译器翻译成机器语言二进制代码行为,因此它是系统软件。
(2)编译原理技术与工具扩展阅读:
应用软件:是和系统软件相对应的,是用户可以使用的各种程序设计语言,以及用各种程序设计语言编制的应用程序的集合,分为应用软件包和用户程序。应用软件包是利用计算机解决某类问版题而设计的程序的集合,供多用户使用。比如浏览器、权网络云管家等等都是应用软件。
工具软件:是指在使用电脑进行工作和学习时经常使用的软件,比如电脑管家等杀毒软件,一般工具软件都属于应用软件。
‘叁’ 编译器龙书虎书鲸书基本抽象概念
在编译原理的世界里,三本堪称经典的着作犹如璀璨明珠:龙书(Aho, Sethi, Ullman合着的《编译原理技术和工具》)、虎书(Appel和Palsberg合作的《现代编译器实现:C语言版》),以及被称为“鲸书”的神秘巨着(未提及具体书名)。龙书是编译器领域的基石,涵盖了词法分析、语法分析等核心内容,虽早期版本存在一些过时技术,但后期修订版不断扩展新知识。虎书则紧跟时代步伐,融合了数据流分析等现代元素,特别适合教学,不仅有C语言版本,还有Java和ML版本,详细内容可通过参考链接获取。
深入研究现代商业编译器的关键问题,学生们通过学习基础概念,为后续深入探索奠定基础。推荐必读的《现代编译原理:C语言描述》由Steven S. Muchnick撰写,是虎书的升级版。而“鲸书”则为进阶学习者量身打造,探讨高级编译器设计与实现,涵盖了抽象层次的深入转换,如从高级语言到机器代码的优化过程,分为基础抽象、数据模型、编程语言语义和算法效率等几个核心领域。
基础抽象如同Java接口,它不仅包含操作的名称,还承载了预期的功能含义。这些抽象可以分为两类:一类是常见的操作,如字典和堆栈,提供多种实现;另一类是广泛应用于组件化的概念,如树和图。在计算思维中,抽象是灵魂,如图抽象中的“查找相邻节点”,它在图灵完备的语言中嵌入,类似于面向对象的类方法,但底层实现则更为具体,涉及有限自动机、解析器等与机器模型紧密相连的技术。声明性抽象,如正则表达式和关系代数,强调的是表达和描述而非实现,对优化性能有高要求;而计算抽象,如通用编程语言和理论模型,如RAM和并行计算模型,尽管可能非图灵完备,但其重要性不言而喻。
举例来说,当需要在声明阶段将标识符插入符号表S时,编译器会根据标识符类型进行检索。字典语言虽然不具备图灵机的复杂性,但它关注的是进程的表示,而非算法设计。字典操作的时间复杂性与集合大小相关,链表实现可能导致O(n)时间,而搜索树如AVL或红黑树则可达到O(log n)。
哈希抽象的核心是全集、哈希函数和哈希桶,操作基于计算哈希值。尽管哈希操作存在最坏情况性能问题,但通常假设平均性能。哈希桶存储结构可根据集合规模采用链表或优化存储,如调整磁盘块大小以适应主存容量。
从词法分析到后端优化,现代编译器分为前后端任务。前端涉及词法分析、句法分析、语义分析和中间代码生成,而共享符号表则用于收集源代码信息。如Lex,通过正则表达式实现标记简化,早期的磁带检索技术效率较低,但Aho-Corasick算法通过一次遍历查找多个关键字,提高了效率。句法分析器生成器基于正则表达式,产生确定性有限自动机,确保语法的有效性。
2.1.1 Lex的升级:Aho-Corasick算法通过集成多个正则表达式集合,显着提升了关键字检索的效率。
2.1.2 Lex设计关注交互复杂性,区分标识符与控制流关键字,避免混淆。
2.1.3 懒惰评估的DFA(确定性有限自动机)技术,优化了正则表达式到DFA的转换,为grep等工具的性能提升做出了贡献。
继续深入,语法分析构建了语言的结构,如表达式树。上下文无关文法(CFG)描述编程语言的句法规则,LR(k)分析法通过一次左到右扫描,处理复杂语法结构。
编译器研究涉及众多抽象层次,从关系模型在编程语言中的应用,到SQL的抽象和优化,再到分布式计算和量子计算的前沿探索。随着技术的演进,我们期待在编译器领域的知识体系中,不断发掘新的抽象理论,推动计算机科学的边界不断拓宽。
参考资料:[1] [2] [3]
‘肆’ 为什么要学习编译原理
大学课程为什么要开设编译原理呢?这门课程关注的是编译器方面的产生原理和技术问题,似乎和计算机的基础领域不沾边,可是编译原理却一直作为大学本科的必修课程,同时也成为了研究生入学考试的必考内容。编译原理及技术从本质上来讲就是一个算法问题而已,当然由于这个问题十分复杂,其解决算法也相对复杂。我们学的数据结构与算法分析也是讲算法的,不过讲的基础算法,换句话说讲的是算法导论,而编译原理这门课程讲的就是比较专注解决一种的算法了。在20世纪50年代,编译器的编写一直被认为是十分困难的事情,第一Fortran的编译器据说花了18年的时间才完成。在人们尝试编写编译器的同时,诞生了许多跟编译相关的理论和技术,而这些理论和技术比一个实际的编译器本身价值更大。就犹如数学家们在解决着名的哥德巴赫猜想一样,虽然没有最终解决问题,但是其间诞生不少名着的相关数论。
推荐参考书
虽然编译理论发展到今天,已经有了比较成熟的部分,但是作为一个大学生来说,要自己写出一个像TurbocC,Java那样的编译器来说还是太难了。不仅写编译器困难,学习编译原理这门课程也比较困难。
第一本书的原名叫《CompilersPrinciples,Techniques,andTools》,另外一个响亮的名字就是龙书。原因是这本书的封面上有条红色的龙,也因为獗臼樵诒嘁朐?砘?嘴域确实?忻?所以很多国外的学者都直接取名为龙书。最近机械工业出版社已经出版了此书的中文版,名字就叫《编译原理》。该书出的比较早,大概是在85或86年编写完成的,作者之一还是着名的贝尔实验室的科学家。里面讲解的核心编译原理至今都没有变过,所以一直到今天,它的价值都非凡。这本书最大的特点就是一开始就通过一个实际的小例子,把编译原理的大致内容罗列出来,让很多编译原理的初学者很快心里有了个底,也知道为什么会有这些理论,怎么运用这些理论。而这一点是我感觉国内的教材缺乏的东西,所以国内的教材都不是写给愿意自学的读者,总之让人看了半天,却不知道里面的东西有什么用。
第二本书的原名叫《ModernCompilerDesign》,中文名字叫做《现代编译程序设计》。该书由人民邮电出版社所出。此书比较关注的是编译原理的实践,书中给出了不少的实际程序代码,还有很多实际的编译技术问题等等。此书另外一个特点就是其现代而字。在传统的编译原理教材中,你是不可能看到如同Java中的垃圾回收等算法的。因为Java这样的解释执行语言是在近几年才流行起来的东西。如果你想深入学习编译原理的理论知识,那么你肯定得看前面那本龙书,如果你想自己动手做一个先进的编译器,那么你得看这本《现代编译程序设计》。
第三本书就是很多国内的编译原理学者都推荐的那本《编译原理及实践》。或许是这本书引入国内比较早吧,我记得我是在高中就买了这本书,不过也是在前段时间才把整本书看完。此书作为入门教程也的确是个不错的选择。书中给出的编译原理讲解也相当细致,虽然不如前面的龙书那么深入,但是很多地方都是点到为止,作为大学本科教学已经是十分深入了。该书的特点就是注重实践,不过感觉还不如前面那本《现代编译程序设计》的实践味道更重。此书的重点还是在原理上的实践,而非前面那本那样的技术实践。《编译原理及实践》在讲解编译原理的各个部分的同时,也在逐步实践一个现代的编译器TinyC.等你把整本书看完,差不多自己也可以写一个TinyC了。作者还对Lex和Yacc这两个常用的编译相关的工具进行了很详细的说明,这一点也是很难在国内的教材中看到的。
推荐了这三本教材,都有英文版和中文版的。很多英文好的同学只喜欢看原版的书,不我的感觉是这三本书的翻译都很不错,没有必要特别去买英文版的。理解理论的实质比理解表面的文字更为重要。
编译原理的实质
几乎每本编译原理的教材都是分成词法分析,语法分析(LL算法,递归下降算法,LR算法),语义分析,运行时环境,中间代码,代码生成,代码优化这些部分。其实现在很多编译原理的教材都是按照85,86出版的那本龙书来安排教学内容的,所以那本龙书的内容格式几乎成了现在编译原理教材的定式,包括国内的教材也是如此。一般来说,大学里面的本科教学是不可能把上面的所有部分都认真讲完的,而是比较偏重于前面几个部分。像代码优化那部分东西,就像个无底洞一样,如果要认真讲,就是单独开一个学期的课也不可能讲得清楚。所以,一般对于本科生,对词法分析和语法分析掌握要求就相对要高一点了。
词法分析相对来说比较简单。可能是词法分析程序本身实现起来很简单吧,很多没有学过编译原理的人也同样可以写出各种各样的词法分析程序。不过编译原理在讲解词法分析的时候,重点把正则表达式和自动机原理加了进来,然后以一种十分标准的方式来讲解词法分析程序的产生。这样的做法道理很明显,就是要让词法分析从程序上升到理论的地步。
语法分析部分就比较麻烦一点了。现在一般有两种语法分析算法,LL自顶向下算法和LR自底向上算法。LL算法还好说,到了LR算法的时候,困难就来了。很多自学编译原理的都是遇到LR算法的理解成问题后就放弃了自学。其实这些东西都是只要大家理解就可以了,又不是像词法分析那样非得自己写出来才算真正的会。像LR算法的语法分析器,一般都是用工具Yacc来生成,实践中完全没有比较自己来实现。对于LL算法中特殊的递归下降算法,因为其实践十分简单,那么就应该要求每个学生都能自己写。当然,现在也有不少好的LL算法的语法分析器,不过要是换在非C平台,比如Java,Delphi,你不能运用YACC工具了,那么你就只有自己来写语法分析器。
等学到词法分析和语法分析时候,你可能会出现这样的疑问:词法分析和语法分析到底有什么?就从编译器的角度来讲,编译器需要把程序员写的源程序转换成一种方便处理的数据结构(抽象语法树或语法树),那么这个转换的过程就是通过词法分析和语法分析的。其实词法分析并非一开始就被列入编译器的必备部分,只是我们为了简化语法分析的过程,就把词法分析这种繁琐的工作单独提取出来,就成了现在的词法分析部分。除了编译器部分,在其它地方,词法分析和语法分析也是有用的。比如我们在DOS,Unix,Linux下输入命令的时候,程序如何分析你输入的命令形式,这也是简单的应用。总之,这两部分的工作就是把不规则的文本信息转换成一种比较好分析好处理的数据结构。那么为什么编译原理的教程都最终把要分析的源分析转换成树这种数据结构呢?数据结构中有Stack,Line,List这么多数据结构,各自都有各自的特点。但是Tree这种结构有很强的递归性,也就是说我们可以把Tree的任何结点Node提取出来后,它依旧是一颗完整的Tree。这一点符合我们现在编译原理分析的形式语言,比如我们在函数里面使用函树,循环中使用循环,条件中使用条件等等,那么就可以很直观地表示在Tree这种数据结构上。同样,我们在执行形式语言的程序的时候也是如此的递归性。在编译原理后面的代码生成的部分,就会介绍一种堆栈式的中间代码,我们可以根据分析出来的抽象语法树,很容易,很机械地运用递归遍历抽象语法树就可以生成这种指令代码。而这种代码其实也被广泛运用在其它的解释型语言中。像现在流行的Java,.NET,其底层的字节码bytecode,可以说就是这中基于堆栈的指令代码的。
关于语义分析,语法制导翻译,类型检查等等部分,其实都是一种完善前面得到的抽象语法树的过程。比如说,我们写C语言程序的时候,都知道,如果把一个浮点数直接赋值给一个整数,就会出现类型不匹配,那么C语言的编译器是怎么知道的呢?就是通过这一步的类型检查。像C++语言这中支持多态函数的语言,这部分要处理的问题就更多更复杂了。大部编译原理的教材在这部分都是讲解一些比较好的处理策略而已。因为新的问题总是在发生,旧的办法不见得足够解决。
本来说,作为一个编译器,起作用的部分就是用户输入的源程序到最终的代码生成。但是在讲解最终代码生成的时候,又不得不讲解机器运行环境等内容。因为如果你不知道机器是怎么执行最终代码的,那么你当然无法知道如何生成合适的最终代码。这部分内容我自我感觉其意义甚至超过了编译原理本身。因为它会把一个计算机的程序的运行过程都通通排在你面前,你将来可能不会从事编译器的开发工作,但是只要是和计算机软件开发相关的领域,都会涉及到程序的执行过程。运行时环境的讲解会让你更清楚一个计算机程序是怎么存储,怎么装载,怎么执行的。关于部分的内容,我强烈建议大家看看龙书上的讲解,作者从最基本的存储组织,存储分配策略,非局部名字的访问,参数传递,符号表到动态存储分配(malloc,new)都作了十分详细的说明。这些东西都是我们编写平常程序的时候经常要做的事情,但是我们却少去探求其内部是如何完成。
关于中间代码生成,代码生成,代码优化部分的内容就实在不好说了。国内很多教材到了这部分都会很简单地走马观花讲过去,学生听了也只是作为了解,不知道如何运用。不过这部分内容的东西如果要认真讲,单独开一学期的课程都讲不完。在《编译原理及实践》的书上,对于这部分的讲解就恰到好处。作者主要讲解的还是一种以堆栈为基础的指令代码,十分通俗易懂,让人看了后,很容易模仿,自己下来后就可以写自己的代码生成。当然,对于其它代码生成技术,代码优化技术的讲解就十分简单了。如果要仔细研究代码生成技术,其实另外还有本叫做《》,那本书现在由机械工业出版社引进的,十分厚重,而且是英文原版。不过这本书我没有把它列为推荐书给大家,毕竟能把龙书的内容搞清楚,在中国已经就算很不错的高手了,到那个时候再看这本《》也不迟。代码优化部分在大学本科教学中还是一个不太重要的部分,就是算是实践过程中,相信大家也不太运用得到。毕竟,自己做的编译器能正确生成执行代码已经很不错了,还谈什么优化呢?
编译原理的课程毕竟还只是讲解原理的课程,不是专门的编译技术课程。这两门课程是有很大的区别的。编译技术更关注实际的编写编译器过程中运用到的技术,而原理的课
‘伍’ 学好“计算机编译原理”需要具备其他一些知识么
1.你要学到什么水平?是想考试考好还是想实际写出来一个足够强度的编译器?如果是前者,就一句:努力当学霸才是你唯一的出路。
2.对于scanner &parser的话,对于书上所讲的算法的要求是很高的,有很大的依赖性,所以必须理解透彻,即使没有机会实现也要自己动手画画。同时这也是本科阶段所学的编译原理的所有内容。虽然flex和bison很好使,但是强烈不建议使用。
3.对于生成器、连接器或者解释器的话,那么你要了解汇编语言、微处理器、微机接口等计算机基础学科。简单的说就是从底层学到高级语言的层面。这个要求是很高的,毕竟涉及到二进制代码优化等很麻烦的。