编译时代
① 编译器龙书虎书鲸书基本抽象概念
在编译原理的世界里,三本堪称经典的着作犹如璀璨明珠:龙书(Aho, Sethi, Ullman合着的《编译原理技术和工具》)、虎书(Appel和Palsberg合作的《现代编译器实现:C语言版》),以及被称为“鲸书”的神秘巨着(未提及具体书名)。龙书是编译器领域的基石,涵盖了词法分析、语法分析等核心内容,虽早期版本存在一些过时技术,但后期修订版不断扩展新知识。虎书则紧跟时代步伐,融合了数据流分析等现代元素,特别适合教学,不仅有C语言版本,还有Java和ML版本,详细内容可通过参考链接获取。
深入研究现代商业编译器的关键问题,学生们通过学习基础概念,为后续深入探索奠定基础。推荐必读的《现代编译原理:C语言描述》由Steven S. Muchnick撰写,是虎书的升级版。而“鲸书”则为进阶学习者量身打造,探讨高级编译器设计与实现,涵盖了抽象层次的深入转换,如从高级语言到机器代码的优化过程,分为基础抽象、数据模型、编程语言语义和算法效率等几个核心领域。
基础抽象如同Java接口,它不仅包含操作的名称,还承载了预期的功能含义。这些抽象可以分为两类:一类是常见的操作,如字典和堆栈,提供多种实现;另一类是广泛应用于组件化的概念,如树和图。在计算思维中,抽象是灵魂,如图抽象中的“查找相邻节点”,它在图灵完备的语言中嵌入,类似于面向对象的类方法,但底层实现则更为具体,涉及有限自动机、解析器等与机器模型紧密相连的技术。声明性抽象,如正则表达式和关系代数,强调的是表达和描述而非实现,对优化性能有高要求;而计算抽象,如通用编程语言和理论模型,如RAM和并行计算模型,尽管可能非图灵完备,但其重要性不言而喻。
举例来说,当需要在声明阶段将标识符插入符号表S时,编译器会根据标识符类型进行检索。字典语言虽然不具备图灵机的复杂性,但它关注的是进程的表示,而非算法设计。字典操作的时间复杂性与集合大小相关,链表实现可能导致O(n)时间,而搜索树如AVL或红黑树则可达到O(log n)。
哈希抽象的核心是全集、哈希函数和哈希桶,操作基于计算哈希值。尽管哈希操作存在最坏情况性能问题,但通常假设平均性能。哈希桶存储结构可根据集合规模采用链表或优化存储,如调整磁盘块大小以适应主存容量。
从词法分析到后端优化,现代编译器分为前后端任务。前端涉及词法分析、句法分析、语义分析和中间代码生成,而共享符号表则用于收集源代码信息。如Lex,通过正则表达式实现标记简化,早期的磁带检索技术效率较低,但Aho-Corasick算法通过一次遍历查找多个关键字,提高了效率。句法分析器生成器基于正则表达式,产生确定性有限自动机,确保语法的有效性。
2.1.1 Lex的升级:Aho-Corasick算法通过集成多个正则表达式集合,显着提升了关键字检索的效率。
2.1.2 Lex设计关注交互复杂性,区分标识符与控制流关键字,避免混淆。
2.1.3 懒惰评估的DFA(确定性有限自动机)技术,优化了正则表达式到DFA的转换,为grep等工具的性能提升做出了贡献。
继续深入,语法分析构建了语言的结构,如表达式树。上下文无关文法(CFG)描述编程语言的句法规则,LR(k)分析法通过一次左到右扫描,处理复杂语法结构。
编译器研究涉及众多抽象层次,从关系模型在编程语言中的应用,到SQL的抽象和优化,再到分布式计算和量子计算的前沿探索。随着技术的演进,我们期待在编译器领域的知识体系中,不断发掘新的抽象理论,推动计算机科学的边界不断拓宽。
参考资料:[1] [2] [3]
② 计算机的发展经历了哪几个阶段各阶段的主要特征是什么
一共有四个发展阶段:
第一代计算机特征是采用电子管作为主要元器件
第二代计算机 特征是采用晶体管作为主要器件
第三代计算机 特征是半导体中小规模集成电路
第四代计算机 特征是大规模和超大规模集成电路
电子管(第一阶段)-晶体管(第二阶段)--中小规模集成电路(第三阶段)--大规模及超大规模集成电路(第四阶段)--智能(第五阶段)
(2)编译时代扩展阅读:
计算机(computer)俗称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能。是能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。
由硬件系统和软件系统所组成,没有安装任何软件的计算机称为裸机。可分为超级计算机、工业控制计算机、网络计算机、个人计算机、嵌入式计算机五类,较先进的计算机有生物计算机、光子计算机、量子计算机等。
人和计算机交流信息使用的语言称为计算机语言或称程序设计语言。计算机语言通常分为机器语言、汇编语言和高级语言三类。如果要在计算机上运行高级语言程序就必须配备程序语言翻译程序(下简称翻译程序)。翻译程序本身是一组程序,不同的高级语言都有相应的翻译程序。翻译的方法有两种:
一种称为“解释”。早期的BASIC源程序的执行都采用这种方式。它调用机器配备的BASIC“解释程序”,在运行BASIC源程序时,逐条把BASIC的源程序语句进行解释和执行,它不保留目标程序代码,即不产生可执行文件。这种方式速度较慢,每次运行都要经过“解释”,边解释边执行。
另一种称为“编译”,它调用相应语言的编译程序,把源程序变成目标程序(以.OBJ为扩展名),然后再用连接程序,把目标程序与库文件相连接形成可执行文件。尽管编译的过程复杂一些,但它形成的可执行文件(以.exe为扩展名)可以反复执行,速度较快。运行程序时只要键入可执行程序的文件名,再按Enter键即可。
对源程序进行解释和编译任务的程序,分别叫作编译程序和解释程序。如FORTRAN、COBOL、PASCAL和C等高级语言,使用时需有相应的编译程序;BASIC、LISP等高级语言,使用时需用相应的解释程序。
③ 计算机发展过程中经历了哪几个时代(年份)所用的电子器件分别是什么
1、第1代:电子管数字机(1946—1958年),硬件方面,逻辑元件采用的是真空电子管,主存储器采用汞延迟线、阴极射线示波管静电存储器、磁鼓、磁芯;外存储器采用的是磁带。软件方面采用的是机器语言、汇编语言。应用领域以军事和科学计算为主。
缺点是体积大、功耗高、可靠性差。速度慢(一般为每秒数千次至数万次)、价格昂贵,但为以后的计算机发展奠定了基础。
2、第2代:晶体管数字机(1958—1964年),软件方面的操作系统、高级语言及其编译程序应用领域以科学计算和事务处理为主,并开始进入工业控制领域。特点是体积缩小、能耗降低、可靠性提高、运算速度提高、性能比第1代计算机有很大的提高。
3、第3代:集成电路数字机(1964—1970年),硬件方面,逻辑元件采用中、小规模集成电路,主存储器仍采用磁芯。软件方面出现了分时操作系统以及结构化、规模化程序设计方法。特点是速度更快,而且可靠性有了显着提高,价格进一步下降,产品走向了通用化、系列化和标准化等
4、第4代:大规模集成电路机(1970年至今),硬件方面,逻辑元件采用大规模和超大规模集成电路(LSI和VLSI)。软件方面出现了数据库管理系统、网络管理系统和面向对象语言等。1971年世界上第一台微处理器在美国硅谷诞生,开创了微型计算机的新时代。
(3)编译时代扩展阅读:
由于集成技术的发展,半导体芯片的集成度更高,每块芯片可容纳数万乃至数百万个晶体管,并且可以把运算器和控制器都集中在一个芯片上、从而出现了微处理器,并且可以用微处理器和大规模、超大规模集成电路组装成微型计算机,就是常说的微电脑或PC机。
微型计算机体积小,价格便宜,使用方便,但它的功能和运算速度已经达到甚至超过了过去的大型计算机。另一方面,利用大规模、超大规模集成电路制造的各种逻辑芯片,已经制成了体积并不很大,但运算速度可达一亿甚至几十亿次的巨型计算机。