编译器中的扫描器

发布时间: 2022-08-26 06:50:53

❶ 程序的编译过程是怎样的程序的解释过程是怎样的

编译器首先用扫描程序扫描源代码，然后用语法分析程序分析得到语法树，然后经过语义分析、优化处理，最后通过代码生成程序得到目标代码的文件。
整个编译过程就是（扫描-语法分析-语义分析-优化-目标代码生成）。通常生成的是汇编代码，机器代码，可以直接执行，不需要解释。
而解释的过程只使用与解释型语言，这种语言只编译成一种中间文件，在运行时通过虚拟机读取中间文件进行解释运行。这种语言天生速度比较慢，但可以达到所谓的跨平台效果。
如果想深入了解，推荐看一看《编译原理》，如果只是想大概了解，推荐看一看《编译原理》的目录~呵呵

❷ 词法分析器是编译器中扫描什么的部分

词法分析器是编译器中扫描字符和单词的部分。

通常，可采用二元式来表示一个单词符号的内部编码，其中：class为一整数码，用于表示该单词的类别；value则是该单词之值（如变量名在符号表中序号，常数的二进制表示，以及运算符和分隔符的编码等等）。

在分析时

一是把词法分析器当成语法分析的一部分，另一种是把词法分析器当成编译程序的独立部分。在前一种情况下，词法分析器不断地被语法分析器调用，每调用一次词法分析器将从源程序的字符序列拼出一个单词，并将其Token值返回给语法分析器。后一种情况则不同，词法分析器不是被语法分析器不断地调用，而是一次扫描全部单词完成编译器的独立一遍任务。

❸ 编译器的工作原理

编译是从源代码（通常为高级语言）到能直接被计算机或虚拟机执行的目标代码（通常为低级语言或机器语言）的翻译过程。然而，也存在从低级语言到高级语言的编译器，这类编译器中用来从由高级语言生成的低级语言代码重新生成高级语言代码的又被叫做反编译器。也有从一种高级语言生成另一种高级语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。
典型的编译器输出是由包含入口点的名字和地址，以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的EXE,
所以我们电脑上的文件都是经过编译后的文件。

❹ “编译”与“编译器”是什么意思

编译是动词
编译器是名词
编译(compilation , compile)
1、利用编译程序从源语言编写的源程序产生目标程序的过程。
2、用编译程序产生目标程序的动作。

编译就是把高级语言变成计算机可以识别的2进制语言，计算机只认识1和0，编译程序把人们熟悉的语言换成2进制的。
编译程序把一个源程序翻译成目标程序的工作过程分为五个阶段：词法分析；语法分析；中间代码生成；代码优化；目标代码生成。主要是进行词法分析和语法分析，又称为源程序分析，分析过程中发现有语法错误，给出提示信息。
（1）词法分析
词法分析的任务是对由字符组成的单词进行处理，从左至右逐个字符地对源程序进行扫描，产生一个个的单词符号，把作为字符串的源程序改造成为单词符号串的中间程序。执行词法分析的程序称为词法分析程序或扫描器。
源程序中的单词符号经扫描器分析，一般产生二元式：单词种别；单词自身的值。单词种别通常用整数编码，如果一个种别只含一个单词符号，那么对这个单词符号，种别编码就完全代表它自身的值了。若一个种别含有许多个单词符号，那么，对于它的每个单词符号，除了给出种别编码以外，还应给出自身的值。
词法分析器一般来说有两种方法构造：手工构造和自动生成。手工构造可使用状态图进行工作，自动生成使用确定的有限自动机来实现。
（2）语法分析
编译程序的语法分析器以单词符号作为输入，分析单词符号串是否形成符合语法规则的语法单位，如表达式、赋值、循环等，最后看是否构成一个符合要求的程序，按该语言使用的语法规则分析检查每条语句是否有正确的逻辑结构，程序是最终的一个语法单位。编译程序的语法规则可用上下文无关文法来刻画。
语法分析的方法分为两种：自上而下分析法和自下而上分析法。自上而下就是从文法的开始符号出发，向下推导，推出句子。而自下而上分析法采用的是移进归约法，基本思想是：用一个寄存符号的先进后出栈，把输入符号一个一个地移进栈里，当栈顶形成某个产生式的一个候选式时，即把栈顶的这一部分归约成该产生式的左邻符号。
（3）中间代码生成
中间代码是源程序的一种内部表示，或称中间语言。中间代码的作用是可使编译程序的结构在逻辑上更为简单明确，特别是可使目标代码的优化比较容易实现。中间代码即为中间语言程序，中间语言的复杂性介于源程序语言和机器语言之间。中间语言有多种形式，常见的有逆波兰记号、四元式、三元式和树。
（4）代码优化
代码优化是指对程序进行多种等价变换，使得从变换后的程序出发，能生成更有效的目标代码。所谓等价，是指不改变程序的运行结果。所谓有效，主要指目标代码运行时间较短，以及占用的存储空间较小。这种变换称为优化。
有两类优化：一类是对语法分析后的中间代码进行优化，它不依赖于具体的计算机；另一类是在生成目标代码时进行的，它在很大程度上依赖于具体的计算机。对于前一类优化，根据它所涉及的程序范围可分为局部优化、循环优化和全局优化三个不同的级别。
（5）目标代码生成
目标代码生成是编译的最后一个阶段。目标代码生成器把语法分析后或优化后的中间代码变换成目标代码。目标代码有三种形式：
① 可以立即执行的机器语言代码，所有地址都重定位；
② 待装配的机器语言模块，当需要执行时，由连接装入程序把它们和某些运行程序连接起来，转换成能执行的机器语言代码；
③ 汇编语言代码，须经过汇编程序汇编后，成为可执行的机器语言代码。
目标代码生成阶段应考虑直接影响到目标代码速度的三个问题：一是如何生成较短的目标代码；二是如何充分利用计算机中的寄存器，减少目标代码访问存储单元的次数；三是如何充分利用计算机指令系统的特点，以提高目标代码的质量。
编译器，是将便于人编写，阅读，维护的高级计算机语言翻译为计算机能解读、运行的低阶机器语言的程序。编译器将原始程序（Source program）作为输入，翻译产生使用目标语言（Target language）的等价程序。源代码一般为高阶语言 (High-level language), 如 Pascal、C++、Java 等，而目标语言则是汇编语言或目标机器的目标代码（Object code），有时也称作机器代码（Machine code）。
一个现代编译器的主要工作流程如下：
源代码 (source code) → 预处理器 (preprocessor) → 编译器 (compiler) → 汇编程序 (assembler) → 目标代码 (object code) → 连接器 (Linker) → 可执行程序 (executables)

工作原理
[编辑本段]

编译是从源代码（通常为高阶语言）到能直接被计算机或虚拟机执行的目标代码（通常为低阶语言或机器语言）的翻译过程。然而，也存在从低阶语言到高阶语言的编译器，这类编译器中用来从由高阶语言生成的低阶语言代码重新生成高阶语言代码的又被叫做反编译器。也有从一种高阶语言生成另一种高阶语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。
典型的编译器输出是由包含入口点的名字和地址, 以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的可执行程序。

编译器种类
[编辑本段]

编译器可以生成用来在与编译器本身所在的计算机和操作系统（平台）相同的环境下运行的目标代码，这种编译器又叫做“本地”编译器。另外，编译器也可以生成用来在其它平台上运行的目标代码，这种编译器又叫做交叉编译器。交叉编译器在生成新的硬件平台时非常有用。“源码到源码编译器”是指用一种高阶语言作为输入，输出也是高阶语言的编译器。例如: 自动并行化编译器经常采用一种高阶语言作为输入，转换其中的代码，并用并行代码注释对它进行注释（如OpenMP）或者用语言构造进行注释（如FORTRAN的DOALL指令）。

预处理器（preprocessor）

作用是通过代入预定义等程序段将源程序补充完整。

编译器前端（frontend）

前端主要负责解析（parse）输入的源代码，由语法分析器和语意分析器协同工作。语法分析器负责把源代码中的‘单词’（Token）找出来,语意分析器把这些分散的单词按预先定义好的语法组装成有意义的表达式，语句，函数等等。例如“a = b + c;”前端语法分析器看到的是“a, =, b , +, c;”，语意分析器按定义的语法，先把他们组装成表达式“b + c”，再组装成“a = b + c”的语句。前端还负责语义（semantic checking）的检查，例如检测参与运算的变量是否是同一类型的，简单的错误处理。最终的结果常常是一个抽象的语法树（abstract syntax tree，或 AST），这样后端可以在此基础上进一步优化，处理。

编译器后端（backend）

编译器后端主要负责分析，优化中间代码（Intermediate representation）以及生成机器代码（Code Generation）。

一般说来所有的编译器分析，优化，变型都可以分成两大类：函数内（intraproceral）还是函数之间（interproceral）进行。很明显，函数间的分析，优化更准确，但需要更长的时间来完成。

编译器分析（compiler analysis）的对象是前端生成并传递过来的中间代码，现代的优化型编译器（optimizing compiler）常常用好几种层次的中间代码来表示程序，高层的中间代码（high level IR）接近输入的源代码的格式，与输入语言相关（language dependent），包含更多的全局性的信息，和源代码的结构；中层的中间代码（middle level IR）与输入语言无关，低层的中间代码(Low level IR)与机器语言类似。不同的分析，优化发生在最适合的那一层中间代码上。

常见的编译分析有函数调用树（call tree），控制流程图（Control flow graph），以及在此基础上的变量定义－使用，使用－定义链（define-use/use-define or u-d/d-u chain），变量别名分析（alias analysis），指针分析（pointer analysis），数据依赖分析（data dependence analysis）等等。

上述的程序分析结果是编译器优化（compiler optimization）和程序变形（compiler transformation）的前提条件。常见的优化和变新有：函数内嵌（inlining），无用代码删除（Dead code elimination），标准化循环结构（loop normalization），循环体展开（loop unrolling），循环体合并，分裂（loop fusion，loop fission），数组填充（array padding），等等。优化和变形的目标是减少代码的长度，提高内存（memory），缓存（cache）的使用率，减少读写磁盘，访问网络数据的频率。更高级的优化甚至可以把序列化的代码（serial code）变成并行运算，多线程的代码（parallelized，multi-threaded code）。

机器代码的生成是优化变型后的中间代码转换成机器指令的过程。现代编译器主要采用生成汇编代码（assembly code）的策略，而不直接生成二进制的目标代码（binary object code）。即使在代码生成阶段，高级编译器仍然要做很多分析，优化，变形的工作。例如如何分配寄存器（register allocatioin），如何选择合适的机器指令（instruction selection），如何合并几句代码成一句等等。

编译语言与直译语言对比
[编辑本段]

许多人将高阶程序语言分为两类: 编译型语言和直译型语言。然而，实际上，这些语言中的大多数既可用编译型实现也可用直译型实现，分类实际上反映的是那种语言常见的实现方式。（但是，某些直译型语言，很难用编译型实现。比如那些允许在线代码更改的直译型语言。）

历史
[编辑本段]

上世纪50年代，IBM的John Backus带领一个研究小组对FORTRAN语言及其编译器进行开发。但由于当时人们对编译理论了解不多，开发工作变得既复杂又艰苦。与此同时，Noam Chomsky开始了他对自然语言结构的研究。他的发现最终使得编译器的结构异常简单，甚至还带有了一些自动化。Chomsky的研究导致了根据语言文法的难易程度以及识别它们所需要的算法来对语言分类。正如现在所称的Chomsky架构（Chomsky Hierarchy），它包括了文法的四个层次：0型文法、1型文法、2型文法和3型文法，且其中的每一个都是其前者的特殊情况。2型文法（或上下文无关文法）被证明是程序设计语言中最有用的，而且今天它已代表着程序设计语言结构的标准方式。分析问题（parsing problem，用于上下文无关文法识别的有效算法）的研究是在60年代和70年代，它相当完善的解决了这个问题。现在它已是编译原理中的一个标准部分。

有限状态自动机（Finite Automaton）和正则表达式（Regular Expression）同上下文无关文法紧密相关，它们与Chomsky的3型文法相对应。对它们的研究与Chomsky的研究几乎同时开始，并且引出了表示程序设计语言的单词的符号方式。

人们接着又深化了生成有效目标代码的方法，这就是最初的编译器，它们被一直使用至今。人们通常将其称为优化技术（Optimization Technique），但因其从未真正地得到过被优化了的目标代码而仅仅改进了它的有效性，因此实际上应称作代码改进技术（Code Improvement Technique）。

当分析问题变得好懂起来时，人们就在开发程序上花费了很大的功夫来研究这一部分的编译器自动构造。这些程序最初被称为编译器的编译器（Compiler-compiler），但更确切地应称为分析程序生成器（Parser Generator），这是因为它们仅仅能够自动处理编译的一部分。这些程序中最着名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年为Unix系统编写的。类似的，有限状态自动机的研究也发展了一种称为扫描程序生成器（Scanner Generator）的工具，Lex（与Yacc同时，由Mike Lesk为Unix系统开发）是这其中的佼佼者。

在70年代后期和80年代早期，大量的项目都贯注于编译器其它部分的生成自动化，这其中就包括了代码生成。这些尝试并未取得多少成功，这大概是因为操作太复杂而人们又对其不甚了解。

编译器设计最近的发展包括：首先，编译器包括了更加复杂算法的应用程序它用于推断或简化程序中的信息；这又与更为复杂的程序设计语言的发展结合在一起。其中典型的有用于函数语言编译的Hindley-Milner类型检查的统一算法。其次，编译器已越来越成为基于窗口的交互开发环境（Interactive Development Environment，IDE）的一部分，它包括了编辑器、连接程序、调试程序以及项目管理程序。这样的IDE标准并没有多少，但是对标准的窗口环境进行开发已成为方向。另一方面，尽管近年来在编译原理领域进行了大量的研究，但是基本的编译器设计原理在近20年中都没有多大的改变，它现在正迅速地成为计算机科学课程中的中心环节。

在九十年代，作为GNU项目或其它开放源代码项目标一部分，许多免费编译器和编译器开发工具被开发出来。这些工具可用来编译所有的计算机程序语言。它们中的一些项目被认为是高质量的，而且对现代编译理论感兴趣的人可以很容易的得到它们的免费源代码。

大约在1999年，SGI公布了他们的一个工业化的并行化优化编译器Pro64的源代码，后被全世界多个编译器研究小组用来做研究平台，并命名为Open64。Open64的设计结构好，分析优化全面，是编译器高级研究的理想平台。

❺ int a=3的疑惑

a仅仅是一个符号，编译器会把int a = 3这句话转换为汇编，然后转换为二进制代码，存在代码区。运行到这行代码时，为a在栈中分配4个字节的空间。

❻ 如何在命令行中结束scanner.hasNext()函数

hasNext()这个方法是如果此扫描器的输入中有另一个标记，则返回 true。在等待要扫描的输入时，此方法可能阻塞。扫描器将不执行任何输入。所以循环会一直下去。
你可以设置一个终止符，调用hasNext()的重载方法hasNext(String patten)：如果下一个标记与从指定字符串构造的模式匹配，则返回 true。扫描器不执行任何输入。
例：以输入"0"，结束输出
Scanner sc = new Scanner(System.in);
while (!sc.hasNext("0")) {
System.out.println(sc.next());
}
仅做参考！

❼ fortify 如何进行xlC编译器的扫描

从你的这个补丁文件名就可以看出，是先用tar归档后再压缩的，需要使用的时候反向操作即可。
uncompress vacpp.90.aix61.oct2007.ptf.tar.Z
tar xvf vacpp.90.aix61.oct2007.ptf.tar
然后在安装此文件

❽ 用c语言实现编译器中scaner是做什么用的

词法分析用，词法分析为线性扫描。所以取意scaner

❾ 求一个尽量完整的编译器：词法分析器+语法分析器

在一个模式被匹配之前，词法分析器往往需要超前扫描该词素后面的若干个字符，使用将字符退回输入流的方法，需要移动大量字符的时间，由于词法分析器是编译期间唯一需要逐一扫描源程序字符的过程，因此它的效率将极大的影响编译器的性能，因此人们发明了双缓冲区的技术。
双缓冲区技术原理如下：
把一个缓冲区分成前后两个部分，每部分能够容纳N(1024/4096)个字符，每次系统读命令读入N个字符到前半部分或者后半部分，如果剩余的不足N个字符，则在最后增加一个不同于其他任何字符的字符，如eof/#，用于标识源文件的结束。缓冲区包括两个指针beginning和forward，在两个指针之间的字符串就是当前的词素。一开始两个指针都指向第一个字符，然后forward向后扫描，直至发现一个匹配的词素为止。如果forward跨过中间标记，则往后半部分读入N个字符。如果forward指针移过最后位置，则向前半部分读入N个字符，且forward指针重新指向开始继续处理过程。为了处理方便在两个部分的最后都增加一个文件结束标识eof。示意图如下：
______________________________________________________________________
|............for......while.... ........................................ |....int i .................................................. ...................| |_______________________________eof|_______________eof________________eof|
| |
beginning forward

下面是双缓冲区的一个c实现：

#include <stdio.h>
#include <string.h>

#define MAXWORD 1000

struct bibuffer
{
char* buffer[2048]; //缓冲区空间
char* beginning,forward; //前向和后向指针
int count; //前向指针记数
} bbuf;

void parse(char c)
{
if(c=' ')
{
memcpy(word[i],beginning,(size_t)(forward-beginning));
i++;
}
else forward++;
}

int main(int argc,char* argv)
{
File* fp;
char* word[MAXWORD];
int i=0;
buffer=new char[2048];
fp=open("test.c","r");
read(fp,buffer,1023);
buffer[1023]='#';
read(fp,buffer+1024,1023);
buffer[2047]='#';
bbuf->buffer=buffer;
bbuf->beginning=bbuf->forward=bbuf->buffer;
bbuf->count=0;
while(1)
{
forward=forward+1;
if(count==1023)
{
read(fp,buffer+1024,1023);
forward++;
//这个函数的具体代码就要和具体的词法分析规则而定,这里假设只识别空格分割的单词
parse(*forward);
}
else if(count>=2048)
{
read(fp,buffer,1023);
forward=bbuf->buffer;
//这个函数的具体代码就要和具体的词法分析规则而定,这里假设只识别空格分割的单词
parse(*forward);
}
else if(count!=1023&&count<2048&&(*forward)='#')
{
break; //词法分析结束
}
}
}

❿ 代码扫描的介绍

静态源代码扫描是近年被人提及较多的软件应用安全解决方案之一。它是指在软件工程中，程序员在写好源代码后，无需经过编译器编译，而直接使用一些扫描工具对其进行扫描，找出代码当中存在的一些语义缺陷、安全漏洞的解决方案。目前的静态扫描技术已经从90年代时候的，编码规则匹配这种由编译技术拓展过来的分析技术向程序模拟全路径执行的方向发展，由此，这种模拟执行相对的执行路径比动态执行更多，能够发现很多动态测试难以发现的缺陷。

阅读全文

热点内容

压缩油19 发布：2025-03-17 12:25:29 浏览：854

linux上网代理发布：2025-03-17 12:23:56 浏览：358

c是高级语言吗发布：2025-03-17 12:16:31 浏览：522

python泛型发布：2025-03-17 12:15:01 浏览：481

编程猫被盗发布：2025-03-17 12:02:18 浏览：130

海关锁密码箱如何设置新密码发布：2025-03-17 11:53:50 浏览：559

农业卡号的密码在哪里改发布：2025-03-17 11:48:57 浏览：966

杨澜超级访问发布：2025-03-17 11:47:17 浏览：237

数据库无损连接发布：2025-03-17 11:47:16 浏览：13

memcachephp类发布：2025-03-17 11:40:04 浏览：829

编译器中的扫描器

与编译器中的扫描器相关的资讯