c編譯器剖析
你可以去看看《高級編譯器設計與實現(Steven.S.Muchnick).(中文版)》。
『貳』 求一個盡量完整的編譯器:詞法分析器+語法分析器
在一個模式被匹配之前,詞法分析器往往需要超前掃描該詞素後面的若干個字元,使用將字元退回輸入流的方法,需要移動大量字元的時間,由於 詞法分析器是編譯期間唯一需要逐一掃描源程序字元的過程,因此它的效率將極大的影響編譯器的性能,因此人們發明了雙緩沖區的技術。
雙緩沖區技術原理如下:
把一個緩沖區分成前後兩個部分,每部分能夠容納N(1024/4096)個字元,每次系統讀命令讀入N個字元到前半部分或者後半部分,如果剩餘的不足N個字元,則在最後增加一個不同於其他任何字元的字元,如eof/#,用於標識源文件的結束。緩沖區包括兩個指針beginning和forward,在兩個指針之間的字元串就是當前的詞素。一開始兩個指針都指向第一個字元,然後forward向後掃描,直至發現一個匹配的詞素為止。如果forward跨過中間標記,則往後半部分讀入N個字元。如果forward指針移過最後位置,則向前半部分讀入N個字元,且forward指針重新指向開始繼續處理過程。為了處理方便在兩個部分的最後都增加一個文件結束標識eof。示意圖如下:
______________________________________________________________________
|............for......while.... ........................................ |....int i .................................................. ...................| |_______________________________eof|_______________eof________________eof|
| |
beginning forward
下面是雙緩沖區的一個c實現:
#include <stdio.h>
#include <string.h>
#define MAXWORD 1000
struct bibuffer
{
char* buffer[2048]; //緩沖區空間
char* beginning,forward; //前向和後向指針
int count; //前向指針記數
} bbuf;
void parse(char c)
{
if(c=' ')
{
memcpy(word[i],beginning,(size_t)(forward-beginning));
i++;
}
else forward++;
}
int main(int argc,char* argv)
{
File* fp;
char* word[MAXWORD];
int i=0;
buffer=new char[2048];
fp=open("test.c","r");
read(fp,buffer,1023);
buffer[1023]='#';
read(fp,buffer+1024,1023);
buffer[2047]='#';
bbuf->buffer=buffer;
bbuf->beginning=bbuf->forward=bbuf->buffer;
bbuf->count=0;
while(1)
{
forward=forward+1;
if(count==1023)
{
read(fp,buffer+1024,1023);
forward++;
//這個函數的具體代碼就要和具體的詞法分析規則而定,這里假設只識別空格分割的單詞
parse(*forward);
}
else if(count>=2048)
{
read(fp,buffer,1023);
forward=bbuf->buffer;
//這個函數的具體代碼就要和具體的詞法分析規則而定,這里假設只識別空格分割的單詞
parse(*forward);
}
else if(count!=1023&&count<2048&&(*forward)='#')
{
break; //詞法分析結束
}
}
}
『叄』 C語言語法分析器
採用遞歸下降語法分析方法實現
『肆』 編譯器可是沒有思路.或許是我連編譯器的本質還沒搞懂吧.分為七個部分,詞法分析,語法分析等..對嗎
一般都是把源碼轉為elf,a.out,coff,omf之類格式的文件.再用連接器(或者鏈接器,反正就是linker).連接成程序(就是exe或dll之類的).
也有些是生成匯編代碼,再調用匯編器匯編成elf,a.out,coff,omf之類.再連接.
也有些是直接生成exe,dll的.
vc也是先編譯成win32格式(也說是COFF格式)的,再連接成exe,dll.
如果你想做編譯器,可以去看<<編譯原理>>之類的書.
也可以去下載一些開源的編譯器代碼來學習.
我也一直在學習編譯器的.已經有段時間了.但是還是不太清楚.
編譯原理看了大半也暈乎乎的,不知道說什麼.
『伍』 用C語言編寫一個詞法分析器
還是編譯原理裡面的詞法分析啊?那個工作量就大嘍。
『陸』 如何在C語言中用宏來判斷當前編譯器
熱心網友
一.
#define是C語言中提供的宏定義命令,其主要目的是為程序員在編程時提供一定的方便,並能在一定程度上提高程序的運行效率,但學生在學習時往往不能理解該命令的本質,總是在此處產生一些困惑,在編程時誤用該命令,使得程序的運行與預期的目的不一致,或者在讀別人寫的程序時,把運行結果理解錯誤,這對 C語言的學習很不利。
1#define命令剖析
1.1 #define的概念
#define命令是C語言中的一個宏定義命令,它用來將一個標識符定義為一個字元串,該標識符被稱為宏名,被定義的字元串稱為替換文本。
該命令有兩種格式:一種是簡單的宏定義,另一種是帶參數的宏定義。
(1) 簡單的宏定義:
#define <宏名><字元串>
例: #define PI 3.1415926
(2) 帶參數的宏定義
#define <宏名> (<參數表>) <宏體>
例: #define A(x) x
一個標識符被宏定義後,該標識符便是一個宏名。這時,在程序中出現的是宏名,在該程序被編譯前,先將宏名用被定義的字元串替換,這稱為宏替換,替換後才進行編譯,宏替換是簡單的替換。
1.2 宏替換發生的時機
為了能夠真正理解#define的作用,讓我們來了解一下對C語言源程序的處理過程。當我們在一個集成的開發環境如Turbo C中將編寫好的源程序進行編譯時,實際經過了預處理、編譯、匯編和連接幾個過程,見圖1。
『柒』 C語言程序分析
程序的分析,都從main()函數說起:
main函數開始定義了5個變數a,b,c,d,p;
puts表示輸入提示,第一個輸入的是a,第二個輸入的是b;
do表示循環大括弧內的內容;現在進入大括弧內部:
輸出 :input operation:
getchar()表示輸入一個字元,編譯器用字元規則去判定;輸入的字元復制給p
if 表示判斷語句 :如果……
if(p=='+') add(a,b,c):如果輸入的符號是加號「+」則執行add(a,b,c)函數。這裡面add是函數調用,它代表了一組功能,具體的功能在上面的add裡面寫得很清楚了。是將a+b的值給c 最後輸出c
同理if(p=='-') minus(a,b,c);else :如果輸入的符號是「-」,執行minus(a,b,c)函數,具體函數功能見minus(a,b,c)函數,c=a-b 並把c輸出
if(p=='*') multiplication(a,b,c);else…………
if(p=='/') div(a,b,d)………………
一個道理。
總結:
這個程序完成的是四則運算,首先輸入兩個數字,再輸入一個運算符,程序會根據輸入的運算符進行相應的運算;如果輸入的運算符不是加、減、乘、除中的一個,則提示「沒有注冊這個運算符號」;當輸入為0時,程序退出。
『捌』 c語言程序分析題
f中第一個參數是傳值,編譯器會復制一份a傳遞給函數f,復制的臨時變數與a是兩個不同的變數,它們的地址不同,此後f中的x與main中的變數a不再有任務關聯
f的第二個參數是傳地值,f中的y與b的地址在內存中是相同的,操作的是同一個地址
『玖』 什麼是編譯器
編譯器
編譯器是一種特殊的程序,它可以把以特定編程語言寫成的程序變為機器可以運行的機器碼。我們把一個程序寫好,這時我們利用的環境是文本編輯器。這時我程序把程序稱為源程序。在此以後程序員可以運行相應的編譯器,通過指定需要編譯的文件的名稱就可以把相應的源文件(通過一個復雜的過程)轉化為機器碼了。
[編輯]編譯器工作方法
首先編譯器進行語法分析,也就是要把那些字元串分離出來。然後進行語義分析,就是把各個由語法分析分析出的語法單元的意義搞清楚。最後生成的是目標文件,我們也稱為obj文件。再經過鏈接器的鏈接就可以生成最後的可執行代碼了。有些時候我們需要把多個文件產生的目標文件進行鏈接,產生最後的代碼。我們把一過程稱為交叉鏈接。
一個現代編譯器的主要工作流程如下:
* 源程序(source code)→預處理器(preprocessor)→編譯器(compiler)→匯編程序(assembler)→目標程序(object code)→連接器(鏈接器,Linker)→可執行程序(executables)
工作原理
編譯是從源代碼(通常為高級語言)到能直接被計算機或虛擬機執行的目標代碼(通常為低級語言或機器言)。然而,也存在從低級語言到高級語言的編譯器,這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器,或者生成一種需要進一步處理的的中間代碼的編譯器(又叫級聯)。
典型的編譯器輸出是由包含入口點的名字和地址以及外部調用(到不在這個目標文件中的函數調用)的機器代碼所組成的目標文件。一組目標文件,不必是同一編譯器產生,但使用的編譯器必需採用同樣的輸出格式,可以鏈接在一起並生成可以由用戶直接執行的可執行程序。
編譯器種類
編譯器可以生成用來在與編譯器本身所在的計算機和操作系統(平台)相同的環境下運行的目標代碼,這種編譯器又叫做「本地」編譯器。另外,編譯器也可以生成用來在其它平台上運行的目標代碼,這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高級語言作為輸入,輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作為輸入,轉換其中的代碼,並用並行代碼注釋對它進行注釋(如OpenMP)或者用語言構造進行注釋(如FORTRAN的DOALL指令)。
預處理器(preprocessor)
作用是通過代入預定義等程序段將源程序補充完整。
編譯器前端(frontend)
前端主要負責解析(parse)輸入的源程序,由詞法分析器和語法分析器協同工作。詞法分析器負責把源程序中的『單詞』(Token)找出來,語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式,語句 ,函數等等。 例如「a = b + c;」前端詞法分析器看到的是「a, =, b , +, c;」,語法分析器按定義的語法,先把他們組裝成表達式「b + c」,再組裝成「a = b + c」的語句。 前端還負責語義(semantic checking)的檢查,例如檢測參與運算的變數是否是同一類型的,簡單的錯誤處理。最終的結果常常是一個抽象的語法樹(abstract syntax tree,或 AST),這樣後端可以在此基礎上進一步優化,處理。
編譯器後端(backend)
編譯器後端主要負責分析,優化中間代碼(Intermediate representation)以及生成機器代碼(Code Generation)。
一般說來所有的編譯器分析,優化,變型都可以分成兩大類: 函數內(intraproceral)還是函數之間(interproceral)進行。很明顯,函數間的分析,優化更准確,但需要更長的時間來完成。
編譯器分析(compiler analysis)的對象是前端生成並傳遞過來的中間代碼,現代的優化型編譯器(optimizing compiler)常常用好幾種層次的中間代碼來表示程序,高層的中間代碼(high level IR)接近輸入的源程序的格式,與輸入語言相關(language dependent),包含更多的全局性的信息,和源程序的結構;中層的中間代碼(middle level IR)與輸入語言無關,低層的中間代碼(Low level IR)與機器語言類似。 不同的分析,優化發生在最適合的那一層中間代碼上。
常見的編譯分析有函數調用樹(call tree),控制流程圖(Control flow graph),以及在此基礎上的變數定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變數別名分析(alias analysis),指針分析(pointer analysis),數據依賴分析(data dependence analysis)等等。
上述的程序分析結果是編譯器優化(compiler optimization)和程序變形(compiler transformation)的前提條件。常見的優化和變新有:函數內嵌(inlining),無用代碼刪除(Dead code elimination),標准化循環結構(loop normalization),循環體展開(loop unrolling),循環體合並,分裂(loop fusion,loop fission),數組填充(array padding),等等。優化和變形的目的是減少代碼的長度,提高內存(memory),緩存(cache)的使用率,減少讀寫磁碟,訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼(serial code)變成並行運算,多線程的代碼(parallelized,multi-threaded code)。
機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼(assembly code)的策略,而不直接生成二進制的目標代碼(binary object code)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優化,變形的工作。例如如何分配寄存器(register allocatioin),如何選擇合適的機器指令(instruction selection),如何合並幾句代碼成一句等等。
『拾』 C語言的語法分析器
先做個LL(1)或者LALR的語法分析器,然後先把教材上的幾個LL(1)的例子調通過。然後網上有C語言子集的文法,有人做了轉成大小寫這樣的表述。通過那個的測試就差不多了。。。。其實做語法分析也沒多大用 編譯器的難點在於語法制導、代碼優化之類的,真要做C語言的完整編譯器,普通的學生都幾乎不可能實現。。。。就不多說了 你可以動手開始做了 如果你有較強的程序設計能力,做個漂亮的LR(1)分析器還是可以的,實在不會就做SLR(1)這樣的分析器,如果程序設計能力比較差,建議先做LL(1),那個比較好做。碼字不易,望採納!