fpga處理演算法
⑴ fpga演算法
盛大吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖吖
⑵ FPGA如何實現演算法
我個人認為 FPGA的演算法實現與C的演算法有一定關聯 但有區別 有些黃金演算法在硬體語言描述時很費力,不一定好用 也只有理論聯系實踐,從實踐中來到實踐中去,
⑶ 大家好,有誰用fpga做過視頻處理演算法,傳授一下經驗,剛做不知怎麼模擬和驗證
先用MATLAB或者C做演算法模擬,決定了演算法以後再寫HDL代碼。最後用這兩者的同一激勵輸入,輸出對比,無誤就OK了
⑷ 如何用fpga實現演算法的硬體加速
首先,利用傳統的軟體技巧來優化演算法,然後將其轉向定製指令以加速演算法。我們將討論不同實現方法的性能比較和折衷。
CRC演算法可用來校驗數據在傳輸過程中是否被破壞。這些演算法很流行,因為它們具有很高的檢錯率,而且不會對數據吞吐量造成太大影響,因為CRC校驗位被添加進數據信息中。但是,CRC演算法比一些簡單的校驗和演算法有更大的計算量要求。盡管如此,檢錯率的提高使得這種演算法值得去實施。
一般說來,發送端對要被發送的消息執行CRC演算法,並將CRC結果添加進該消息中。消息的接收端對包括CRC結果在內的消息執行同樣的CRC操作。如果接收端的結果與發送端的不同,這說明數據被破壞了。
CRC演算法是一種密集的數學運算,涉及到二元模數除法(molo-2 division),即數據消息被16或32位多項式(取決於所用CRC標准)除所得的余數。這種操作一般通過異或和移位的迭代過程來實現,當採用16位多項式時,這相當於每數據位元組要執行數百條指令。如果發送數百個位元組,計算量就會高達數萬條指令。因此,任何優化都會大幅提高吞吐量。
代碼列表1中的CRC函數有兩個自變數(消息指針和消息中的位元組數),它可返回所計算的CRC值(余數)。盡管該函數的自變數是一些位元組,但計算要逐位來執行。該演算法並不高效,因為所有操作(與、移位、異或和循環控制)都必須逐位地執行。
列表1:逐位執行的CRC演算法C代碼。
/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))
crc crcSlow(unsigned char const message[], int nBytes)
{
crc remainder = 0;
/*
* Perform molo-2 division, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
/*
* Bring the next byte into the remainder.
*/
remainder ^= (message[byte] << (WIDTH - 8));
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
}
/*
* The final remainder is the CRC result.
*/
return (remainder);
}
1.傳統的軟體優化
圖3:帶CRC外圍電路和DMA的系統模塊示意圖。
讓我們看一下如何利用傳統的軟體技巧來優化CRC演算法。因為CRC操作中的一個操作數,即多項式(除數)是常數,位元組寬CRC操作的所有可能結果都可以預先計算並存儲在一個查找表中。這樣,通過一個讀查找表動作就可讓操作按逐個位元組執行下去。
採用這一演算法時,需要將這些預先計算好的值存儲在存儲器中。選擇ROM或RAM都可以,只要在啟動CRC計算之前將存儲器初始化就行。查找表有256個位元組,表中每個位元組位置包含一個CRC結果,共有256種可能的8位消息(與多項式大小無關)。
列表2示出了採用查找表方法的C代碼,包括生成查找表crcInit()中數值的代碼。
列表2:採用查找表方法的CRC演算法C代碼。
crc crcTable[256];
void crcInit(void)
{
crc remainder;
/*
* Compute the remainder of each possible dividend.
*/
for (int dividend = 0; dividend < 256; ++dividend)
{
/*
* Start with the dividend followed by zeros.
*/
remainder = dividend << (WIDTH - 8);
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
/*
* Store the result into the table.
*/
crcTable[dividend] = remainder;
}
} /* crcInit() */
crc crcFast(unsigned char const message[], int nBytes)
{
unsigned char data;
crc remainder = 0;
/*
* Divide the message by the polynomial, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
data = message[byte] ^ (remainder >> (WIDTH - 8));
remainder = crcTable[data] ^ (remainder << 8);
}
/*
* The final remainder is the CRC.
*/
return (remainder);
} /* crcFast() */
整個計算減少為一個循環,每位元組(不是每位)有兩個異或、兩個移位操作和兩個裝載指令。基本上,這里是用查找表的存儲空間來換取速度。該方法比逐位計算的方法要快9.9倍,這一提高對某些應用已經足夠。如果需要更高的性能,可以嘗試編寫匯編代碼或增加查找表容量以擠出更多性能來。但是,如果需要20、50甚至500倍的性能提高,就要考慮採用硬體加速來實現該演算法了。
表1:各種規模的數據模塊下CRC演算法測試比較結果。
2.採用定製指令方法
CRC演算法由連續的異或和移位操作構成,用很少的邏輯即可在硬體中簡單實現。由於這一硬體模塊僅需幾個周期來計算CRC,採用定製指令來實現CRC計算要比採用外圍電路更好。此外,無須涉及系統中任何其它外圍電路或存儲器。僅需要一個微處理器來支持定製指令即可,一般是指可配置微處理器。
當在硬體中實現時,演算法應該每次執行16或32位計算,這取決於所採用的CRC標准。如果採用CRC-CCITT標准(16位多項式),最好每次執行16位計算。如果使用8位微處理器,效率可能不太高,因為裝載操作數值及返回CRC值需要額外的周期。圖2示出了用硬體實現16位CRC演算法的內核。
信號msg(15..0)每次被移入異或/移位硬體一位。列表3示出了在64KB數據模塊上計算CRC的一些C代碼例子。該實例是針對Nios嵌入式處理器。
列表3:採用定製指令的CRC計算C代碼。
unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
unsigned short* pointer;
unsigned short word;
/*
* initialize crc reg to 0xFFFF
*/
word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
/*
* calculate CRC on block of data
* nm_crc() is the CRC custom instruction
*
*/
for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
word = nm_crc(*pointer, 0) return (word);
}
int main(void)
{
#define data_block_begin (na_onchip_memory)
#define data_block_end (na_onchip_memory + 0xffff)
unsigned short crc_result;
unsigned int data_block_length = (unsigned short *)data_block_end - (unsigned short
*)data_block_begin + 1;
crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}
採用定製指令時,用於計算CRC值的代碼是一個函數調用,或宏。當針對Nios處理器實現定製指令時,系統構建工具會生成一個宏。在本例中為nm_crc(),可用它來調用定製指令。
在啟動CRC計算之前,定製指令內的CRC寄存器需要先初始化。裝載初始值是CRC標準的一部分,而且每種CRC標准都不一樣。接著,循環將為數據模塊中的每16位數據調用一次CRC定製指令。這種定製指令實現方式要比逐位實現的方法快27倍。
3.CRC外圍電路方法
如果將CRC演算法作為硬體外圍電路來實現,並利用DMA將數據從存儲器轉移到外圍電路,這樣還可以進一步提高速度。這種方法將省去處理器為每次計算而裝載數據所需要的額外周期。DMA可在此外圍電路完成前一次CRC計算的時鍾周期內提供新的數據。圖3示出了利用DMA、CRC外圍電路來實現加速的系統模塊示意圖。
在64KB數據模塊上,利用帶DMA的定製外圍電路可獲得比逐位計算的純軟體演算法快500倍的性能。要知道,隨著數據模塊規模的增加,使用DMA所獲得的性能也隨之提高。這是因為設置DMA僅需很少的開銷,設置之後DMA運行得特別快,因為每個周期它都可以傳遞數據。因此,若只有少數位元組的數據,用DMA並不劃算。
這里所討論的所有採用CRC-CCITT標准(16位多項式)的演算法都是在Altera Stratix FPGA的Nios處理器上實現的。表1示出了各種數據長度的測試比較結果,以及大致的硬體使用情況(FPGA中的存儲器或邏輯單元)。
可以看出,演算法所用的硬體越多,演算法速度越快。這是用硬體資源來換取速度。
⑸ 數字信號處理演算法及其FPGA 實現與操作系統
這個要看你以後的工作方向,如果你只搞硬體演算法,那麼當然不會用到操作系統。但對於一個從事電子待業的人來說,嵌入式操作系統無論如何都是要了解。人所擁有的時間,足夠學會一切我們想學的知識,要相信自己,不要浮燥。
Good luck!
⑹ 學習fpga需要多久多少程度才能搞到圖像處理和圖像演算法
FPGA范圍比較廣,從編程到製版到調試到生產都可以算到裡面。既然你是想搞演算法,我就幫你盡量跳過FPGA費時費力不出成績的底層鑽研階段。
如果你只是想做演算法而不是做應用,只需要了解FPGA的優勢和實現原理,10-30天學習FPGA基礎語法,這部分跟C比較相似應該能很快入門,這時候你差不多就了解FPGA跟CPU的區別和優勢了,然後把重點放在演算法研究上。根據演算法復雜度研究時間不定。
比如圖像處理,FPGA的優勢在於可以一個時鍾周期處理多個點或者矩陣,這時候你的演算法就要偏向於怎麼讓不同點或者矩陣之間的運算盡量獨立沒有前後相關性。速度上4Ghz的CPU一次處理16個點速度就是64G點每秒,FPGA看資源如果一次可以處理1000點,200MHZ的速度就是200G點每秒,這圖像處理速度的優勢就出來了。而且CPU可能還要跑系統還有宕機風險,FPGA說多快就多快,穩定高效能長時間運行。
之前我們做4K視頻的採集和預處理,FPGA很輕松就實現了。設計的時候最好找個高手聽一下你的設計方案,幫忙做一下時序約束和PipeLine規劃,這樣保證你的演算法盡量穩定,或者乾脆點你演算法完成直接找人給你寫代碼,你把代碼看懂之後再慢慢調參數就行了。
直接根據自己需求買個成品板卡,這樣上面的外接器件什麼的都有現成example可以使用,比如DDR控制、視頻輸入輸出、引腳約束這之類的,你可以直接用板卡資料,不需要浪費時間去自己調試,專心做演算法。
⑺ 使用fpga完成數字信號處理演算法,需要解決哪些問題
你是不是剛聽說「
fpga完成數字信號處理演算法
」這個名詞,就跑過來讓人給你科普?
⑻ fpga演算法 dsp演算法 加密解密演算法 三者有什麼區別
對搞FPGA硬體沒什麼幫助,因為純粹是演算法,只會應用到一些和演算法相關的,如雜訊源等,就FPGA這方面來說,所需要知識不多。頂多就是熟悉代碼以及模塊之間的數據流配合
加解密在FPGA上都是可以實現的,但是FPGA對於演算法處理也不是很在行,所以更多的深層次演算法,還是要在DSP上做,和FPGA上做演算法,本質上沒有太大的區別,只是實現方式不同而已,核心還是演算法,而不是工具。
目前做演算法方面,DSP還是主流,但是FPGA也不少了
⑼ 用fpga做圖像處理 是FPGA重要還是圖像處理的演算法重要
首先,建議把數電的基礎看下,側重於基本的邏輯元器件,尤其是鎖存器,觸發器等概念給清晰了。這個因為學過,去圖書管上兩三個星期的晚自習就可以了。主要是為了強化下數字邏輯思維。
然後,學習verilog語法,學的過程中每天堅持練習編寫code,verilog比較好學,入門一個月就夠了。
以上兩件事是屬於基礎,你一個月的時間就夠了。
最後,你可以看你的圖像處理演算法了,演算法是需要研究查找各種資料的,研究起來時間比較多,也比較枯燥,這時候你可以對你每天的時間進行劃分,一段時間研究演算法,一段時間看FPGA設計的相關書籍,關鍵是要自己編代碼,在這過程中再有哪些數電或基礎知識不清楚再去查找就是了。
記住練習編程要堅持,遇到問題要多問,多研究,當你演算法研究到心裡有譜的時候,你的rtl編碼能力也就差不多了,就可以編寫你的圖像處理演算法了。
Note:研究生的時間過的很快,但是時間也不端,盡量合理利用時間,學習東西要有調理,先學什麼後學什麼自己多想想,然後按照計劃執行就行。
⑽ 用FPGA實現圖像處理演算法有前途嗎
有,很多時候使用者不希望圖像處理佔用大量的CPU時間,如果用FPGA實現圖像處理,那麼就可以將圖像處理部分在前端的數字晶元上實現,也就是可以在攝像機上完成很多工作