亚洲88av涩涩涩色多多,99精品久久99久久久久,欧美凹凸一区二区三区视频,男女男精品免费视频网站

  •  歡迎來(lái)到 深圳市毅創(chuàng)騰電子科技有限公司  
網(wǎng)站首頁(yè) > 電子資訊> xilinx Vivado?設(shè)計(jì)套件

xilinx Vivado?設(shè)計(jì)套件

信息來(lái)源 : 網(wǎng)絡(luò) | 發(fā)布時(shí)間 : 2016-04-08 10:23 | 瀏覽次數(shù) : 1265

如果您正在努力開(kāi)發(fā)計(jì)算內(nèi)核,而且采用常規(guī)內(nèi)存訪問(wèn)模式,并且循環(huán)迭代間的并行性比較容易提取,這時(shí),Vivado?設(shè)計(jì)套件高層次綜合(HLS)工具是創(chuàng)建高性能加速器的極好資源。通過(guò)向C語(yǔ)言高級(jí)算法描述中添加一些編譯指示,就可以在賽靈思FPGA上快速實(shí)現(xiàn)高吞吐量的處理引擎。結(jié)合使用軟件管理的DMA機(jī)制,就可以比通用處理器提速數(shù)十倍。

然而,實(shí)際應(yīng)用中經(jīng)常會(huì)遇到難以處理的復(fù)雜內(nèi)存訪問(wèn)問(wèn)題,尤其是當(dāng)突破科學(xué)計(jì)算和信號(hào)處理算法領(lǐng)域時(shí)更是如此。我們?cè)O(shè)計(jì)出了一種簡(jiǎn)單方法,可供您在此類情況下生成高效的處理流水線。在詳細(xì)介紹之前,我們首先了解一下Vivado HLS的工作原理,更重要的是了解它何時(shí)不起作用。

HLS工具如何起作用?

高層次綜合功能試圖獲取由高級(jí)語(yǔ)言描述的控制數(shù)據(jù)流圖 (CDFG)中的并行性。對(duì)計(jì)算操作和內(nèi)存訪問(wèn)進(jìn)行分配和調(diào)度時(shí),應(yīng)根據(jù)它們之間的依賴約束和目標(biāo)平臺(tái)的資源約束來(lái)執(zhí)行。電路中特定操作的激活與某個(gè)時(shí)鐘周期相關(guān),同時(shí),沿?cái)?shù)據(jù)路徑綜合的中央控制器協(xié)調(diào)整個(gè)CDFG的執(zhí)行。

單純?cè)趦?nèi)核上應(yīng)用HLS可以建立一條具有眾多指令級(jí)并行性的數(shù)據(jù)路徑。但是當(dāng)它被激活時(shí),就需要頻繁停下來(lái)等待數(shù)據(jù)送入。

由于調(diào)度工作是在靜態(tài)下完成的, 因此加速器運(yùn)行時(shí)間的行為相當(dāng)簡(jiǎn)單。所生成電路的不同部分相互之間以相同步調(diào)運(yùn)行;并不需要?jiǎng)討B(tài)的相關(guān)性檢查機(jī)制,例如高性能CPU上出現(xiàn)的那種。例如,在圖1(a) 所示的函數(shù)中,循環(huán)索引添加和curInd的加載可以并行處理。此外,下次迭代可以在當(dāng)前迭代完成前開(kāi)始。

圖1 – 設(shè)計(jì)實(shí)例:(a) 包含不規(guī)則內(nèi)存訪問(wèn)模式的函數(shù);(b) 重構(gòu)得到的流水線結(jié)構(gòu)

同時(shí),由于浮點(diǎn)乘法通常使用上次迭代的乘法結(jié)果

因此可以開(kāi)始新迭代的最短間隔受到浮點(diǎn)乘法器時(shí)延的限制。該函數(shù)的執(zhí)行調(diào)度如圖2(a)所示。

圖2 – 不同情形下的執(zhí)行調(diào)度:(a) 當(dāng)所有數(shù)據(jù)都在片上高速緩存;(b) 動(dòng)態(tài)取數(shù)據(jù);(c) 解耦運(yùn)算

該方案何時(shí)達(dá)不到理想效果?

這種方案的問(wèn)題在于整個(gè)數(shù)據(jù)流圖嚴(yán)格按調(diào)度運(yùn)行。片外通信產(chǎn)生的拖延會(huì)傳播到整個(gè)處理引擎,從而導(dǎo)致性能大幅下降。當(dāng)內(nèi)存訪問(wèn)模式已知,數(shù)據(jù)能在需要使用之前移動(dòng)到芯片上,或者如果數(shù)據(jù)集足夠小,則可完全高速緩存在FPGA上,這類情況下不會(huì)有問(wèn)題。然而,就很多有趣的算法而言,數(shù)據(jù)訪問(wèn)取決于計(jì)算結(jié)果,而且內(nèi)存占用決定了需要使用片外RAM?,F(xiàn)在,在內(nèi)核上單純應(yīng)用HLS可建立一條具有眾多指令級(jí)并行性的數(shù)據(jù)路徑。但是,當(dāng)它被激活時(shí),就需要頻繁停下來(lái)等待數(shù)據(jù)送入。

圖2(b)給出了針對(duì)實(shí)例函數(shù)生成的硬件模塊的執(zhí)行情況,此時(shí)數(shù)據(jù)集太大,需要?jiǎng)討B(tài)送入片上高速緩存。注意減速程度如何反映所有高速緩存缺失時(shí)延的綜合影響。不過(guò),情況并非一定如此,因?yàn)橛?jì)算圖中有些部分的進(jìn)展不需要立即提供內(nèi)存數(shù)據(jù)。這些部分應(yīng)該可以向前移動(dòng)。執(zhí)行調(diào)度中這點(diǎn)額外自由度有可能產(chǎn)生顯著影響,就像我們看到的那樣。

重構(gòu)/解耦實(shí)例

我們看一下剛才的實(shí)例函數(shù)。假設(shè)浮點(diǎn)乘法的執(zhí)行和數(shù)據(jù)訪問(wèn)沒(méi)有全部由統(tǒng)一的安排聯(lián)系在一起。當(dāng)一個(gè)負(fù)載運(yùn)算符等待數(shù)據(jù)返回時(shí),另一個(gè)負(fù)載運(yùn)算符可以開(kāi)始新的內(nèi)存請(qǐng)求,乘法器的執(zhí)行也能向前移動(dòng)。為達(dá)到此目的,每項(xiàng)內(nèi)存訪問(wèn)都應(yīng)該由一個(gè)模塊來(lái)負(fù)責(zé),并按各自的調(diào)度運(yùn)行。此外,乘法器單元應(yīng)該與所有內(nèi)存操作異步執(zhí)行。

不同模塊間的數(shù)據(jù)相關(guān)性通過(guò)硬件FIFO來(lái)通信。對(duì)于我們的實(shí)例而言,可能的重構(gòu)形式如圖1(b)所示。用于各階段之間通信的硬件隊(duì)列可以緩沖已經(jīng)取回但尚未使用的數(shù)據(jù)。當(dāng)內(nèi)存訪問(wèn)部件因高速緩存缺失而出現(xiàn)拖延時(shí),當(dāng)前已產(chǎn)生的積壓數(shù)據(jù)還可以繼續(xù)供乘法器單元使用。在經(jīng)歷較長(zhǎng)時(shí)間后,形成的拖延時(shí)間會(huì)被浮點(diǎn)乘法的長(zhǎng)時(shí)延掩蓋。

圖2(c)給出了使用解耦處理流水線時(shí)的執(zhí)行調(diào)度。這里,通過(guò)FIFO的時(shí)延沒(méi)有考慮在內(nèi),不過(guò)如果迭代量很大,該時(shí)延的影響會(huì)達(dá)到最小。

我們?nèi)绾芜M(jìn)行重構(gòu)?

為了給解耦處理模塊生成流水線,首先需要將初始CDFG中的指令進(jìn)行組合以構(gòu)成子圖。為使所得的實(shí)現(xiàn)方案性能最大化,聚類方法必須滿足幾個(gè)要求。

首先,正如我們之前所見(jiàn),Vivado HLS工具在前面的迭代完成之前使用軟件流水線發(fā)起新的迭代。CDFG中最長(zhǎng)循環(huán)依賴的時(shí)延決定可發(fā)起新迭代的最小間隔,最終會(huì)限制加速器所能實(shí)現(xiàn)的總吞吐量。因此,很重要的一點(diǎn)在于這些依賴循環(huán)不能遍歷多個(gè)子圖,例如用于模塊間通信的FIFO總是會(huì)增加時(shí)延。

其次,應(yīng)該將內(nèi)存操作與涉及長(zhǎng)時(shí)延計(jì)算的依賴循環(huán)分開(kāi),這樣高速緩存缺失就會(huì)被慢速的數(shù)據(jù)處理所“掩蓋”。在這里,“長(zhǎng)時(shí)延”是指操作需要一個(gè)周期以上的時(shí)間才能完成;在這里,我們使用Vivado HLS調(diào)度來(lái)獲取這一指標(biāo)。例如,乘法是長(zhǎng)時(shí)延操作,而整數(shù)加法不是。

最后,為了將高速緩存缺失引起的拖延影響限定在局部范圍內(nèi),您需要將每個(gè)子圖中的內(nèi)存操作數(shù)量減至最少,尤其是在需要尋址存儲(chǔ)空間中的不同部分時(shí)更是如此。

第一個(gè)要求——防止依賴循環(huán)遍歷多個(gè)子圖——很容易滿足,只需要找到原始數(shù)據(jù)流圖中的強(qiáng)連通分量(SCC),并在將它們分為不同集群之前將其打開(kāi)變成節(jié)點(diǎn)。這樣,我們就得到一個(gè)有向的非循環(huán)圖,其中有些節(jié)點(diǎn)是簡(jiǎn)單指令,其它則為一組相關(guān)的操作。

要滿足第二和第三個(gè)要求,即分離內(nèi)存操作和局部化拖延的影響,我們可以對(duì)這些節(jié)點(diǎn)進(jìn)行拓?fù)渑判?,然后將它們分區(qū)。最簡(jiǎn)單的分區(qū)方法是在每個(gè)內(nèi)存操作或長(zhǎng)時(shí)延SCC節(jié)點(diǎn)后畫一條“邊界”。圖3展示了如何將此方案應(yīng)用于我們的實(shí)例。集群與圖1中流水線結(jié)構(gòu)之間的對(duì)應(yīng)關(guān)系應(yīng)該做到顯而易見(jiàn)。每個(gè)子圖都是一個(gè)新的C函數(shù),可獨(dú)立通過(guò)HLS推送。這些子圖在執(zhí)行時(shí)相互間的步調(diào)并不一致。

圖3 – 對(duì)子圖的重構(gòu)

我們構(gòu)建了一個(gè)簡(jiǎn)單的源到源轉(zhuǎn)換工具,用以執(zhí)行重構(gòu)。

我們使用賽靈思IP核,支持FIFO,以連接所生成的獨(dú)立模塊。當(dāng)然,重構(gòu)給定計(jì)算內(nèi)核的方法不止一種,而且設(shè)計(jì)空間探索仍在進(jìn)行中。

流水線化內(nèi)存訪問(wèn)

有了解耦處理流水線的初步實(shí)施方案后,我們就可以對(duì)其執(zhí)行幾項(xiàng)優(yōu)化,以提高其效率。正如我們所見(jiàn),當(dāng)使用HLS映射C函數(shù)時(shí),內(nèi)存讀取出現(xiàn)阻塞。這個(gè)問(wèn)題也出現(xiàn)在流水線中的個(gè)別階段。例如,負(fù)責(zé)加載x[curInd]的模塊在等待數(shù)據(jù)時(shí)可能會(huì)產(chǎn)生拖延,即使在下個(gè)curInd已經(jīng)就緒而且FIFO下游有足夠空間的情況下亦是如此。

為了解決這個(gè)問(wèn)題,我們可以做一下轉(zhuǎn)變以簡(jiǎn)化內(nèi)存訪問(wèn)。對(duì)于某個(gè)特定階段,我們不在C函數(shù)中執(zhí)行簡(jiǎn)單的內(nèi)存加載,而是將地址推送到新的FIFO。然后,單獨(dú)實(shí)例化一個(gè)新的硬件模塊,以讀取地址FIFO送出的地址,并將它們發(fā)送到內(nèi)存子系統(tǒng)。返回的數(shù)據(jù)被直接推送到下游FIFO?,F(xiàn)在,內(nèi)存訪問(wèn)得到了有效的流水線化。

該信息來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)及時(shí)與我們聯(lián)系
呼图壁县| 华宁县| 六安市| 大悟县| 弥勒县| 扎赉特旗| 彰化县| 定结县| 柳江县| 孟津县| 南投市| 蒙自县| 蛟河市| 黄骅市| 蕉岭县| 伊金霍洛旗| 肇州县| 青神县| 台中县| 瓦房店市| 九江市| 广西| 定兴县| 彭泽县| 临朐县| 南靖县| 英山县| 株洲市| 宣恩县| 绵阳市| 三穗县| 县级市| 保定市| 肃北| 天等县| 玉林市| 剑阁县| 吴江市| 深州市| 清远市| 长泰县|