現(xiàn)在位置：范文先生網(wǎng)>理工論文>電子通信論文>H．264視頻解碼器在C6416 DSP上的實現(xiàn)

H．264視頻解碼器在C6416 DSP上的實現(xiàn)

時間：2023-02-20 23:43:31 電子通信論文我要投稿

相關推薦

摘要：介紹了最新視頻壓縮標準H.264，并實現(xiàn)了適合TI C6416 DSP內核的H.264視頻解碼器算法，在NVDK C6416板卡上進行測試，達到了實時的解碼效果。該優(yōu)化算法，結合DSP處理平臺和網(wǎng)絡技術，構成新的多媒體通信終端設備，具有廣泛的應用前景。

關鍵詞：H.264 視頻壓縮數(shù)字信號算是器（DSP） NVDK

多媒體通信終端設備具有廣泛的應用前景，可以應用于視頻會議、可視電話、PDA、數(shù)字電視等各個領域，所以高效、實用的多媒體終端設備一直是通信領域研究的主要方向之一。

多媒體通信終端的實現(xiàn)主要有兩點：一方面需要快速、穩(wěn)定的處理器作為媒體信號處理的平臺，另一方面需要適合多媒體通信的協(xié)議標準和軟件算法，尤其是對音視頻信號的壓縮處理算法。兩者的結合才能產(chǎn)生高效的多媒全通信設備。目前隨著數(shù)字信號處理器（DSP）的高速發(fā)展，為實現(xiàn)高效的音視頻信號處理提供了可能性；另一方面，最新的低碼率視頻壓縮標準H.264的出臺，提供了適合通信的視頻標準和算法指導。因此，將兩者結合，把H.264算法在DSP上實現(xiàn)，對于多媒體通信的研究具有一定的意義和價值。

本文介紹了H.264解碼器算法的DSP實現(xiàn)。在設計中，采用了ATEME公司的網(wǎng)絡視頻開發(fā)平臺（NVDKC6416）作為DSP處理平臺，實現(xiàn)了H.264的優(yōu)化解碼算法。對于QCIF視頻序列，解碼速度達50～60幀/秒。

1 網(wǎng)絡視頻開發(fā)平臺NVDK簡介

NVDK是TI的第三方ATEME公司推出的基于TIC6400系列DSP評估開發(fā)套件，是一套適用于圖像、視頻信號處理的高速DSP開發(fā)平臺。該套件為諸如視頻基礎設施及網(wǎng)絡化視頻設備等高級視頻應用制造商提供了方便，提高了數(shù)字視頻應用項目的開發(fā)速度。
(范文先生網(wǎng)www.qkfawen.com收集整理)
1.1 NVDK C6416體系結構

NVDK C6416由TMS320C6416 DSP內核、10/100Mbps的以太網(wǎng)子卡、音頻/視頻接口盒、PCI總線、存儲器單元、擴展接口及獨立電源等構成。其功能結構框圖如圖1所示。

1.2 NVDK C6416的主要特點

NVDK作為網(wǎng)絡及視頻開發(fā)套件，把很多音視頻接口及網(wǎng)絡接口直接做在板卡上，給采用TI C6000系列DSP芯片作為處理單元的開發(fā)用戶提供了便利的前端平臺。它為項目演示、算法實現(xiàn)、原理制作、數(shù)據(jù)仿真、FPGA開發(fā)和軟件優(yōu)化提供了完整的DSP開發(fā)平臺。其主要特點如下：

·C6416 DSP內核：600MHz時鐘頻率及8指令并行結構，最高可以達到4800MIPS的處理能力。

·視頻特點：在輸入端，NVDK能夠捕獲PAL制或NTSC制的模擬視頻信號，可以采用復合視頻（CVBS）或者S-video視頻信號輸入，輸入模擬視頻信號被數(shù)字化為YUV422數(shù)字視頻格式。在輸出端，NVDK在支持復合視頻（CVBS）以及S-Video輸出的同時，還提供了SVGA輸出模式，視頻采集提供FULL、CIF和QCIF三種圖像格式，視頻輸出提供FULL和CIF兩種圖像格式。

·音頻特點：提供兩路雙聲道音頻輸出，CD音質的輸入輸出立體聲接口，另外還提供一路單聲道的麥克風輸入。

·主接口：提供了PCI接口，允許與PC機相連。該板既可以以PCI模式運行，也可以單獨脫機工作。

·網(wǎng)絡接口：以太網(wǎng)接口為視頻碼流的網(wǎng)絡傳輸帶來了方便。

·外部擴展存儲器：256M 64位寬擴展內存SDRAM和8M 32位寬擴展內存SDRAMB及4MB FLASH ROM提供了跤的內存空間和靈活的內存分配方案。

2 H.264視頻壓縮標準

H.264是由ITU-T視頻編碼專家組（VCEG）和ISO/IEC移動圖像專家組（MPEG）共同提出的最新國際視頻編碼標準。它在H.264、H.263視頻壓縮標準的基礎上，進行了進一步的改進和擴展。其目的是為了進一步降低編碼率，提高壓縮效率，同時提供一個友好的網(wǎng)絡接口，使得視頻碼流更適合在網(wǎng)絡上傳送。由于該標準可以提供更低的碼率，所以更適合應用于多媒體通信領域。

H．264主要有以下新特點：

·網(wǎng)絡適配層NAL（Network Abst

raction Layer）。

傳統(tǒng)的視頻編碼編完的視頻碼流在任何應用領域下（無論用于存儲、傳輸?shù)龋┒际墙y(tǒng)一的碼流模式，視頻碼流僅有視頻編碼層（Video Coding Layer）。而H.264根據(jù)不同應用增加不同的NAL片頭，以適應不同的網(wǎng)絡應用環(huán)境，減少碼流的傳輸差錯。

·幀內預測編碼模式（Intra Prediction Coding）。

幀內預測編碼合理地利用了I幀的空間冗余度，從而大大降低了I 幀的編碼碼流。

·自適應塊大小編碼模式（Adqptive Block Size Coding）。

H．264允許使用16×16、16×8、8×16、8×8、8×4、4×8、4×4等子塊預測和編碼模式，采用更小的塊和自適應編碼的方式，使得預測殘差的數(shù)據(jù)量減少，進一步降低了碼率。

·高精度亞像素運動估計（High precision sub-pel Motion Estimation）。

H.264中明確提出了運行估計采用亞像素運動估計的方法，并制定1/4像素和1/8像素可選的運動估計方法。亞像素運動估計，提高了預測精度，同時降低了殘差的編碼碼率。

·多幀運動補償技術（Multi-frame Motion Compensation）。

傳統(tǒng)的視頻壓縮編碼采用一個（P幀）或兩個（B幀）解碼幀作為當前幀預測的參考幀。在H.264中，最多允許5個參考幀，通過在更多的參考幀里進行運動估計和補償，找到列差更小的預測塊，降低編碼碼率。

·整形變換編碼（Inter Transform Coding）。

H.264采用整形變換代替DCT變換，整形變換采用定點運算代替浮點運算。采用這種變換，不僅可以降低編解碼的時間，而且，為該算法在多媒體算是平臺上實現(xiàn)帶來了方便。在這一點上，H.264視頻編碼標準更適合作為多媒體終端的編解碼標準。

·兩種可選擇熵編碼CAVLC和CABAC。

CAVLC（Context-based Adaptive Variable Length Coding）：基于內容的自適應變長編碼。

CABAC（Context-basedAdaptive Binary Arithmetic Coding）:自適應二進制算術編碼。

以往的視頻壓縮標準中，都采用Huffman編碼與變長編碼相結合的方法進行熵編碼。Huffman編碼雖然是一種很好用的熵編碼方法，但是其編碼效率并不是最高的，而且，Huffman編碼的抗差錯性能很低。H.264中采用了兩種可以選擇的熵編碼方法：CAVLC編碼抗差錯能力比較高，但是編碼效率不是很高；CABAC編碼是一種高效率的熵編碼方法，但是計算復雜很高。兩者各有優(yōu)缺點，所以針對不同的應用，選擇不同的編碼方法。

3 H.264解碼器算法的DSP實現(xiàn)和優(yōu)化

3.1 在PC機上實現(xiàn)H.264算法并進行優(yōu)化

ITU-T官方提供的H.264的核心算法不僅在代碼結構上需要改進，而且在具體的核心算法上也需要做大的改動，才能達到實時的要求。這一步需要做的具體工作包括：去處冗余代碼、規(guī)范程序結構、全局和局部變量的調整和重新定義、結構體的調整等。

3.2 PC機H.264代碼的DSP化

C6000開發(fā)工具Code Composer Studio有自己的ANSIC編譯器和優(yōu)化器，并有自己的語法規(guī)則和定義，所以在DSP上實現(xiàn)H.264的算法要把PC機上C語言編寫的H.264代碼進行改動，使其完全符合DSP中C的規(guī)則。

這些改動包括：去除所有的文件操作；去除可視化界面的操作；合理安排內存空間的預留和分配；規(guī)范數(shù)據(jù)類型——因為C6416是定點DSP芯片，只支持四種數(shù)據(jù)類型：short型（16 bit）、int(32bits)、long型(40bits)和double型（64bits），因此必須對數(shù)據(jù)進行重新規(guī)范，把浮點數(shù)的運算部分近似用定點表示，或用定點實現(xiàn)浮點運算；根據(jù)內存的分配定義遠近程常量和變量；把常用的數(shù)據(jù)在數(shù)據(jù)結構中提取出來，以near型數(shù)據(jù)定義在DSP內部存儲空間，以減少對EMIF端口的讀取，從而提高速度。

3.3 H.264的DSP算法優(yōu)化

通過把PC機H.264代碼DSP化，可以在DSP上實現(xiàn)H.264的編解碼算法，但是，這樣實現(xiàn)的算法運行效率很低，因為所有的代碼都是由C語言編寫，并沒有完全利用DSP的各種性能。所以必須結合DSP本身的特點，對其進一步優(yōu)化，才能實現(xiàn)H.264視頻解碼器算法對視頻圖像的實時處理。

對DSP代碼的優(yōu)化共分為三個層次：項目級優(yōu)化、C程序級優(yōu)化、匯編程序級優(yōu)化。

（1）項目級優(yōu)化：主要是通過選擇CCS提供的編譯優(yōu)化參數(shù)，根據(jù)H.264系統(tǒng)的要求進行優(yōu)化，通過不斷地對各個參數(shù)（-mw -pm -o

3 -mt等）的選擇、搭配、調整，改善循環(huán)、多重循環(huán)體的性能，進行軟件流水，從而提高軟件的并行性。

（2）C程序級優(yōu)化：主要是針對采用的DSP的具體特點進行代碼的功能精簡、數(shù)據(jù)結構的優(yōu)化、循環(huán)的優(yōu)化、代碼的并行化處理。在這里主要工作包括以下部分：去除掉SNR計算、幀率及其他輔助信息的程序模塊。函數(shù)及數(shù)據(jù)映射區(qū)域的調整，把經(jīng)常用的數(shù)據(jù)存儲在片內存儲器中，頻繁調用的程序盡可能映射在相鄰或相近的存儲區(qū)域。C函數(shù)的并行化處理，針對并行化效果差的函數(shù)，尤其是多重循環(huán)體，要進行循環(huán)拆解，將多重循環(huán)拆解為單重循環(huán)。減少存儲區(qū)數(shù)據(jù)的讀取和存儲，尤其是片外存儲區(qū)域數(shù)據(jù)的調用，以減少時間。數(shù)據(jù)結構的重定義和調整。

下面以數(shù)據(jù)結構的調整說明如何合理利用DSP特性進行軟件優(yōu)化。

數(shù)據(jù)結構是指數(shù)據(jù)的類型及其在內存空間的分配方式，不同的數(shù)據(jù)結構，對程序的性能有不同的影響。因此，數(shù)據(jù)結構的調整對程序在DSP上并行執(zhí)行是必不可少的步驟。

在H.264解碼器內核代碼中，數(shù)組mpr[i][j]用來存放一個宏塊的預測系數(shù)，數(shù)據(jù)類型是int型，其中i、j是該系數(shù)的坐標。但是預測系數(shù)實際上只有8位位寬，所以，定義成byte型就足夠了。這樣一方面節(jié)省了內存空間，另一方面，用byte類型可以直接使用LDW指令代替LDB指令，一次讀取4個數(shù)據(jù)，節(jié)省了讀取時間。因此H.264中對系數(shù)的讀取都是以塊為單位的，而內核中的mpr數(shù)據(jù)結構顯然不能充分利用DSP的特性，所以數(shù)據(jù)存儲結構也需要調整，把mpr中每一個塊分配到一個連續(xù)的內存空間有利于數(shù)據(jù)的傳送，如圖2所示。這樣，每一次確定了一個塊以后，只要更改一維的信息就能確定系數(shù)的位置，而原始的結構對每一個系數(shù)都有確定兩位系數(shù)。通過這樣的數(shù)據(jù)調整，可以明顯地提高程序的運行速度。

（3）匯編程序級優(yōu)化。匯編級的優(yōu)化包括兩部分：采用線性匯編語言進行優(yōu)化和直接用匯編語言進行優(yōu)化。由于系統(tǒng)編譯器的局限性，并不能將全部的函數(shù)都很好地優(yōu)化，這樣就需要統(tǒng)計比較耗時的C語言函數(shù)，用匯編語言重新編寫。這些函數(shù)包括：插值函數(shù)、幀內預測函數(shù)、整形反亦換等函數(shù)。

下面以差值函數(shù)中的一段來說明匯編編寫帶來的性能提高。

橫向1/2插值源代碼：for(j=0;j<BLOCK_SIZE;j++){

for(i=0;i<BLOCK_SIZE;i++){

for(result=0,x=-2;x<4;x++)

result+=mref[ref_frame][y_pos+j][x_pos+i+x]

*COEF[x+2];

block[i][j]=max(0,min(255,(result+16)/32));

}

該段代碼采用一個六階濾波器來插值1/2位置的像素值，共插出16個值（一個塊）。源代碼采用三重循環(huán)，內層循環(huán)是插值濾波器，如果直接用編譯器把源泉代碼編譯成匯編的話，內部循環(huán)都要反復讀取一些內存數(shù)據(jù)。采用匯編自己編寫，則可以改進算法，大大降低函數(shù)的運行時間。

如圖3所示，在插值第一個半像素位置時，要在內存中讀取1～6像素的值，插值第二個半像素位置時，要讀取2～7點的值，這樣，就反復讀取了2～5像素點的值，而且，插值一個點需要進行6次乘法、5次加法。用匯編語言編寫，手工排流水線，可以降低數(shù)據(jù)的讀取次數(shù)，同時減少了乘、加法指令數(shù)。首先，采用LDNW指令直接讀取8個數(shù)據(jù)到寄存器中，每次插值直接使用寄存器而不再去內存中讀取數(shù)據(jù)。另外，采用DOTPSU4乘累加命令代替MPL指令，將四次乘法和3次加法用一條指令來代替，減少了指令數(shù)目。

通過以上各種優(yōu)化方法，最終實現(xiàn)了基于C6416內核的H.264 baseline解碼器算法。

4 算法性能的評測及前景展望

在NVDK C6416環(huán)境下，測試了解碼器算法，對QCIF測試序列，已經(jīng)能夠達到50～60幀/秒的解碼速度，遠遠達到了實時性解碼的目的。

在NVDK C6416板卡上實現(xiàn)的H.264視頻解碼器具有功能強、使用靈活等特點，有廣泛的應用前景。該優(yōu)化的算法不僅適用于NVDK板，對于所有的C64開發(fā)板都具有通用性，只要根據(jù)板卡的內存分配，重新配置內存參數(shù)文件，便可以把該算法移植到新的開發(fā)板中。該H.264視頻解碼器與網(wǎng)絡平臺相連接便可以應用于視頻會議、可視電話、無線流媒體通信等應用領域。

【H．264視頻解碼器在C6416 DSP上的實現(xiàn)】相關文章：

針對硬件實現(xiàn)的H.264視頻編碼算法改進08-06

DSP上的指紋識別模塊的實現(xiàn)08-06

在DSP處理器上并行實現(xiàn)ATR算法08-06

DSP與慢速設備接口的實現(xiàn)08-06

數(shù)字濾波器的MATLAB設計與DSP上的實現(xiàn)08-06

CF卡與雙核DSP的實現(xiàn)08-06

用高速DSP在頻域上實現(xiàn)LFM信號的實時脈沖壓縮08-06

基于OMAP的MPEG—4實時解碼器的實現(xiàn)08-06

多制式語音編碼及其DSP實現(xiàn)08-06

国产在线导航,欧美日本中文,黄色在线观看网站永久免费乱码,chinese国产在线视频,亚洲欧洲第一视频,天天做人人爱夜夜爽2020毛片,亚洲欧美中文字幕在线网站

H．264視頻解碼器在C6416 DSP上的實現(xiàn)