圖像壓縮文獻綜述_第1頁
圖像壓縮文獻綜述_第2頁
圖像壓縮文獻綜述_第3頁
圖像壓縮文獻綜述_第4頁
圖像壓縮文獻綜述_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 數(shù)字圖像處理和模式識別期末大作業(yè)題目: 圖像壓縮文獻綜述 班級: 數(shù)字媒體學院計算機技術 姓名: 徐德榮 學號: 6141603020 圖像壓縮文獻綜述1 圖像壓縮編碼概述圖像信息的壓縮編碼,是根據圖像信號固有的統(tǒng)計特性和人類的視覺特性進行的。圖像信號固有的統(tǒng)計特性表明,其相鄰像素之間、相鄰行之間或者相鄰幀之間,都存在較強的相關特性。利用某種編碼方法在一定程度上消除這些相關特性,便可實現(xiàn)圖像信息的數(shù)據壓縮。這個過程也就是盡量去除與圖像質量無關的冗余信息,屬于信息保持(保持有效信息)的壓縮編碼。另一種考慮是,圖像最終是由人眼或經過觀測儀器來觀看或判決的。根據視覺的生理學、心理學特性,可以允許圖

2、像經過壓縮編碼后所得的復原圖像有一定的圖像失真,只要這種失真是一般觀眾難以察覺的。這種壓縮編碼屬于信息非保持編碼,因為它使圖像信息有一定程度的丟失。由此可見,圖像壓縮編碼的研究重點是:怎樣利用圖像固有的統(tǒng)計特性,以及視覺的生理學、心理學特性,或者記錄設備和顯示設備等的特性,經過壓縮編碼從原始圖像信息中提取有效信息,盡量去除那些無關的冗余信息,并且在保證質量(能從這些數(shù)據中恢復出與原圖像差不多的圖像)的前提下,用最低的數(shù)碼率或最少的存儲容量,實現(xiàn)各類圖像的數(shù)字存儲、數(shù)字記錄或數(shù)字傳輸。2 圖像編碼研究現(xiàn)狀 圖像壓縮編碼技術可以追溯到1948年提出的電視信號數(shù)字化,到今天己經有五十多年的歷史。五十

3、年代和六十年代的圖像壓縮技術由于受到電路技術等的制約,僅僅停留在預測編碼、亞采樣以及內插復原等技術的研究,還很不成熟。1969年在美國召開的第一屆“圖像編碼會議”標志著圖像編碼作為一門獨立的學科誕生了。到了70年代和80年代,圖像壓縮技術的主要成果體現(xiàn)在變換編碼技術上;矢量量化編碼技術也有較大發(fā)展,有關于圖像編碼技術的科技成果和科技論文與日俱增,圖像編碼技術開始走向繁榮。自80年代后期以后,由于小波變換理論,分形理論,人工神經網絡理論,視覺仿真理論的建立,人們開始突破傳統(tǒng)的信源編碼理論,例如不再假設圖像是平穩(wěn)的隨機場。圖像壓縮編碼向著更高的壓縮比和更好的壓縮質量的道路前進,進入了一個嶄新的、欣

4、欣向榮的大發(fā)展時期。 數(shù)字圖像壓縮技術可以分為無損壓縮技術和有損壓縮技術。圖像無損壓縮技術主要有:位平面編碼、無損預測編碼(DPCM)以及有損編碼與無損編碼的組合編碼技術。傳統(tǒng)的數(shù)字圖像有損壓縮技術主要有預測(PCM、DPCM)、方塊化、矢量量化、層次、子頻帶和變換等等。近年來,人們又提出了神經網絡法、幾何模型化、分形和小波變換等編碼技術。通常認為,JBIG、JPEG、JPEG2000、MEPG一l、MPEG一2、MEPG一4、MPEG一7等圖像壓縮國際標準是針對不同應用的最佳壓縮算法。在這些標準之中成功地采用了以上的一種或多種混合壓縮技術。3 圖像壓縮編碼的典型方法3.1統(tǒng)計編碼算法 統(tǒng)計編

5、碼是一類根據信息熵原理進行的信息保持型、變字長的編碼方式,也稱熵編碼。編碼時對出現(xiàn)概率高的被編碼符號用短碼表示,對出現(xiàn)概率低的被編碼符號則用長碼表示。在目前圖像編碼國際標準中,常見的熵編碼有霍夫曼(Huffman)編碼和算術編碼。Huffman 編碼可以實現(xiàn)圖像的無損壓縮,壓縮比介于 2:15:1 之間。所得的編碼長度只是對信息熵計算結果的一種近似,還無法真正逼近信息熵的極限。因此,現(xiàn)代壓縮技術通常只將 Huffman 視作最終的編碼手段。實際的壓縮編碼中,碼率很難達到熵值(理論上的平均信息量),不過,熵可以作為衡量一種壓縮算法的壓縮比好壞的標準,碼率越接近熵值,壓縮比越高。算術編碼是到目前為

6、止編碼效率最高的統(tǒng)計熵編碼方法,它比 Huffman 編碼效率提高10%左右。算術編碼的一個重要特點就是可以按分數(shù)比特逼近信源熵,突破了Huffman編碼每個符號只能按整數(shù)比特逼近信源熵的限制。另外,比較容易實現(xiàn)動態(tài)自適應。自適應算術編碼具有實時性好、靈活性高、適應性強等特點,在圖像壓縮、視頻圖像編碼等領域都得到了廣泛的應用。3.2預測編碼算法預測編碼是利用圖像信號在局部空間和時間范圍內的高度相關性,依據已經傳出的近鄰像素的值作為參考,預測當前的像素值,然后量化、編碼預測誤差。在進行預測編碼時,不直接傳送圖像樣值本身,而是對圖像的實際樣值與它的一個預測值之間的差值進行編碼和傳送。如果這一差值,

7、即預測誤差不被再次量化而直接傳送,這就是無損預測編碼(信息保持型預測編碼)。如果允許壓縮過程中存在客觀信息損失,則可以進一步利用人的主觀視覺特性對預測誤差再次量化后再編碼傳送,從而獲得更高的壓縮比,這就是差分脈沖編碼調制(DPCM, differential pulse code modulation)。如果量化器只有兩個輸出電平(量化層數(shù)為 2),則稱為增量調制(M),是 DPCM 的一種特殊形式。由于預測編碼的算法較為簡單,容易用硬件實現(xiàn),早年就得到較多的研究和應用。1952 年,Oliver 對圖像的線性預測法作了理論研究。1958 年,Graham 首次用計算機模擬法研究 DPCM 編

8、碼方法。1966 年,ONeal 依據最小均方差準則,用計算機模擬5法對圖像 DPCM 中的線性預測器和量化器作了系統(tǒng)討論。1969 年,Mounts 等首次提出幀間預測編碼的方法,幀間預測編碼應用廣泛,在視頻編碼標準(如 H.261,H.263,H.264,MPEG1-4)中得到采用。預測編碼在圖像與視頻編碼中占有重要地位,但是它也有弱點,突出表現(xiàn)為對信道誤碼的敏感性方面。3.3變換編碼算法變換編碼是將一組像素值,經過某種形式的正交變換,轉換成一組變換系數(shù),然后根據人的主觀視覺特性,對各變換系數(shù)進行不同精度的量化后再編碼。正交變換的作用是解除像素值之間的空間相關性,降低冗余度。用于圖像編碼的

9、正交變換有:離散傅立葉變換(DFT)、沃什(Walsh-Hadamard)變換(WHT)、哈爾變換(HRT)、離散余弦變換(DCT)、K-L 變換(KLT)、斜變換(SLT)等。除了 K-L 變換外,上述變換都有快速算法。K-L 變換是在最小均方誤差準則下進行圖像壓縮的最佳變換,但由于它的變換矩陣隨圖像內容而異,所以沒有快速算法,也就不適宜用于實時編碼。相比之下,DCT 是性能最接近 KLT 的次最優(yōu)算法,也是目前應用最為廣泛的變換編碼方法,而且是 JPEG 標準的核心算法。變換編碼能充分利用圖像所具有的二維或三維相關性,來得到高于預測編碼的編碼效率。正交變換比較容易實現(xiàn),已成為圖像編碼算法的

10、主流。DCT 算法突出的問題是:在低比特率編碼時塊狀編碼失真明顯。這是因為將圖像信號從空間域向頻率域變換后,進行有效壓縮所采用是的離散余弦變換,它將圖像劃分成方塊域,而后各塊內產生的編碼失真在塊邊緣形成了不連續(xù)的狀況。3.3.1 基于DCT變換的圖像編碼算法(1)DCT編碼最小均方誤差條件下得出的最佳正交變換是K一L變換,而離散余弦變換(DCT)是僅次于K一L變換的次最佳變換l0,且已獲得廣泛應用,并成為許多圖像編碼國際標準的核心。離散余弦變換的變換核為余弦函數(shù),計算速度較快,有利于圖像壓縮和其他處理。在大多數(shù)情況下,離散余弦變換DCT用于圖像的壓縮操作中的基本思路是,將圖像分解為8X8的子塊

11、或16x16的子塊,并對每一個子塊進行單獨的DCT變換,然后對變換結果進行量化、編碼。DCT壓縮編碼是一種正交變換編碼,將二維圖像變換成它的空間頻譜,將其按由低頻到高頻的順序重排。由于圖像頻譜從低到高逐漸衰減,故可在一定量化等級下進行舍棄,從而達到壓縮的目的。DCT廣泛應用于眾多壓縮方案的原因在于其理論、算法和硬件相對成熟,去相關性好,適應人眼的視覺特性,計算量不大(沒有復數(shù)計算),易于實現(xiàn)?;贒CT的混合編碼技術對于彩色圖像的壓縮倍數(shù)可以達到幾十倍乃至上百倍,而且重建的圖像又具有較高的質量,因此得到廣泛的應用。近年來,基于DCT變換域的分析、處理操作的研究十分活躍,其主要原因在于JPEG和

12、MPEG等國際壓縮標準都是以DCT變換為基礎的,而大量的圖像數(shù)據都采用國際標準進行壓縮。(2)一維DCT算法長度為N的一維序列x(n):n=O,1,,,N一1的DCT定義為:其中,為正交化因子,它是為了保證變換基的規(guī)范正交性而引入的。一維DCT反變換(IDCT)為:若以N維矢量x表示原始數(shù)據,N維矢量X表示DCT變換系數(shù),則有如下矩陣形式: 其中變換矩陣u為:可見u是一個正交矩陣,但不是對稱矩陣,反變換(IDCT)矩陣除了行、列序號互換外,形式上與u完全相同。(3)二維DCT算法二維數(shù)據 的20一DCT定義為:其中定義與一維DCT變換中定義相同,寫成矩陣形式: 其中,u為NxN變換系數(shù)陣列,v

13、J為MxM的變換系數(shù)陣列。也可表示為下列矩陣形式:其中:x輸入數(shù)據矩陣(NxM)XDCT系數(shù)矩陣(NxM)C(N)N點DCT變換矩陣(NxN);為其轉置。二維DCT的變換核實可分離的,即二維DCT可以分解成行方向的一維DCT和列方向的一維DCT,可用兩次一維DCT實現(xiàn)二維DCT,此法稱為”行列法”。(4)層次DCT變換方法一直以來,對DCT系數(shù)的量化只是局限于每個圖像子塊中,沒有利用到子塊圖像的相關性,如果我們用頻帶的觀點來看待DCT系數(shù),組成類似子波變換后的結構,就可以把整個圖像作整體考慮,克服了圖像子塊獨立處理的缺點,為獲得更高的壓縮率打下基礎。首先將輸入圖像進行第一層的DCT變換,變換后

14、的圖像可以看成是類似于小波變換的子帶結構。上圖(a)一幅圖像首先被分解為四個子圖像和,分別分別稱為低頻子圖像,垂直方向子圖像,水平方向子圖像和高頻子圖像。利用DCT變換的能量集中性好的特性,只對域的頻域系數(shù)做DCT反變換,這樣恢復到空間域的圖像數(shù)據再做第二層的DCT變換;同樣變換后的空間域圖像數(shù)據成為頻域的系數(shù)集,再次利用DCT變換的能量集中性的特性,也只對域的頻域系數(shù)做第二次DCT反變換,這樣恢復到空間域的圖像數(shù)據再做第三層的DCT變換.如圖(b)這樣一幅MxN的原始圖像經過第一次DCT變換后,分解成4個(M/2)x(N/2)的子帶,每個子帶經DCT反變換后都是一幅完整的圖像,只是各自反映了

15、同一幅圖像的不同信息。其中, 是圖像的高頻系數(shù),反映了圖像的細節(jié)部分。取做DCT反變換,恢復出一幅完整的圖像,進一步對其分解,做第二次DCT變換,同樣分解成四個子帶,每個子帶經DCT變換后也都是一幅完整圖像,各自反映了同一幅圖像的不同信息。重復上述步驟,再做第三次DCT變換,分解出,具體如下圖所示,一幅待編碼的圖像經過L級變換后得到3L+1幅不同尺度的子帶圖像。圖像經過層次DCT變換后生成的圖像的數(shù)據總量與原圖像的數(shù)據量相等,即DCT變換本身并不進行數(shù)據壓縮,之所以將它用于圖像壓縮,是因為生成的DCT圖像具有與原圖像不同的特性,表現(xiàn)在圖像的能量主要集中于低頻部分,而水平、垂直和對角線部分的能量

16、則較少;水平、垂直和對角線部分表征了原圖像在水平、垂直和對角線部分的邊緣信息,具有明顯的方向特性。低頻部分可以稱作亮度圖像,水平、垂直和對角線部分可以稱作細節(jié)圖像。對所得的四個子圖,還應根據人類的視覺心理和心理特點分別作不同策略的量化和編碼處理。一直以來,對DCT系數(shù)的量化只是局限于每個圖像子塊中,沒有利用到子塊圖像的相關性,如果我們用頻帶的觀點來看待DCT系數(shù),組成類系子波變換后的機構,這樣就可以把整個圖像作為整體考慮,克服了圖像子塊獨立處理的缺點,為獲得更高的壓縮率打下基礎。加之人眼對亮度圖像部分的信息特別,對這一部分的壓縮應盡可能減少失真或者無失真,對細節(jié)圖像可以采用壓縮比較高的編碼方案

17、。層次DCT變換的這一特性與小波變換具有相同的特征,但運算的復雜性卻大大降低。3.4矢量量化編碼算法矢量量化編碼的理論基礎是香農的率失真理論。Gersho 在 1979 年從理論上證得:當矢量量化中的矢量維數(shù)不斷增加時,編碼性能將無限接近于稱之為碼率失真界限的信息壓縮極限。矢量量化編碼的突出優(yōu)點是解碼簡單,主要缺點是編碼過程計算復雜,矢量量化編碼所能達到的圖像質量取決于很多因素,包括像素矢量塊的大小、像素之間的相關性、碼速對編碼圖像的適應性等。該方法主要適合于低碼率圖像編碼。小波變換壓縮算法小波變換彌補了DCT不適合對寬帶信號進行壓縮的缺陷,是一種不受帶寬約束的數(shù)據壓縮方法。其基本思想是:用一

18、族小波基去逼近一個信號。小波變換的特點是:它具有時頻分析的能力,能把圖像信號的能量聚集于某些頻帶中,這一特點有利于壓縮編碼。對于窄帶信號,它可以通過縮小的方法使得對信號的描述較為精細;而對于寬帶信號,則可以通過放大的方式使刻畫滿足精度的需要。小波變換和逆變換具有形式上的完美的對稱性,且具有基于卷積和正交鏡像濾波器的塔形快速算法。系數(shù)編碼是小波算法最具特色的部分,常用的有嵌入式小波零樹編碼(EZW)、層次樹分割集(SPIHT)等。這些方法主要是利用了小波分解圖像各頻帶間的繼承關系,采用門限過濾算法將系數(shù)按其對于重建圖像貢獻大小依次發(fā)送的思想。小波變換(WT)用于圖像壓縮技術的一系列優(yōu)點在于:它具

19、有宜與人類視覺系統(tǒng)(Human Visual System,HVS)相結合的潛力,從而可在同樣的平均碼率下,獲得質量更好的重建圖像,或在相同的評價條件下,得到更高的圖像壓縮比。但小波變換也存在一定的問題。如到目前為止,成熟的小波基極其有限,利用多分辨分析構成的一些類型的小波基,大多無解析表達式,多是一些分段函數(shù)的傅氏變換形式;常用的緊支正交小波基不能滿足實際中對稱性的要求;平緩信號的分析不如傅氏變換;正交小波基對于時、頻局部性要求都很高的問題顯得力不從心。3.4.1 基于小波變換的 EZW 算法。(1)EZW 原理在EZW算法中,待編碼的小波系數(shù)的重要性一般都是利用閾值來進行預測的。假設給定的

20、閾值為 T,若當前小波系數(shù)的絕對值 x 小于閾值 T,則認為 x 是關于閾值 T 的不重要的系數(shù),假如它的所有的子代系數(shù)關于 T 也是不重要的,則把 x 稱為閾值 T 的零樹根. 若 x 的絕對值大于 T 則認為是重要的系數(shù).對于一個給定的閾值,EZW 算法是按照下面的掃描方式。EZW 的量化編碼是采用逐次逼近量化的方式進行的,要對圖像進行多次的掃描。但每一次的掃描均包含以下的幾個步驟: 取閾值對于一個 L 級的小波變換來說,算法所采用的是一個閾值序列:來判斷當前小波系數(shù)的重要性。其中:i為掃描的次數(shù)。其中:i=1,2.L-1。一般初始閾值定義為:其中:f(i,j)為小波變換系數(shù)集。- 圖:E

21、ZW算法掃描順序 掃描按照如上圖 中所示的掃描方式,將當前小波系數(shù)與閾值進行比較,輸出以下四種編碼符號: a:若當前系數(shù)的絕對值小于閾值,則該系數(shù)為次要系數(shù),并且各級子帶系數(shù)的絕對值均小于閾值,則輸出符號 T,并將其用特殊的符號進行標注,在后續(xù)的編碼中,對其所有的子系數(shù)都不再處理;b:若當前系數(shù)的絕對值小于閾值,則該系數(shù)為次要系數(shù),但它的子帶中有重要的系數(shù),在輸出符號 Z;c:若當前系數(shù)的絕對值大于閾值且為正,則該系數(shù)是正的重要系數(shù),輸出符號P;d:若當前系數(shù)的絕對值大于閾值且為負,則該系數(shù)是負重要系數(shù),輸出符號 N;在掃描的過程中,這些符號存儲到一張表中,在第i次掃描后,將重要系數(shù)的位置上的

22、系數(shù)值設置為 0,在下次掃描過時則直接跳過這些位置. 輔掃描輔掃描主要是在主掃描中被認為是重要系數(shù)的小波系數(shù)進行量化編碼。在量化要首先構造量化器,量化器具有一個區(qū)間,區(qū)間的最大值為初始閾值的 2 倍,最小值為當前的閾值,所以輸入區(qū)間為,將輸入區(qū)間分為兩個區(qū)間若系數(shù)屬于區(qū)間則量化為“0”,在重構時,重構值為 1.25,若屬于區(qū)間則量化為“1”。重構值為 1.75。并用一張輔表存儲這些二進制符號流。 新排序在下一次的掃描進行之前,要將輔表中的重要系數(shù)進行排序。排序所用的標準是重要系數(shù)所在的區(qū)間值的大小,即將幅值在中的數(shù)據排在幅值位于的數(shù)據之前。因此在本級的編碼中,被優(yōu)先編碼的是那些排在前面的幅值較

23、大的系數(shù)。 出編碼符號流EZW 編碼算法中,編碼器的輸出主要包括兩個部分的信息:傳解碼端的信息和編碼端用于下次掃描的信息。其中,解碼端的信息主要有主、輔掃描表和閾值;編碼器端的信息主要是當前所用閾值及重新排序過的重要系數(shù)序列。下面2圖分別表示的是系數(shù)類型編碼和圖幅值編碼的流程圖。(2)EZW的算法步驟 綜合以上的說明可給出 EZW 算法的主要的步驟如下:1.數(shù)字圖像進行邊界嚴拓;2.尋找合適的小波基,采用二維離散小波變換對經過邊界嚴拓后的圖像進行變換,產生出一系列的子圖像;3.據初始閾值的計算公式得出初始閾值;4. 按照上述的主掃描和輔掃描的方法,對圖像進行多次掃描,形成主表和輔表;5. 將輔

24、表中存儲的重要小波系數(shù)量化值的次序進行調整;6. 到達指定的要求停止編碼,否則重復和。在解碼端,最先得到恢復的是最重要的系數(shù),隨后恢復的是在閾值減小一半后控制輸出的系數(shù),如此重復的進行,也可以滿足要求后即結束解碼。在解碼的過程中,重要系數(shù)的恢復幅值均是所在區(qū)間的中間值。3.5分形壓縮算法分形壓縮的方法是利用圖形處理技術把原始圖像分割成若干子圖像,然后為每個子圖像尋找迭代函數(shù)(Iterated Function),子圖像以迭代函數(shù)的形式存儲。由于這樣的迭代函數(shù)一般只需要幾個數(shù)據表示即可,所以分形壓縮可以達到較高的壓縮比。解壓縮時,只要調出每個子圖像對應的迭代函數(shù)進行反復迭代,就可以恢復出原來的子

25、圖像。分形壓縮充分考慮人的視覺特性以及自然景物的特點。其優(yōu)點是:壓縮比取決于圖像分割后所產生的子塊的大小,子塊取得越大,壓縮比越高;由于分形變換可把圖像劃分成大得多、形狀復雜得多的分區(qū),故壓縮比不受分辨率的影響。缺點有:分形壓縮編碼是非對稱的,壓縮時計算量較大,所需時間較長,但是解壓縮速度很快;隨著被壓縮圖像尺寸的增大,運算量增長過快。目前的最大障礙在于它的逆問題,即如何尋找任意一幅自然圖像的分形迭代碼,此方法仍處于不成熟的發(fā)展階段。3.5.1 Jacquin 分形圖像壓縮算法(1)Jacquin 提出的基于方塊劃分的分形圖像壓縮方法是以局部的仿射變換代替全局的仿射變換,此方案為實現(xiàn)了圖像的自

26、動分割,為分形壓縮編碼的研究注入了生機與活力,使其得到快速發(fā)展。此后,分形圖像編碼引起了世界各國研究人員的廣泛興趣和關注,成為目前編碼研究的熱點。(2)局部迭代函數(shù)系統(tǒng)為討論圖像壓縮,應首先建立圖像數(shù)學模型,常用的模型有三種:測度空間、像素數(shù)據和函數(shù)。1.當以測度作為圖像模型時,是把圖像表示成平面上的一種測度 ,此時,明暗度就能由平面子集 A上的度量來表示。2.在像素數(shù)據模型中,把圖像表示為離散像素的集合。3.函數(shù)模型就是將圖像表示成連續(xù)函數(shù) f ( x, y ),( x, y ) 0,1 × 0,1。對于一些實際的圖像,不存在整體與局部的自相似性,但經驗表明,圖像中一些部分存在不同

27、比例的自相似,這些部分不是它們自身在仿射變換下的恒等復制品,而是有誤差的。于是產生了局部迭代函數(shù)系統(tǒng),它是 IFS 的推廣,只是每個變換 的定義域僅為 X 的一部分。定義 12(局部迭代函數(shù)系統(tǒng)LIFS)設( x, d )是完備度量空間, 局部迭代函數(shù)系統(tǒng)是下列壓縮映射集: 為了能夠實現(xiàn)灰度上的匹配,我們對二維的平面映射上再加上灰度的映射作為三維,就構成了帶映射的局部迭代函數(shù)系統(tǒng)。(3)固定分塊算法原理及分析 算法原理本節(jié)主要研究灰度圖像的 Jacquin 的固定分塊分形圖像壓縮編解碼過程。編碼過程可分為如下步驟:1)對壓縮圖像進行分塊:Jacquin 不從整幅圖像作拼貼來尋找 IFS 碼,而

28、是根據局部迭代函數(shù)系統(tǒng),把圖像 I 分成為不重疊的N × N個圖像塊,如8 × 8和4 × 4的方塊 ,稱為尺寸 R × R的值域塊(range)或子塊。,且,當 i j時。是分形壓縮中的一個編碼單元。2)建立搜索空間:用 D × D截取窗口沿待編碼圖像的水平和垂直方向(即 X Y軸)分別以步長和 移動,每一次移動后的截取方塊稱為匹配塊 (domain block,也稱定義域塊),所有 構成搜索空間 。搜索空間的大小即匹配塊個數(shù)n(), 由下式計算: 實際算法中通常取 D = 2N = 3)搜索最優(yōu)匹配塊:在搜索空間內,對每一個值域塊 ,通過

29、MSE 原則尋找誤差最小的匹配塊 ,使得 經適當?shù)姆律渥儞Q 來逼近 即使之滿足:。 如圖所示:其中,仿射變換 必須是壓縮映射,對灰度圖像進行實際操作時,仿射變換一般采用以下三種具體變換的合成: a. 幾何縮小變換 G:主要完成從定義域塊到值域塊的空間收縮映射,通常采用四鄰域平均法,相鄰四個象素壓縮成一個象素,其灰度值為四象素灰度值的平均。 壓縮成 ,大小為8 × 8,且 相鄰差一個像素,從而形成了新的D 庫,使得與 具有相同的空間尺度,通常用下式表示此過程: b. 仿射變換 A:通過適當?shù)膶ΨQ變換和旋轉變換,使得盡可能具有相近的灰度分布。為了減少變換參數(shù)所需的存儲空間并降低變換的復雜

30、性,對一個方塊象素塊,A 通常采用第二章的 8 種對稱變換方式之一,使得c. 灰度變換 M:取為線性變換,其形式為:,其中 和 分別是灰度變換的尺度因子和偏移因子。將得到的新子塊與值域塊 的灰度平方誤差記為,則平方誤差可表示為:要求得最佳匹配,即要使變換后得到的新子塊與值域塊最相似,就需要使它們對應像素之間的灰度差值最小,灰度平方誤差也就最小。利用最小方差準則,可以求得使值最小的s和o?;叶茸儞Q尺度因子: 灰度變換偏移因子: 其中 為的平均灰度值,為的平均灰度值;此時,平均誤差的最小值為:將與預先定義的灰度平方誤差門限L比較,若 < L,則己求得最佳匹配,進行步驟 4)。否則,回到步驟

31、2)的對稱旋轉變換 A,從下表 中重新選取另外一種變換,并計算相應的和 。若下表所示的所有變換都進行過,未找到最佳匹配,在搜索空間中選擇另外一個塊,計算其與 是否匹配。重復以上過程,若搜索空間中的所有都計算匹配過,而未能與匹配,即未能找到滿足 < L的,則取前述搜索過程中最小的對應的定義域塊作為最佳匹配塊。4)存儲分形編碼信息:通常需要存儲值域塊與其最佳匹配塊之間的相對位置,灰度變換尺度因子 s ,灰度偏移因子 o ,對稱旋轉變換序號 n。以 256 ×256大小的灰度圖像為例:分割成8 × 8大小的值域塊,以步長 1 分成16 × 16大小的定義域塊,采用

32、全局搜索。則個需要 8bits 表示;s 的范圍基本為 0 1,可用 3bits進行保存; o 范圍為 0 255,需要 8bits 表示;n 為 0 7,采用 3bits。8+8+3+8+3=30bits,而8 × 8大小圖像塊原來的灰度信息需要 8 × 8 × 8=512bits 表示,因此,壓縮比。解碼過程如下:分形編碼方法的解碼就是用我們求得的局部迭代函數(shù)系統(tǒng)(LIFS)的吸引子來近似原始圖像。編碼過程中所得到的 LIFS 是緊縮、收斂的,它的吸引子可以通過對任意的初始圖像的不斷迭代變換得到?;謴蛨D像與原始圖有一定誤差,拼貼定理限定了其誤差上限。從嚴格的數(shù)

33、學角度上講,這種迭代是無窮次的,但在實際的數(shù)字圖像的解碼中,迭代 610 次就可以滿足要求。 算法分析 Jacquin 分形圖像算法雖然實現(xiàn)了全自動編碼,整個過程不需要人工交互,但最大的缺陷就是計算量太大,不能達到實用的階段。這里簡單分析一下 Jacquin 編碼方案的計算復雜度。對于一個C × C大小的圖像,假設值域塊的大小為K × K,定義域塊的大小為2 K × 2K,則該圖像共有個值域塊,個定義域塊。在 Jacquin 方案中,一個值域塊和一個定義域塊之間相似性的計算量與 成正比,而對于每一個值域塊,要與所有的定義域塊進行相似性比較,因此每一個值域塊的編碼計

34、算量與成線性關系,所以對一幅圖像來說,其編碼復雜度與成正比,考慮到K 為常數(shù),因此分形圖像編碼的計算復雜度為O ( )。若考慮到 8 種將 映射到的仿射變換,這意味著對每個值域塊中的任一個都要有8 × O ( )次比較。另外定義域塊中的像素數(shù)目為值域塊中的像素數(shù)目的 4 倍,所以我們還需要進行下采樣或者將定義域塊中2 × 2的小塊取平均值后對應于值域塊中的像素。因此,降低分形圖像編碼的復雜度,提高編碼速度,成為人們研究熱點。從20 世紀 90 年代起,很多學者都提出了改進算法。3.5.2 改進的Fisher 分形圖像壓縮算法 (1)自適應四叉樹分割Fisher在Jacqui

35、n的分形圖像壓縮算法的基礎上提出了一種改進的方法自適應四叉樹方法分割值域塊。和經典的Jacquin分形圖像編碼相比,四叉樹分割法具有分塊靈活性高,壓縮率高的優(yōu)點。自適應四叉樹方法是一種值域塊分塊方法,它將圖像表示成一棵四叉樹,樹根就是原圖像本身。除葉節(jié)點外,樹中每個節(jié)點均有4個子節(jié)點,分別對應于原圖像(或圖像塊)4個象限的子塊。原理如圖所示:圖像自適應分塊的目的是將圖像合理地劃分成不同尺寸的R塊,使任意一塊都能找到合適的D塊與之相應。這樣圖像中粗糙的部分能以較大的圖像塊進行變換壓縮,提高壓縮比;而圖像中精細的部分以較小的圖像塊進行變換壓縮,保證較高的圖像還原質量。為保證圖像質量同時減少分塊數(shù),

36、一般在分割圖像之前,設定一個誤差閾值,先把圖像分成尺寸相對較大的固定塊,按MSE 準則尋找其最優(yōu)相似快,如果找不到滿足誤差閾值要求的相似塊,則將它細分為4個尺寸相同的較小塊,再重復尋找最優(yōu)相似塊的過程,直到找到所有塊的最優(yōu)相似塊或分割的圖像塊達到設定的最小尺寸為止。在實際操作過程中,常設定塊尺寸的最大邊長為 ,塊尺寸的最小邊長為 ,一個邊長為 圖像塊的四叉樹編碼過程與步驟描述如下:Step 1:設置一空堆棧,置堆棧指針 j = 0,對邊長為的塊按 MSE 準則尋找其最優(yōu)相似快,若找到滿足誤差閾值要求的最佳相似快,轉至Step5,否則進入Step2;Step 2:把找不到滿足要求的值域塊,按圖示

37、意分成4個尺寸相同的較小塊,記成, i = 1, 2,3, 4,依次壓入堆棧,置 j = 4;Step 3:彈出堆棧中的一個塊 , j = j 1,在原圖像中搜索4倍規(guī)模于 的匹配塊 ,對進行伸縮,使得伸縮后的尺寸與值域塊 的尺寸相同,對伸縮后的定義域進行仿射變換,進而尋找最優(yōu)的對比度s和亮度o。按下式計算誤差e:其中( i = 1, 2, , n; j = 1, 2, , m)是定義域塊經過旋轉反射和伸縮變換后的像素值,( i = 1, 2, , n; j = 1, 2, , m)是值域塊的像素值;Step 4:若 e 小于誤差閾值 或圖像塊 的邊長已是預先設定的 ,則保存相似塊的像素值,轉

38、向Step5;否則把該 塊均分成為4,變成4個更小的區(qū)域塊 ,依次壓入堆棧, j = j+ 4,轉至Step3;Step 5:若 j = 0,編碼結束;否則轉至Step3。經過以上方法進行分解后,其最終的值域塊的集合可能包含多種不同尺寸的方塊。雖然從理論上來說,如果塊的大小取1×1或2×2或N × N,是可行的,在分形圖像壓縮中顯然是不合適的。因此,在實際中我們常取最小塊為4×4,最大塊( N / 2 ) × ( N/ 2)。(2)相似塊集合的矩分類為了配合分割法預處理的自適應四叉樹圖像分塊,把經過四叉樹分割后的值域塊和定義域塊都分成四個等大小

39、的子塊,然后分別計算出這四個子塊的均值 ( i = 1, 2,3, 4)和方差( i = 1, 2,3, 4),根據子塊均值 ( i = 1, 2,3, 4)的排列組合,應該有24種不同的類型。但是考慮到前面介紹的塊的8種仿射變換(4種旋轉,4種對折),這24種類型可以歸并為3種主類。這樣就可以先把值域塊和定義域塊分成三個主類之一(圖3.4表示了3個主類對應的亮度層次):其次,再根據子塊方差( i = 1, 2,3, 4)的排列組合,也得到24種類型(經過仿射變換后,這24種類型不能歸并,即沒有相同的類型)。這樣就又把每個主類又分成24個子類,總共可以分成72類。編碼時,先進行預處理,將所有的

40、定義域按上述方法歸類,然后在對某一個給定的值域塊編碼時,也先對它進行歸類,搜索時就只在與其同類的定義域塊集中尋找匹配的定義域塊。這樣需要與值域塊進行匹配計算的定義域塊的數(shù)目,即搜索空間就大大減少了,從而可以達到加快編碼的目的,同時還能保證解碼圖像質量幾乎不變。解碼時,自適應的解碼原理同基本分形圖像壓縮算法解碼原理相同。3.6基于神經網絡的壓縮算法人工神經網絡(Artificial Neural Net,ANN)簡稱神經網絡,是對人腦或自然神經網絡若干基本特性的抽象和模擬。人工神經網絡由大量的神經元模型所組成,實際上是一個超大規(guī)模的非線性連續(xù)時間動力自適應信息處理系統(tǒng)。目前人工神經網絡在人工智能

41、、模式識別、圖像處理等領域都有著重要應用?;谏窠浘W絡的壓縮算法試圖在解決好充分利用人的視覺特性這個問題上有所突破。目前直接用于圖像壓縮的神經網絡主要有BP(Back Propagation)網絡和自組織映射神經網絡。BP 網絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是目前應用最廣泛的神經網絡模型之一。該算法的思想為:把一組輸入模式通過少量的隱節(jié)點映射到一組輸出模式,并使輸出模式盡可能的等同于輸入模式。當中間的隱含層節(jié)點數(shù)小于輸入層節(jié)點數(shù)時,就意味著中間隱含層能更有效地表現(xiàn)輸入模式,并把這種表現(xiàn)傳送到輸出層。在這個過程中,輸入層和中間層的變換可以看成是壓縮編碼的過程;而中間層和輸出層的變換可

42、以看成是解碼的過程。該算法可以直接用來進行數(shù)據壓縮,實現(xiàn)起來比較簡單,但是并不完善,存在學習收斂速度太慢、網絡的學習記憶具有不穩(wěn)定性等缺陷。3.6.1基于BP人工神經網絡的圖像壓縮算法(1)傳統(tǒng)的基于BP人工神經網絡的圖像壓縮BP(Back一ProPagation)算法,即為誤差反向傳播算法,在網絡內部有兩種信息!流通:輸入信號正向傳播和誤差信號反向傳播兩個過程,如圖4.1所示"網絡的拓撲結構包括輸入層!隱層和輸出層"從外界或者其他神經元來的信息進入輸入層,經過輸入層的運算輸出傳給中間隱層神經元;隱層神經元進行信息的處理,包括特征提取等,隱層可以有單層或者多層結構,根據信息

43、表示的需要和變化能力的需求進行設計;輸出層接受最后一個隱層的輸出作為輸出層的輸入,通過輸出層的運算得到整個神經網絡的輸出,從而完成一次輸入信號的正向傳播"如果輸出的結果與期望的結果,即與“教師”差別超出了能夠容許的范圍,或者網絡的訓練次數(shù)還沒有達到設定的最大閡值,則進入誤差的反向傳播,從而逐層地按照誤差梯度下降的方式調整各層的權值"權值的改變有兩種方式,一種是對所有模式的梯度求和,即計算出權值誤差,到訓練結束是進行累加,然后調整權值,將變化量加到原有的權值上得到新的權值,這是屬于一種批處理的方式;另一種方式是對每一個輸入模式,調整一次網絡的權值,如果模式結合的可能性比較大,

44、這種處理方式更為有利"在整個網絡中,每一層神經元只能夠影響其相鄰層的神經元狀態(tài)"通過不斷地輸入信自!正向傳播和誤差信息的后向傳播,各層權值不斷調整,直到輸出結果和“教師”之間的誤差減少到可以接受的程度"當訓練次數(shù)超過設定的最大值時,網絡的訓練也會結束"。傳統(tǒng)的基于BP的人工神經網絡中,對于一幅MxN的圖像,將其劃分為大小為mxn的子塊,每個子塊的數(shù)據按照一定的排列規(guī)則形成一個向量"訓練時,從這些向量中隨機選取一個向量作為BP網絡輸入,并將此向量作為輸出的”教師”假設隱層神經元數(shù)量為k,則要求k<mxn,隱層神經元的多少不僅影響壓縮比,而且

45、影響重構圖像的質量,通過實驗大致上取為為合理"例如,對于一幅大小512*512像素,每個像素值在O一255的灰度圖像,可將其劃分為4x4的子模塊,則整幅圖像包含有128x128個子模塊,每個子模塊形成一個向量"由于神經網絡輸入值范圍的特點,對所有向量輸入進行歸一化處理,使向量的每個元素取值都在0,l的范圍內"將這些向量輸入BP網絡進行訓練,直到滿足要求的誤差精度或者達到了最大的訓練次數(shù)為止,此時形成了固定的網絡權值"每個輸入向量通過輸入層到隱層的映射,形成對應的壓縮數(shù)據"在解碼端,通過隱層到輸出層的網絡映射,將壓縮數(shù)據進行恢復"最后進

46、行反歸一化處理,得到灰度取值在O到255之間的重構圖像" 圖:3層的BP神經網絡3.7基于方向濾波的圖像壓縮算法為了解決小波變換方向缺失的問題,多尺度、多方向和各向異性的多尺度幾何分析(Muti-scale geometric analysis, MGA)理論得到了快速的發(fā)展。MGA 的范疇非常廣泛,其中有一類帶有方向濾波器組(Directional filter banks, DFB)的圖像方向濾波算法,可以較好地捕捉圖像的方向信息,達到比小波變換更優(yōu)的表示效果。Do 和 Vetterli 提出的contourlet 變換就是一種著名的方向濾波算法。Contourlet 變換通過引

47、入拉普拉斯塔式(Laplacian pyramid,LP)分解和方向濾波器組,可以最優(yōu)地表示二維圖像的方向信息。但是,contourlet 變換因為有 4/3 的冗余度而造成編碼效率偏低,并不是圖像編碼的最佳選擇。Eslami 和 Radha 在 contourlet 變換的基礎上,用二維小波變換取代 LP 分解,提出了小波-contourlet 變換(Wavelet-based contourlet transform, WBCT)。WBCT 是一種無冗余變換,比 contourlet 更適合圖像編碼。隨后,Eslami 和 Radha 又提出了混合小波-方向濾波器組 (Hybrid wav

48、elets and directional filter banks, HWD)變換,從而擴展了WBCT 的概念。HWD 通過定義了多種 DFB 形式,使方向濾波器組和小波變換的結合更加靈活。圖像的這一類方向濾波算法提出后,受到了很多學者的關注和深入研究,期間出現(xiàn)了各種基于方向濾波的圖像編碼方案,而非冗余的 WBCT 和 HWD 無疑是這個分支上最優(yōu)秀的兩種算法。在 WBCT 域做圖像編碼,影響編碼性能的因素有很多,如小波分解級數(shù),方向分解級數(shù)等,都是需要討論的問題。而在 HWD 域中,情況似乎更加復雜,除了上述幾個問題,HWD 的分解結構也是至關重要的一個因素。另外,雖然基于 WBCT和 H

49、WD 域的圖像編碼方案可以較好地捕捉圖像的方向信息,但是由于變換域系數(shù)的量化,也引入了不可避免的振鈴效應。由于方向濾波器組本身的特性,這種振鈴效應要比JPEG2000 編碼方案中的振鈴效應嚴重得多,在尋求較優(yōu)的編碼方案時,控制好振鈴效應也是必須要考慮的重要問題。目前就這些問題討論并提出解決方案的文獻,相對較少。深入研究 WBCT 和 HWD 變換域的特性,尋求一種高效的圖像編碼方案,具有重要的意義。3.7.1 WBCT 域靜止圖像壓縮算法(1)WBCT 的小波分解級數(shù) NLA 實驗可以很好地考察變換域的稀疏表達能力。其主要思想是在變換域保留絕對值最大的一部分系數(shù),其他系數(shù)都舍棄(即置零)。用保

50、留的大系數(shù)來重構圖像,分析重構圖像的質量。下表為 barbara 圖像在各個 WBCT 分解向量下的 NLA 實驗結果,表中數(shù)據為重構圖像和原圖像的 PSNR 值。分析下表的實驗結果,可以得出,小波變換的分解級數(shù)對 WBCT 的變換性能有著極大的影響。當分解級數(shù) L 小于一定值時,在較低碼率下的重構圖像質量很差,這是因為 L 較小時,LL 子帶系數(shù)過多。在低碼率下保留的系數(shù)較少,那些被置為零的系數(shù)有相當一部分來自于 LL 子帶,而 LL 子帶攜帶的信息是圖像中最重要的信息,此時解碼圖像質量就會急劇下降。在 L 大到一定的值后,WBCT 變換的性能得到了一定的保證。但是,方向分解級數(shù)的不同依然在

51、一定程度上影響著重構圖像的質量。尋求較優(yōu)的分解向量,從而使 WBCT 發(fā)揮其最優(yōu)的變換性能,將是本文一個重要的研究要點。(2)WBCT 域編碼的振鈴效應1雖然在變換域系數(shù)量化后,各個頻帶都會有相應的頻率干擾,但是低頻子帶量化引入的振鈴效應要比高頻子帶嚴重得多。所以在 contourlet 變換中,Do 和 Vetterli 先對原圖像進行了 LP 分解,實現(xiàn)了高頻和低頻的分離,再對高頻部分作 DFB 分解,從而在一定程度上控制了振鈴效應。Contourlet 的過采樣方案雖然可以較好地解決頻率干擾的問題,卻也同時引入了過多的冗余信息。圖3-1所示為barbara圖像最高頻帶作L級DFB分解,N

52、LA實驗中重構圖像的PSNR隨著 L 的變化而變化的折線圖。其中,L=0 表示小波變換(不做任何方向分解)。圖 3-2和圖 3-3 分別為次高頻帶和第三高頻帶的相應 L 級 DFB 分解的 NLA 實驗結果。圖 3-1 和圖 3-2 折線的升降變化,說明了在最高頻和次高頻做適當?shù)?DFB 分解,可以提高解碼圖像質量。頻率越低,折線峰值所對應的最佳方向分解級也越低。由圖 3-3可見,在第三高頻上作 DFB 分解,會導致高碼率下的解碼圖像質量下降,而且分解級數(shù)越高,解碼圖像的 PSNR 越低。因此,在第三高頻子帶上,保持小波系數(shù)不分解是最佳的選擇。對于更低的頻率子帶,更是如此。(3)振鈴效應和方向

53、分解級數(shù)的關系在一個小波子帶內,多級方向濾波等效于濾波器的卷積。方向分解級數(shù) L 越大,等效濾波器就越長,捕捉方向信息的能力越強,所產生的振鈴效應也越嚴重。反之,L 越小,捕捉方向信息的能力越弱,振鈴效應也越輕微。從圖 3-3(a)中不難發(fā)現(xiàn),隨著 DFB分解級數(shù)的增大,解碼圖像質量急劇下降,過于嚴重的振鈴效應是出現(xiàn)這種現(xiàn)象的根本原因。圖 3-4 所示的實驗結果也可以驗證這個論點。圖 3-4 所示為 NLA 實驗采用五級小波變換,保留 1/8 大系數(shù),對次高頻帶作方向分解,方向分解級數(shù)為 L=1 和 3 時的解碼圖像(等效于 WBCT0 1 0 0 0和0 3 0 0 0分解)。比較圖 3-4

54、(b)和圖 3-4(c)可以發(fā)現(xiàn),L=3 時的重構圖像平滑區(qū)域出現(xiàn)了很多因振鈴效應而導致的噪聲,比 L=1 時的解碼圖像嚴重得多。(4)WBCT 域最優(yōu)分解條件小波變換的分解級數(shù)是影響 WBCT 變換性能的最大因素。達到一定分解級的小波變換才是比較適合圖像編碼的。JPEG2000 標準程序中采用五級9-7 小波變換,不管是計算量還是編碼性能都是較優(yōu)的。在本文接下來的實驗中,全部采用五級 9-7 小波變換。NLA 實驗驗證了 WBCT 變換性能和分解級數(shù)、小波頻帶之間的關系。在尋求 WBCT 分解向量的問題上,存在著一個最優(yōu)解,使 DFB 分解既保持在捕捉方向信息上的優(yōu)勢,又能較好地控制解碼圖像

55、中的振鈴效應。方向分解級數(shù),并不是越高越好,也不是越低越好。而且其最佳的分解級數(shù)和所處的頻率子帶有關。一般而言,只適合對小波變換后的最高的兩個頻帶作 DFB 分解,從第三頻帶開始就保留小波系數(shù)不分解。另外,頻率越低的小波子帶,所對應的最優(yōu)方向分解級數(shù)也越低,比如選取 V=3 2 0 0 0或者2 1 0 0 0。這就是選取 WBCT 變換最優(yōu)分解向量的限制條件。圖 3-5 所示為五級小波變換域和 WBCT3 2 0 0 0變換域的 NLA 對比實驗,可以看到,保留相同數(shù)目大系數(shù)的前提下,WBCT 域的重構圖像擁有比小波變換重構圖像更高的 PSNR 值。這是因為基于 DFB 的 WBCT 變換更好地編碼了圖像的方向信息,其對圖像內容的表達比小波變換更稀疏。(5)子帶方向和子帶頻率的關系在 WBCT 中,DFB 對小波變換后的 HL,LH 和 HH 子帶作方向分解,雖然這三個子帶都是圖像的高頻子帶,但是 HL 只是水平方向上的高頻,LH 只是垂直方向

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論