音頻編碼

音頻編碼

自然界中的聲音非常複雜,波形極其複雜,通常我們採用的是脈衝代碼調製編碼,即PCM編碼。PCM通過抽樣、量化、編碼三個步驟將連續變化的模擬信號轉換為數字編碼。

音頻編碼基本概念介紹

什麼是採樣率和採樣大小(位/bit)。

聲音其實是一種能量波,因此也有頻率和振幅的特徵,頻率對應於時間軸線,振幅對應於電平軸線。波是無限光滑的,弦線可以看成由無數點組成,由於存儲空間是相對有限的,數字編碼過程中,必須對弦線的點進行採樣。採樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率信息更豐富,為了復原波形,一次振動中,必須有2個點的採樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次採樣,用40kHz表達,這個40kHz就是採樣率。我們常見的CD,採樣率為44.1kHz。光有頻率信息是不夠的,我們還必須獲得該頻率的能量值並量化,用於表示信號強度。量化電平數為2的整數次冪,我們常見的CD位16bit的採樣大小,即2的16次方。採樣大小相對採樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次採樣,採樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的採樣大小,結果我們只能保留A1-A8中4個點的值而捨棄另外4個。如果我們進行3bit的採樣大小,則剛好記錄下8個點的所有信息。採樣率和採樣大小的值越大,記錄的波形更接近原始信號。

有損和無損

根據採樣率和採樣大小可以得知,相對自然界的信號,音頻編碼最多只能做到無限接近,至少目前的技術只能這樣了,相對自然界的信號,任何數字音頻編碼方案都是有損的,因為無法完全還原。在計算機套用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材保存及音樂欣賞,CD、DVD以及我們常見的WAV檔案中均有套用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音頻中最佳的保真水準,並不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。我們而習慣性的把MP3列入有損音頻編碼範疇,是相對PCM編碼的。強調編碼的相對性的有損和無損,是為了告訴大家,要做到真正的無損是困難的,就像用數字去表達圓周率,不管精度多高,也只是無限接近,而不是真正等於圓周率的值。

為什麼要使用音頻壓縮技術

要算一個PCM音頻流的碼率是一件很輕鬆的事情,採樣率值×採樣大小值×聲道數 bps。一個採樣率為44.1KHz,採樣大小為16bit,雙聲道的PCM編碼的WAV檔案,它的數據速率則為 44.1K×16×2 =1411.2 Kbps。我們常說128K的MP3,對應的WAV的參數,就是這個1411.2 Kbps,這個參數也被稱為數據頻寬,它和ADSL中的頻寬是一個概念。將碼率除以8,就可以得到這個WAV的數據速率,即176.4KB/s。這表示存儲一秒鐘採樣率為44.1KHz,採樣大小為16bit,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁碟占用,只有2種方法,降低採樣指標或者壓縮。降低指標是不可取的,因此專家們研發了各種壓縮方案。由於用途和針對的目標市場不一樣,各種音頻壓縮編碼所達到的音質和壓縮比都不一樣,在後面的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過。

頻率與採樣率的關係

採樣率表示了每秒對原始信號採樣的次數,我們常見到的音頻檔案採樣率多為44.1KHz,這意味著什麼呢?假設我們有2段正弦波信號,分別為20Hz和20KHz,長度均為一秒鐘,以對應我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的採樣,我們可以得到一個什麼樣的結果呢?結果是:20Hz的信號每次振動被採樣了40K/20=2000次,而20K的信號每次振動只有2次採樣。顯然,在相同的採樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什麼有些音響發燒友指責CD有數碼聲不夠真實的原因,CD的44.1KHz採樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的採樣率,於是有些朋友在捕捉CD音軌的時候使用48KHz的採樣率,這是不可取的!這其實對音質沒有任何好處,對抓軌軟體來說,保持和CD提供的44.1KHz一樣的採樣率才是最佳音質的保證之一,而不是去提高它。較高的採樣率只有相對模擬信號的時候才有用,如果被採樣的信號是數字的,請不要去嘗試提高採樣率。

流特徵

隨著網路的發展,人們對線上收聽音樂提出了要求,因此也要求音頻檔案能夠一邊讀一邊播放,而不需要把這個檔案全部讀出後然後回放,這樣就可以做到不用下載就可以實現收聽了。也可以做到一邊編碼一邊播放,正是這種特徵,可以實現線上的直播,架設自己的數字廣播電台成為了現實

PCM編碼

PCM 脈衝編碼調製是Pulse Code Modulation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關心PCM最終編碼採用的是什麼計算方式,我們只需要知道PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的Audio CD就採用了PCM編碼,一張光碟的容量只能容納72分鐘的音樂信息。

WAV

這是一種古老的音頻檔案格式,由微軟開發。WAV是一種檔案格式,符合RIFF (Resource Interchange File Format) 規範。所有的WAV都有一個檔案頭,這個檔案頭包含了音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有支持ACM規範的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示範,因為AVI和WAV在檔案結構上是非常相似的,不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種視頻編碼,AVI可以採用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV,但這不表示WAV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應的Decode,就可以欣賞這些WAV了。
在Windows平台下,基於PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟體都能完美支持,由於本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基於PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。

MP3編碼

MP3簡介

MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關的軟體產品層出不窮,而且更多的硬體產品也開始支持MP3,我們能夠買到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮的格式的生存與流傳。MP3發展已經有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國Fraunhofer IIS研究院和湯姆生公司合作發展成功。MP3可以做到12:1的驚人壓縮比並保持基本可聽的音質,在當年硬碟天價的日子裡,MP3迅速被用戶接受,隨著網路的普及,MP3被數以億計的用戶接受。MP3編碼技術的發布之初其實是非常不完善的,由於缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。隨著新技術的不斷導入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進。

關於VBR

VBR:MP3格式的檔案有一個有意思的特徵,就是可以邊讀邊放,這也符合流媒體的最基本特徵。也就是說播放器可以不用預讀檔案的全部內容就可以播放,讀到哪裡播放到哪裡,即使是檔案有部分損壞。雖然mp3可以有檔案頭,但對於mp3格式的檔案卻不是很重要,正因為這種特性,決定了MP3檔案的每一段每一幀都可以單獨的平均數據速率,而無需特別的解碼方案。於是出現了一種叫VBR(Variable bitrate,動態數據速率)的技術,可以讓MP3檔案的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質的前提下最大程度的限制了檔案的大小。這種技術的優越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配bitrate,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術並沒有一出現就顯得光彩奪目。
專家們通過長期的聲學研究,發現人耳存在遮蔽效應。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻成了噪聲源,根據這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息複雜度,增加壓縮比,而不明顯的降低音質。這種遮蔽被稱為同時遮蔽效應。但聲音A被聲音B遮蔽,如果A處於B為中心的遮蔽範圍內,遮蔽會更明顯,這個範圍叫臨界頻寬。每一種頻率的臨界頻寬都不一樣,頻率越高的臨界頻寬越寬。
頻率(Hz) 臨界頻寬(Hz) 頻率(Hz) 臨界頻寬(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根據這種效應,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中後,導致了一場翻天覆地的音質革命,mp3編碼技術一直背負著音質差的惡名,但這個惡名現在已經逐漸被洗脫。到了此時,一直被埋沒的VBR技術光彩四射,配合心理模型的運用便現實出強大的誘惑力與殺傷力。
長期來,很多人對MP3印象不好,更多人認為WMA的最佳音質要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當的MP3要比WMA優秀很多,可以非常接近CD音質,在不太好的硬體設備支持下,沒有多少人可以區分兩者的差異,這不是神話故事,儘管你以前盲聽就可以很輕鬆區分MP3和CD,但現在你難保證你可以分辨正確。因為MP3是優秀的編碼,以前被埋沒了。

OGG編碼

網路上出現了一種叫Ogg Vorbis的音頻編碼,號稱MP3殺手!Ogg Vorbis究竟什麼來頭呢?OGG是一個龐大的多媒體開發計畫的項目名稱,將涉及視頻音頻等方面的編碼開發。整個OGG項目計畫的目的就是向任何人提供完全免費多媒體編碼方案!OGG的信念就是:OPEN!FREE!Vorbis這個辭彙是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名。這個辭彙成為了OGG項目中音頻編碼的正式命名。目前Vorbis已經開發成功,並且開發出了編碼器。
Ogg Vorbis是高質量的音頻編碼方案,官方數據顯示:Ogg Vorbis可以在相對較低的數據速率下實現比MP3更好的音質!Ogg Vorbis這種編碼也遠比90年代開發成功的MP3先進,它可以支持多聲道,這意味著什麼?這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟體(目前這種軟體還沒有)的支持下,可以對所有的聲道進行編碼,而不是MP3隻能編碼2個聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時,會帶來更多臨場感。這場革命性的變化是MP3無法適應的。
和MP3一樣,Ogg Vorbis是一種靈活開放的音頻編碼,能夠在編碼方案已經固定下來後還能對音質進行明顯的調節和新算法的改良。因此,它的聲音質量將會越來越好,和MP3相似,Ogg Vorbis更像一個音頻編碼框架,可以不斷導入新技術逐步完善。和MP3一樣,OGG也支持VBR。

MPC 編碼

MPC是又是另外一個令人刮目相看的實力派選手,它的普及過程非常低調,也沒有什麼複雜的背景故事,她的出現目的就只有一個,更小的體積更好的音質!MPC以前被稱作MP+,很顯然,可以看出她針對的競爭對手是誰。但是,只要用過這種編碼的人都會有個深刻的印象,就是她出眾的音質。

mp3pro 編碼

2001年6月14日,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute)於6月14日發布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基於mp3編碼技術的改良方案,從官方公布的特徵看來確實相當吸引人。從各方面的資料顯示,mp3PRO並不是一種全新的格式,完全是基於傳統mp3編碼技術的一種改良,本身最大的技術亮點就在於SBR(Spectral Band Replication 頻段複製),這是一種新的音頻編碼增強算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的頻寬或改善編碼效率。SBR最大的優勢就是在低數據速率下實現非常高效的編碼,與傳統的編碼技術不同的是,SBR更像是一種後處理技術,因此解碼器的算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的,SBR編碼的數據更像是一種產生高頻的命令集,或者稱為指導性的信號源,這有點駇idi的工作方式。我們可以看到,mp3PRO其實是一種mp3信號流和SBR信號流的混合數據流編碼。有關資料顯示,SBR技術可以改善低數據流量下的高頻音質,改善程度約為30%,我們不管這個30%是如何得來的,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水平(註:在相同的編碼條件下,數據速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。

WMA

WMA就是Windows Media Audio編碼後的檔案格式,由微軟開發,WMA針對的不是單機市場,是網路!競爭對手就是網路媒體市場中著名的Real Networks。微軟聲稱,在只有64kbps的碼率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支持防複製功能,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至於播放的機器等等。WMA支持流技術,即一邊讀一邊播放,因此WMA可以很輕鬆的實現線上廣播,由於是微軟的傑作,因此,微軟在Windows中加入了對WMA的支持,WMA有著優秀的技術特徵,在微軟的大力推廣下,這種格式被越來越多的人所接受。

RA

RA就是RealAudio格式,這是各位網蟲接觸得非常多的一種格式,大部分音樂網站的線上試聽都是採用了RealAudio,這種格式完全針對的就是網路上的媒體市場,支持非常豐富的功能。最大的閃爍點就是這種格式可以根據聽眾的頻寬來控制自己的碼率,在保證流暢的前提下儘可能提高音質。RA可以支持多種音頻編碼,包括ATRAC3。和WMA一樣,RA不但都支持邊讀邊放,也同樣支持使用特殊協定來隱匿檔案的真實網路地址,從而實現只線上播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要,在各方的大力推廣下,RA和WMA是目前網際網路上,用於線上試聽最多的音頻媒體格式。

APE

APE是Monkey's Audio提供的一種無損壓縮格式。Monkey's Audio提供了Winamp的外掛程式支持,因此這就意味著壓縮後的檔案不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻檔案格式。這種格式的壓縮比遠低於其他格式,但能夠做到真正無損,因此獲得了不少發燒用戶的青睞。在現有不少無損壓縮方案種,APE是一種有著突出性能的格式,令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發燒音樂的唯一選擇。

主流音頻格式的特點及其適應性

各種各樣的音頻編碼都有其技術特徵及不同場合的適用性,我們大致講解一下如何去靈活套用這些音頻編碼。

PCM編碼的WAV

前面就提到過,PCM編碼的WAV檔案是音質最好的格式,Windows平台下,所有音頻軟體都能夠提供對她的支持。Windows提供的WinAPI中有不少函式可以直接播放wav,因此,在開發多媒體軟體時,往往大量採用wav,用作事件聲效和背景音樂。PCM編碼的wav可以達到相同採樣率和採樣大小條件下的最好音質,因此,也被大量用於音頻編輯、非線性編輯等領域。
特點:音質非常好,被大量軟體所支持。
適用於:多媒體開發、保存音樂和音效素材。

MP3

MP3具有不錯的壓縮比,使用LAME編碼的中高碼率的mp3,聽感上已經非常接近源WAV檔案。使用合適的參數,LAME編碼的MP3很適合於音樂欣賞。由於MP3推出年代已久,加之還算不錯的音質及壓縮比,不少遊戲也使用mp3做事件音效和背景音樂。幾乎所有著名的音頻編輯軟體也提供了對MP3的支持,可以將mp3象wav一樣使用,但由於mp3編碼是有損的,因此多次編輯後,音質會急劇下降,mp3並不適合保存素材,但作為作品的demo確實相當優秀的。mp3長遠的歷史和不錯的音質,使之成為套用最廣的有損編碼之一,網路上可以找到大量的mp3資源,mp3player日漸成為一種時尚。不少VCDPlayer、DVDPlayer甚至手機都可以播放mp3,mp3是被支持的最好的編碼之一。MP3也並非完美,在較低碼率下表現不好。MP3也具有流媒體的基本特徵,可以做到線上播放。
特點:音質好,壓縮比比較高,被大量軟體和硬體支持,套用廣泛。
適用於:適合用於比較高要求的音樂欣賞。

OGG

Ogg是一種非常有潛力的編碼,在各種碼率下都有比較驚人的表現,尤其中低碼率下。Ogg除了音質好之外,她還是一個完全免費的編碼,這對ogg被更多支持打好了基礎。Ogg有著非常出色的算法,可以用更小的碼率達到更好的音質,128kbps的Ogg比192kbps甚至更高碼率的mp3還要出色。Ogg的高音具有一定的金屬味道,因此在編碼一些高頻要求很高的樂器獨奏時,Ogg的這個缺陷會暴露出來。OGG具有流媒體的基本特徵,但現在還沒有媒體服務軟體支持,因此基於ogg的數字廣播還無法實現。Ogg目前的被支持的情況還不夠好,無論是軟體的還是硬體的,都無法和mp3相提並論。
特點:可以用比mp3更小的碼率實現比mp3更好的音質,高中低碼率下均具有良好的表現。
適用於:用更小的存儲空間獲得更好的音質(相對MP3)

MPC

和OGG一樣,MPC的競爭對手也是mp3,在中高碼率下,MPC可以做到比競爭對手更好音質,在中等碼率下,MPC的表現不遜色於Ogg,在高碼率下,MPC的表現更是獨孤求敗,MPC的音質優勢主要表現在高頻部分,MPC的高頻要比MP3細膩不少,也沒有Ogg那種金屬味道,是目前最適合用於音樂欣賞的有損編碼。由於都是新生的編碼,和Ogg際遇相似,也缺乏廣泛的軟體和硬體支持。MPC有不錯的編碼效率,編碼時間要比OGG和LAME短不少。
特點:中高碼率下,具有有損編碼中最佳的音質表現,高碼率下,高頻表現極佳
適用於:在節省大量空間的前提下獲得最佳音質的音樂欣賞。

WMA

微軟開發的WMA同樣也是不少朋友所喜愛的,在低碼率下,有著好過mp3很多的音質表現,WMA的出現,立刻淘汰了曾經風靡一時的VQF編碼。有微軟背景的WMA獲得了很好的軟體及硬體支持,Windows Media Player就能夠播放WMA,也能夠收聽基於WMA編碼技術的數字電台。因為播放器幾乎存在於每一台PC上,越來越多的音樂網站都樂意使用WMA作為線上試聽的首選了。除了支持環境好之外,WMA在64-128kbps碼率下也具有相當出色的表現,雖然不少要求較高的朋友並不夠滿意,但更多要求不高的朋友接受了這種編碼,WMA很快的普及開了。
特點:低碼率下的音質表現難有對手
適用於:數字電台架設、線上試聽、低要求下的音樂欣賞

mp3PRO

作為mp3的改良版本的mp3PRO表現出了相當不錯的素質,高音豐滿,雖然mp3PRO是通過SBR技術在播放過程中插入的,但實際聽感相當不錯,雖然顯得有點單薄,但在64kbps的世界裡已經沒有對手了,甚至超過了128kbps的mp3,但很遺憾的是,mp3PRO的低頻表現也象mp3一樣的破,所幸的是,SBR的高頻插值可以或多或少的掩蓋掉這個缺陷,因此mp3PRO的低頻弱勢反而不如WMA那么明顯。大家可以在使用RCA mp3PRO Audio Player的PRO開關來切換PRO模式和普通模式時深深的感覺到。整體而言,64kbps的mp3PRO達到了128kbps的mp3的音質水平,在高頻部分還略有勝出。
特點:低碼率下的音質之王
適用於:低要求下的音樂欣賞

APE

一種新興的無損音頻編碼,可以提供50-70%的壓縮比,雖然比起有損編碼來太不值得一提了,但對於追求完美音質的朋友簡直是天大的福音。APE可以做到真正的無損,而不是聽起來無損,壓縮比也要比類似的無損格式要好。
特點:音質非常好。
適用於:最高品質的音樂欣賞及收藏

相關搜尋

熱門詞條

聯絡我們