音頻流

音頻流

音頻流媒體是信息、信號處理領域的主要媒體形式之一,隨著計算機技術、網路技術和通訊技術的不斷發展,信息獲取方式、存儲手段的不斷進步和多樣化,音頻數據量以極高的速度增加。

音頻流:控制“數據流”同步類型音頻的輸出質量。

連續音頻流分類的研究背景

然而一直以來,音頻數據本身僅僅是一連串非語義符號表示的不透明二進制流,缺乏對聲音類型結構化組織和高層語義的描述,給音頻信號的深入處理和分析工作帶來了諸多困難,使自動語音識別(AutomaticSpeechRecognition,ASR)和基於內容的音頻檢索(Content-BasedAudioRetrieval,CBar)等套用受到了極大限制。如何從連續音頻流信號中提取音頻類型的結構化信息,將其按語音、音樂環境音等不同的聲學類型切分成類別單一的音頻片段,標註出各音頻片段的分界點位置和類型信息,即連續音頻流分類,是解決音頻信息深度處理、分析和檢索等問題的關鍵技術和基礎前提,同時也是輔助視頻信號自動切分和分類的強有力的工具,有著廣泛的套用前景。

利用連續音頻流分類技術可以為ASR提供單一的語音片段,是現有語音識別系統走向實際套用的先決條件之一。現有的連續語音識別系統對輸入語音信號的要求近乎苛刻,一般不僅不能包含諸如音樂、環境音等其它種類的聲音,而且要有較高的信噪比。ASR則要求對現實生活中的音頻流如廣播新聞,影視會議、演講等錄音進行自動轉錄(transcribe),生成包含語義內容、位置和其它信息的“抄本”(Transcription)。我們知道,以上列舉出的這些音頻流通常由語音和其它類型的聲音連線而成,如果不對其預先分段並去除非語音部分,必定會對語音識別系統的性能產生嚴重的影響。
連續音頻流分類給出的音頻類型結構化信息,是建立音頻資料庫索引、實現底層結構單元向高層語義結構單元關聯的基礎。CBAR技術通常要分析音頻流的結構和語義,從不同類型的音頻信號中提取高層語義信息,如對語音部分抽取關鍵字,建立它們的結構化的組織和索引,使“無序”的音頻流變得“有序”,以便於用戶的檢索和瀏覽。可見,如果不知道音頻流的所包含的聲音類別和及其位置信息,高層語義的提取根本無從談起。
連續音頻流分類技術可以作為視頻鏡頭自動分割和分類的有效的輔助工具。由於受技術發展的限制,單獨依靠現有的圖像和視頻處理技術還不能使計算機“理解”視頻的內容,視頻鏡頭切分精確度也不高,不能對故事單元進行基於內容的分類。如果利用連續音頻流分類技術將視頻流所對應的音頻進行切分,利用較實用的語音識別技術對其中的語音部分進行語音識別,利用已經比較成熟的全文檢索技術對語音識別結果進行處理,提取文本摘要,則可以較好地解決這些問題。音視頻編輯領域的知識和一些基本規則告訴我們,如果視頻流所對應的音頻類型沒有發生變化,其對應的視頻可以不進行分割處理。因此通過對音頻流恰當的切分,可以大大提高視頻的分割效率和準確率。
此外,連續流音頻流分類技術還可以用在音頻內容理解(AudioContentUnderstanding)、音頻監測(AudioSurveillance)和音頻場景分析(AudioSceneAnalysis)等領域。總之,音頻數據自身的特點和現有技術的制約,使得對音頻流的進一步處理受到了限制,而連續音頻流分類技術可以很好解決這一問題,為音頻流結構化和音頻信息深度分析和利用提供了堅實的基礎。

常見音頻流格式和播放器

一、流格式媒體傳輸的定義

音頻流音頻流

流媒體就是指在網路上使用流式傳輸技術的連續時基媒體,是通過網路傳輸的音頻、視頻或多媒體檔案。關鍵是流式傳輸技術,流式傳輸現在主要指通過網路傳送媒體(如視頻、音頻)的技術總稱,其特定含義為通過網路將影音節目傳送到PC單機。
實現流式傳輸分兩種方法:實時流式傳輸方式(Realtimestreaming)和順序流式傳輸方式(progressivestreaming)。
二、流格式音頻的常用格式
現在網路上常見的流格式音頻的格式主要有美國Realnetwork公司的*.RA格式和微軟公司的*.WMA格式,另外還有一個多用於專業領域的美國蘋果公司*.MOV格式,在這三種格式中,MOV格式的音質是最好的,特別是MIDI方面,支持GS和GM兩種音色,播放效果要明顯的強於Windowsmediaplayer,下面就給大家詳細的介紹這幾種格式的特點:
RealAudio格式
這是美國RealNetwork公司的一個元老級的產品,也是目前網上最流行的流式媒體技術。許多Internet的音樂台、視頻點播站點都採用它。RealMedia其中包含RealAudio(聲音檔案)、RealVideo(視頻檔案)和RealFlash(矢量動畫)這三類檔案。
QuickTime格式
QuickTime與RealMedia一樣,完合兼容於蘋果機與PC機。在同樣網速和檔案大小的情況下,它的音像品質是最好的。它由三個不同部分所組成:QuickTimeMovie(電影)檔案格式,QuickTime媒體抽象層、QuickTime內置媒體服務系統。
WindowsMediaAudio格式
WMA(WindowsMediaAudio)是來自於微軟的重量級選手,它的前身是微軟公司的Netshow,後台強硬,也是為數眾多Windows使用者最為熟悉的,它的核心技術是ASF(AdvancedStreamingFormat,高級流格式)。ASF格式支持任意的壓縮/解壓縮編碼方式,並可以使用任何一種底層網路傳輸協定,具有很大的靈活性,比較MPEG之類的壓縮標準增加了控制命令腳本的功能,它以減少數據流量但保持檔案質量的方法來實現流式多媒體內容發布。
現在網路上風行的FLASH雖然是矢量動畫技術,可是它一樣的可以包含聲音信息,也支持流式傳輸,高品質FLASH的SWF格式檔案聲音更加出眾,而且檔案體積更小,現在也有使用這種技術做的音樂網站,在欣賞的時候需要你安裝一個FLASH的外掛程式,以現在的網路速度而言,區區幾百KB的FLASH外掛程式一會兒的工夫就可以安裝完成,然後你就可以欣賞SWF格式的音樂了。
三、流媒體傳輸協定
瀏覽器中,我們常見的地址是以http://和ftp://開頭的。Web伺服器也可以通過http協定來處理流式媒體檔案,然而Web伺服器本身的設計並不能有效率地傳送串流媒體檔案。
串流媒體必須占用一個不間斷地封包串流,而且會長時間地與伺服器保持連線狀態,如果有太多訪客同時上線觀看,效能便會大打折扣。為了解決這個問題,流格式媒體檔案有它自己的一套協定。
1、即時串流通訊協定(RealTimeStreamingProtocol,RTSP):是RealNetworks公司協助建立的一個用來傳送串流媒體的開放網頁標準。雖然它必須使用一種稱為RealServer的特殊伺服器,然而RTSP能夠提升流式媒體影片的品質,改善傳送效率以及提供更佳的高流量處理功能。如果你的ISP具備了RealServer服務,那么建議你使用RealServer而不要使用Web伺服器來傳送串流媒體檔案。
2、MMS(MediaServerprotocol,MMS):這是微軟定義的一種流格式傳輸協定。
3、實時傳輸協定(TheaterServerprotocol,RTP):這是用於Internet上針對多媒體數據流的一種傳輸協定。RTP被定義為在一對一或一對多的傳輸情況下工作,其目的是提供時間信息和實現流同步,通俗的說也就是網路上的WEB伺服器。
4、資源預訂協定(ResourceReserveProtocol,RSVP),由於音頻和視頻數據流比傳統數據對網路的延時更敏感,要在網路中傳輸高質量的音頻、視頻信息,除頻寬要求之外,還需其他更多的條件。RSVP是正在開發的Internet上的資源預訂協定,使用RSVP預留一部分網路資源(即頻寬)。
這些協定代替了http和ftp,而是像mms://61.139.25.41/quake,以MMS或RTSP等開頭。
四、各種格式的播放器
以上三種格式各有各的播放器,它們分別是RealPlayer、QuickTimePlayer和WindowsMediaPlayer。
1、RealPlayer
Real格式具有很高的壓縮比和良好的壓縮傳輸能力,特別適合網路上播放或是線上直播方式,在視頻流媒體格式中RM格式是素質最差的,可是檔案也是最小的,低速網用戶(非ADSL和寬頻網用戶)也可以很輕鬆地線上欣賞視頻節目。RealPlay播放器使用也非常方便,系統的資源占用在其他二者之間,是低配置用戶的最好選擇。憑著ReaNetworks公司優秀的技術,它已占領了半數以上的網上流式視音頻點播市場。
2、QuickTimePlayer
QuickTimePlayer可以通過Internet提供實時的數位化信息流、工作流與檔案回放功能。QuickTime檔案的素質極高,缺點是檔案個頭比較大,當然,高清晰、高質量的畫面往往就意味著更大尺寸的檔案,更多的傳輸時間。正因如此,在網路上QuickTime只能用做一些多媒體廣告、產品演示、高清晰度影片等需要高清晰表現畫面的視頻節目上。在網路速度不流暢的地方觀看起來有些吃力,而且QuickTimePlayer的系統資源占用較高,要求你的機器配置較好才能勝任,最好是擁有快速CPU和更大容量的記憶體的高性能電腦
現在QuickTimePLAYER的最新版本是5.0,注意,QuickTimePlayer播放器可不是免費的,大家可以到蘋果公司的主頁上去下載。
3、WindowsMediaPlayer
WMA的播放器使用Windows自帶的WindowsMediaPlayer就可以了,WMA格式音樂的一大特點不需要額外的播放器,你在“開始-程式-附屬檔案-娛樂”中就可以找到它的身影。其製作、發布和播放軟體也與WindowsNT/2000/9x集成在一起,更加強大的是WindowsMedia增加了著作權保護功能,可以限制播放時間、播放次數甚至於作業系統等,這對於被盜版攪得焦頭亂額的音像出版商們可是一大福音。WindowsMedia檔案比起RealMedia檔案大些,線上播放狀態下比QuichTime可以獲得更快、更流暢的效果。

音頻流函式

音頻流函式是用來用來播放大到不能放在常規SAMPLE結構里的數字音樂用的,也因為這些檔案太大而你想每次載入需要數據的一部分,或者是你想做些聰明的活,比如產生飛行的波形。
AUDIOSTREAM*play_audio_stream(intlen,bits,stereo,freq,vol,pan);
這個函式創建一個新的音頻流然後開始播放。長度是每個傳輸緩衝(採樣聲音的)的大小,它至少要有2K:大點的緩衝更經濟些,需要更少的更新,但是在你提供數據和它實際播放之間,有更多的等待。bits參數必須是8或16,freq是數據的採樣頻率,vol和pan值使用和常規採樣聲音播放例程相同的0-255範圍.如果一但開始播放了,你想調整音調,音量,或音頻流的pan值,你可以使用常規的voice_*()函式,以stream->voice作為參數。採樣聲音

音頻流音頻流
數據永遠是無符號格式,立體聲波形由交替左/右採樣組成。
voidstop_audio_stream(AUDIOSTREAM*stream);
當一個音頻流不再需要時撤銷它.
void*get_audio_stream_buffer(AUDIOSTREAM*stream);
當音頻流正在播放時,你必須以有規律的間隙調用這個函式來提供採樣聲音數據的下一個緩衝(緩衝區越小,它就必須被更頻繁的調用).如果返回NULL,音頻流還有許多要播放,因此你不必去做什麼。如果返回了值,它就是下一個緩衝將被播放的位置,你應當將合適數量的採樣聲音(無論你在創建流時指定了多少)載入到那個地址,比如你使用fread()從磁碟檔案里載入。在用數據填充完緩衝區後,調用free_audio_stream_buffer()來只是新的數據已經有效了.注意這個函式不能在時鐘句柄里調用。
voidfree_audio_stream_buffer(AUDIOSTREAM*stream);
在get_audio_stream_buffer()後調用這個函式,返回一個非NULL地址,來知識你已經載入一塊新的採樣聲音到那個地址,數據現在準備被播放了。

ST的數字音頻流

在2007年拉斯維加斯國際消費電子展(CES)期間,意法半導體(ST)現場演示了採用藍牙接口、紅外線接口和SoundTerminal技術的實際便攜套用。SoundTerminal未來產品包括集成這些接口和其它接口的ASSP(專用標準產品)。
“SoundTerminal”是ST提出的一個數字音頻流概念,其目的是把高音質、低功耗和低製造成本帶到人氣很旺的高速增長的套用領域,如平板電視機、無線產品和個人音響系統。單封裝解決方案的高集成度,結合從聲源到揚聲器的純數字流處理能力,為設計低成本、高效能、外觀緊湊的音響系統提供了可能。
SoundTerminal產品家族的初期產品包括一系列高音質音頻的單片系統,例如:已經上市的用於大功率(20-80W)、中等功率(10-20W)和小功率(低於1.5W)的STA326和STA323,這些產品單片集成了數字音頻處理器、數字放大器控制器和一個DDX數字功率輸出級。STA326的功率輸出可以驅動2個30W聲道或1個60W的聲道,通過數字控制,很容易把該產品配置成幾個不同的輸出模式;該產品有多種處理和均衡選項,包括每聲道最多4個可程式28位二階濾波器和低/高音控制。各種聽音條件預設模式可以縮短軟體開發時間,簡化產品設計過程。
因為是全數字流,放大鏈中的信號處理無需模數轉換器,所以這是一個保證整體音頻質量的低成本解決方案,信噪比(SNR)高達100dB,寬動態範圍。SoundTerminal晶片原型已經開發成功,採用ST具有自主智慧財產權的數字調製技術(FFX)的放大器是一個以便攜為目標套用的產品實例,該晶片的放大效率高達94%,在當前市場上居最高水平;能夠為便攜系統提供“不發熱的音頻功率”,有助於大幅度延長電池使用時間,而且還大幅度降低了散熱器的尺寸,為先進的產品設計提供了可能。
內置數字處理功能特別有助於提高音質,按照特定的音頻套用定製功能;例如,隨著平板電視機設計變得更薄,揚聲器變得更小,機箱聲學特性越來越不理想,修正音頻信號是十分重要的。
此外,數字流技術非常適合與採用散射紅外線、藍牙無線2.0EDR(增強數據速率)、WiFi和UWB(超級寬頻)技術的無線揚聲器和無線耳機的音頻接口整合。

相關搜尋

熱門詞條

聯絡我們