多媒體分類分檢索

隨著計算機套用技術的發展與網際網路速度的提高,用戶可以訪問到的文本,音頻和視頻等多媒體信息不斷增加.這樣,計算機用戶在處理信息時所面臨的主要問題已經從早期的信息匱乏轉變為從海量信息中快速合理檢索出需要信息。

簡介


於是,從90年代初開始,基於內容的圖像(視頻)檢索成為多媒體
領域研究的熱點之一.在基於內容的圖像(視頻)檢索中,顏色,紋理,形狀和運動等視覺特徵被提取出來表征圖像(視頻)內容所蘊涵的語義,從而實現圖像(視頻)數據的查詢與管理.

詳細信息

由於音頻也蘊含了大量的語義信息,近年來,基於內容的音頻檢索也受到越來越多的關注,其主要思想是通過提取音頻流中的時域(頻域)特徵來描述音頻內容.由於多媒體本質是由文本,視頻和音頻等多種媒質互動融合而成的,它們之間存在或多或少的語義關聯,一種媒質和另外一種媒質可以表示同一語義,媒質之間可以相互索引.
但是,無論是基於內容的圖像(視頻)檢索或是基於內容的音頻檢索,目前還是基於視覺或聽覺感知特徵相似度比較的檢索,而我們對多媒體內容的描述是基於其所蘊涵的
語義信息的.因此,將多媒體數據流分類成預先定義的語義模型是多媒體檢索麵臨的挑戰.語義概念模型可以分為三類:一是高級語義,這種語義是不同時間和空間幾個多媒體事件高度抽象概念化的結果,它需要探討人腦的思維機制;二是中級語義,這種語義是高級語義中所涉及的人或事件的分別描述,不涉及幾個事件的交叉;最後是低級語義,它是利用視覺或聽覺信息對多媒體數據進行初步分類,如"音樂","語音"或"海灘"等.對多媒體數據進行語義標註實現了多媒體從無結構到結構化的過程,可以有效組織多媒體數據流,方便檢索.
另外,隨著網路技術的普及,對多媒體數據(特別是音頻數據)進行實時分析也成為了需要.傳統多媒體檢索中提取的特徵基本上是基於非壓縮域的,隨著多媒體套用技術的發展,MPEG憑藉其易於傳輸存儲的優點而成為多媒體數據壓縮通用標準.用非壓縮域方法來對MPEG數據流進行語義標註時,必須先解碼,才能提取特徵和對特徵分析,造成運算量無謂增大,不能保證實時效果.同時,MPEG對音頻部分的編碼結合了聽覺心理學,編碼時就考慮了人的聽覺感知特性,所以直接在MPEG壓縮域上提取特徵,可以使這些感知特性不會丟失,保證對音頻信息的正確理解.
在音頻數據流中,說話人是非常重要的語義信息,如不同的節目主持人會報導不同內容的新聞節目(體育,天氣預報和時事等).通過對講話人語音的分析,自動確認出話者身份,既可以用話者身份對音頻進行中級語義標註,也可以對其相應的視頻信息流進行分類,實現不同媒質之間的索引.
MPEG即為活動圖像專家組(Moving Picture Expert Group),成立於1988年,這個組織的任務是建立活動圖像及相應音頻的編碼標準.實際上MPEG是一個標準系列,包括MPEG-1,MPEG-2,MPEG-4,MPEG-7和MPEG-21等.
MPEG的數據流主要包含3種成分:圖像流,伴音流和系統流.圖像流僅僅包含畫面信息,伴音流包含聲音信息,系統流實現圖像和伴音的同步.所有播放MPEG圖像和伴音數據所需的時鐘同步信息都包含在系統流中.
MPEG是一種有損的,非平衡編碼.有損意味著為達到低比特率,採用了基於聽覺和視覺心理的壓縮模式,一些人眼和人耳最不敏感的圖像和伴音信息將丟失;非平衡編碼意味著其壓縮編碼過程比解碼過程慢的多.
在MPEG對任何類型音頻編碼時,原始音頻流首先通過32個過濾器組轉換成對應頻譜分量,同時運用心理生理學模型來控制每一子帶的位分配,通過對各個子帶編碼來實現原始信號編碼.由於MPEG編碼是非平衡編碼,因此相對於複雜而又耗時的編碼過程,其解碼過程是十分簡單的:各子帶的序列按照位分配段的信息被重建,然後各子帶的信號通過一個合成過濾器組生成32個連續的16位PCM格式的聲音信號.本文中所要提取的基於壓縮域的音頻特徵就是在32個子帶的信號合成之前計算的.
在MPEG編碼過程中,音頻信號的頻譜通過一組等距帶通濾波器被映射成到32個子帶上.在頻譜映射過程中,使用多相過濾器結構.過濾器組包含512個係數,在頻域上是等距的,對於採樣頻率為22050Hz的原始信號來說,按照奈魁斯特採樣定律,信號實際最大頻率為11025HZ,因此每一個子帶的頻寬為11025/32=345Hz.
所謂音頻特徵就是用來表征原始音頻信息的數據.根據特徵空間的不同,音頻特徵可以分為時域,頻域和時頻三類:時域特徵包括短時能量,過零率和線性預測係數等;頻域特徵包括線性預測(LPC)倒譜係數和mfcc等;時頻特徵包括短時傅立葉變換和小波係數等.近年來,為了更真實反映原始音頻數據流首先被耳蝸處理,然後才在大腦處形成"音頻場景"的事實,仿照人的聽覺感知模型,一些特徵被提取出來.於是,根據是否使用感知模型,音頻特徵可以分為物理和感知兩類.物理特徵包括短時能量,過零率,基本頻率等,它來源於音頻信號本身;感知特徵包括音調和音高等,它依賴於人的聽覺模型.要指出的是,有些時頻特徵也屬於感知特徵,如小波變換每層分解相當於一個恆Q濾波器,符合人耳聽覺感知特性.
MPEG音頻壓縮利用了"心理聲學模型(psychoacoustics model)",在MPEG壓縮領域上直接提取特徵,可以保留這些感知特性,更好象人的聽覺感知系統一樣,實現對音頻語義內容的理解.
實驗中首先把MPEG數據流分解成視頻和音頻兩部分.其中音頻流數據是MPEG-2 Layer III,採樣頻率為22050Hz.按照傳統語音處理中對信號處理分成短時"幀"的要求,音頻數據被分割成大約為20毫秒的幀序列(每一幀有576個採樣值).
對於每一幀,首先求出每一個子帶矢量值的均方根
,其中是32維的子帶矢量,也是一個32維的矢量.表征了這一幀的特性,由此可以得到以下的具體特徵:(1)質心(Centroid):,指一個矢量的平衡點,質心反映了在壓縮域上音頻信號的基本頻率帶;(2)衰減截止頻率(Rolloff):,指音頻信號能量衰減3分貝時的截止頻率.由於人耳對音頻信號強弱變化相當敏感,衰減截止頻率其實就是自適應的聽覺閾值,它體現了心理聲學中的聽覺掩飾特性;(3)頻譜流量(Spectral Flux):指相鄰兩幀的矢量正規化後以2為模的差分,頻譜流量體現了音頻信號的動態特徵;(4)均方根():,用來衡量這一幀音頻信號強度.音頻場景的切換通常伴隨著音量變化,因此在分割中是十分重要的一個指標.
由於音頻信號的非平穩特性,為了更好表征音頻的時序變化,上述四個特徵的統計信息也被提取出來作為音頻特徵:實驗中,使用40幀為一個視窗(大約1秒),對每一幀,計算其前一個視窗中所有幀的質心,衰減截止頻率和頻譜流量的均值和方差,並且計算均方根低於某一閾值的比例,得到七個具有統計意義的特徵.
這樣,對於每一幀,總共提取了11個特徵.每個音頻數據流的前40幀統計特徵值是
這個音頻流所有對應統計特徵的平均值.
這11個特徵反映了音頻的靜態和動態特性,符合心理聲學模型,構成了壓縮域上音頻
信號的描述運算元,被用來進行音頻的分割,粗分和識別.
研究表明,雖然音頻信號特徵隨時間變化劇烈,但是對於同一音頻類而言,其特徵之間的距離變化大致有一定規律的,通過選取好的視窗距離可以體現出這種規律性來.利用前面提取的11個特徵,實驗中實現了如下的音頻分割算法:(1)讀入MPEG音頻流,對每一幀求出特徵矢量,是11維,表示時間(幀數);(2)求出前後相鄰特徵向量和之間的對數化歐氏距離,其中表示第幀中的第個特徵;(3)對於得到的序列,求出時刻前後視窗長度為的均值的差;這個過程叫視窗化(4)如果在某一時刻值大於閾值,則判定在該時刻特徵矢量發生了躍變,因此發生了音頻信號的轉換,於是音頻流從此處分割.
對於分割得到的各個音頻片段(clip),需要識別出每個音頻片段的類別(也就是它們的低級語義).在識別出來低級語義的基礎上,才能逐步形成中級和高級語義.為了對分割出來的音頻片段標註低級語義,我們先把這些音頻片段按分層原則粗分成三類:音樂,語音和其它.然後對其中的語音片段專門處理,去識別語音片段中的話者身份信息.
對於分割並粗分得到的語音片段,需要進一步細分出話者身份信息.話者識別可以分為自動話者確認(Automatic Speaker Verification,簡稱ASV)和自動話者辨認(Automatic Speaker Identification,簡稱ASI).ASV要求系統作出"是"或"不是"所記錄集合中的話者,屬於二元判決;而ASI是辨認待識別的語音片段屬於哪一位話者的發音,屬於多元判決.本文中的說話識別指ASI.規定了發音內容的話者識別稱為與文本有關(Text-Dependent)的話者識別;反之不限定發音內容的話者識別稱為與文本無關(Text-Independent)的話者識別,它更具有挑戰性.
語音是人的自然屬性之一,因此從語音信號中提取能反映人個性的特徵是識別的關鍵,通常採用線性預測(LPC)倒譜係數或MFCC作為話者識別的特徵參數.
對於MPEG編碼的音頻數據,針對語音固有的特點,對前文所提取的質心,衰減截止頻率,頻譜流量和均方根等壓縮域特徵做了改進,得到的數據作為話者識別特徵.
由於人的語音信號頻率集中在200 kHz到 4.5 kHz 之間,對於採樣頻率為22050Hz的音頻信號,人的話語主要集中在32個子帶中前8個子帶上.因此,只要考慮前8個子帶的特徵向量,就可以取得了較好的識別效果,並節省計算量.提取的特徵如下:(1)子帶質心:;(2)子帶衰減截止頻率:;(3)子帶頻譜流量;(4)子帶均方根:
話者識別的模型主要包括矢量量化(VQ),隱馬爾可夫鏈(HMM)和神經網路(NN).利用矢量量化技術進行話者識別涉及大量的計算,而且對計算的精度較敏感,給識別帶來了較大的困難;神經網路在語音識別上表現出了較大的套用前景,它具有自學習,自完善,自適應的特點,但基於神經網路的說話人識別技術還有待進一步的完善.由於隱馬爾可夫統計模型被廣泛套用於語音識別領域,本文採用它實現了與文本無關的話者識別.
起源於60年代末的隱馬爾可夫模型,由於其堅實的數學基礎,被廣泛用於信號處理領域.通常用五元組(5-Tuple)來表示一個隱馬爾可夫鏈隨機模型.
對於語音等表現為時間連續的隨機信號,每個狀態對應的觀測事件的機率估計,採用D維E元混合高斯密度分布的連續隱馬爾可夫鏈來表示.其中,D維指從每個隨機信號中所提取的特徵數目,E表示每個狀態所對應的高斯密度分布數目(如果每個狀態所對應的混合高斯分布數目不同,則E代表所有狀態中最大的混合高斯數目).從本質上講,E元高斯密度分布也就是把D維特徵向量序列進行聚類.
對每個說話人分別收集訓練樣本,從每個樣本每一幀中分別提取子帶質心,子帶衰減截止頻率,子帶頻譜流量和子帶均方根特徵組成特徵向量,通過Baum-Welch最大預期算法(EM)訓練生成表征某個話者的隱馬爾可夫模型,表示要識別的話者數目.使用前向(Forward)算法計算分割粗分出來的語音片段對每一個話者模型的出現機率.
由貝葉斯理論可知: ,其中表示為第個話者模型的機率;表示對於訓練好的話者模型,屬於它的機率,即對每個,出現機率; 指的是每一話者模型出現的先驗機率.在這裡,認為每一個話者模型出現機率相等;又因為對每個而言,值一定.所以,於是通過計算出的值,考察的大小關係,選出使最大的,則也最大,也就最可能是這種話者模型.
通過前向算法求得的最大值所對應的話者模型,就是應該屬於的話者模型.然後把這個語音音頻和其對應的視頻數據標註上這個話者身份信息,達到檢索目的.同時設定一個最小閾值,如果對任意,都小於該閾值,則認為該不屬於任何一種已知的話者模型,將它標記為陌生人.
現實中,語音信號中往往蘊涵多個人的聲音,如何在混雜的信號中仍然識別出話者身份是面臨的一個挑戰;每個話者所對應的視頻流信息表述了不同的語義(如不同的時事事件),如何對這些語義場景分割和關聯是面臨的第二個挑戰;融合利用視頻和音頻壓縮域特徵,對MPEG多媒體數據流實現高級語義場景分割與理解,實現壓縮域多媒體信息流的結構化,方便檢索,是要達到的最終目的.

相關搜尋

熱門詞條

聯絡我們