語譜圖

語譜圖是二戰時期發明的,語譜圖就是語音頻譜圖,一般是通過處理接收的時域信號得到頻譜圖,因此只要有足夠時間長度的時域信號就可。專業點講,那是頻譜分析視圖,如果針對語音數據的話,叫語譜圖。語譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數據能量。由於是採用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。

基本信息

語譜圖就是語音頻譜圖,一般是通過處理接收的時域信號得到頻譜圖,因此只要有足夠時間長度的時域信號就可。(時間長度為保證頻率解析度)

專業點講,那是頻譜分析視圖,如果針對語音數據的話,叫語譜圖。語譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數據能量。由於是採用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。

可是為什麼採用二維平面來表示三維信息呢?這個是有歷史原因的。在數位技術發展以前,人們可視化研究語音數據的方法是把數據通過頻率濾波器,然後各個頻率的數據驅動相應的類似針式列印的設備按頻率高低順序記錄在一捲紙上,信號的強弱由記錄在紙上的灰度來表示。記錄紙按照一定的速度鏇轉,即相當於在不同的時間裡記錄下語音數據。

語譜圖還分為窄帶語譜圖和寬頻語譜圖。

主要內容

我們可以觀察語音不同頻段的信號強度隨時間的變化情況。由於音樂信號本身頻率豐富,不太容易看出規律,我們可以觀察一下純粹的語音數據的語譜圖(附圖)。從圖中可以看到明顯的一條條橫方向的條紋,我們稱為“聲紋”,有很多套用。條紋的地方實際是顏色深的點聚集的地方,隨時間延續,就延長成條紋,也就是表示語音中頻率值為該點橫坐標值的能量較強,在整個語音中所占比重大,那么相應影響人感知的效果要強烈得多。而一般語音中數據是周期性的,所以,能量強點的頻率分布是頻率周期的,即存在300Hz強點,則一般在n*300Hz點也會出現強點,所以我們看到的語譜圖都是條紋狀的。

儘管客觀人發聲器官的音域是有限度的,即一般人發聲最高頻率為4000Hz,樂器的音域要比人寬很多,打擊樂器的上限可以到20KHz。但是,由於我們數字分析頻率時,採用的是算法實現的,一般是FFT,所以其結果是由採樣率決定的,即儘管是上限為4000Hz的語音數據,如果採用16Khz的採樣率來分析,則仍然可以在4000Hz以上的頻段發現有數據分布,則可以認為是算法誤差,非客觀事實。

相關詞條

熱門詞條

聯絡我們