一般在識別說話人時,採用母音強度與母音間隔作為說話人識別的基礎參數。
具體參見:勾軼,劉曉麗,陳長征.基於小波與神經網路的說話人身份識別[M].
⑵ 語音特徵信號分類的意義
意義是面對雜訊、干擾、聲學回聲、混響等不利因素的影響,運用信號分類、機器學習等手段將他們分類。
語音特徵信號識別是語音識別研究領域中的一個重要方面,其根本目的就是判斷某種語音信號屬於類別。
⑶ MATLAB神經網路30個案例分析的圖書目錄
第1章 P神經網路的數據分類——語音特徵信號分類
第2章 BP神經網路的非線性系統建模——非線性函數擬合
第3章 遺傳演算法優化BP神經網路——非線性函數擬合
第4章 神經網路遺傳演算法函數極值尋優——非線性函數極值尋優
第5章 基於BP_Adaboost的強分類器設計——公司財務預警建模
第6章 PID神經元網路解耦控制演算法——多變數系統控制
第7章 RBF網路的回歸——非線性函數回歸的實現
第8章 GRNN的數據預測——基於廣義回歸神經網路的貨運量預測
第9章 離散Hopfield神經網路的聯想記憶——數字識別
第10章 離散Hopfield神經網路的分類——高校科研能力評價
第11章 連續Hopfield神經網路的優化——旅行商問題優化計算
第12章 SVM的數據分類預測——義大利葡萄酒種類識別
第13章 SVM的參數優化——如何更好的提升分類器的性能
第14章 SVM的回歸預測分析——上證指數開盤指數預測
第15章 SVM的信息粒化時序回歸預測——上證指數開盤指數變化趨勢和變化空間預測
第16章 自組織競爭網路在模式分類中的應用——患者癌症發病預測
第17章SOM神經網路的數據分類——柴油機故障診斷
第18章Elman神經網路的數據預測——電力負荷預測模型研究
第19章 概率神經網路的分類預測——基於PNN的變壓器故障診斷
第20章 神經網路變數篩選——基於BP的神經網路變數篩選
第21章 LVQ神經網路的分類——乳腺腫瘤診斷
第22章 LVQ神經網路的預測——人臉朝向識別
第23章 小波神經網路的時間序列預測——短時交通流量預測
第24章 模糊神經網路的預測演算法——嘉陵江水質評價
第25章 廣義神經網路的聚類演算法——網路入侵聚類
第26章 粒子群優化演算法的尋優演算法——非線性函數極值尋優
第27章 遺傳演算法優化計算——建模自變數降維
第28章 基於灰色神經網路的預測演算法研究——訂單需求預測
第29章 基於Kohonen網路的聚類演算法——網路入侵聚類
第30章 神經網路GUI的實現——基於GUI的神經網路擬合、模式識別、聚類
⑷ hopfield網路作為自聯想記憶的容量是多少
MATLAB中文論壇2010年出過一本書,北航出版社的,叫《MATLAB神經網路30個案例分析 (豆瓣)》。我覺得把它作為入門書挺好的,每一章配有視頻和代碼,可以依樣畫葫蘆。剛剛順手還看到了另一本書《MATLAB智能演算法30個案例分析》,看目錄貌似內容也比較接近的。 《神經網路》包含的30個例子: P神經網路的數據分類——語音特徵信號分類 BP神經網路的非線性系統建模——非線性函數擬合 遺傳演算法優化BP神經網路——非線性函數擬合 神經網路遺傳演算法函數極值尋優——非線性函數極值尋優 基於BP_Adaboost的強分類器設計——公司財務預警建模 PID神經元網路解耦控制演算法——多變數系統控制 RBF網路的回歸——非線性函數回歸的實現 GRNN的數據預測——基於廣義回歸神經網路的貨運量預測 離散Hopfield神經網路的聯想記憶——數字識別 離散Hopfield神經網路的分類——高校科研能力評價 連續Hopfield神經網路的優化——旅行商問題優化計算 SVM的數據分類預測——義大利葡萄酒種類識別 SVM的參數優化——如何更好的提升分類器的性能 SVM的回歸預測分析——上證指數開盤指數預測 SVM的信息粒化時序回歸預測——上證指數開盤指數變化趨勢和變化空間預測 自組織競爭網路在模式分類中的應用——患者癌症發病預測 SOM神經網路的數據分類——柴油機故障診斷 Elman神經網路的數據預測——電力負荷預測模型研究 概率神經網路的分類預測——基於PNN的變壓器故障診斷 神經網路變數篩選——基於BP的神經網路變數篩選 LVQ神經網路的分類——乳腺腫瘤診斷 LVQ神經網路的預測——人臉朝向識別 小波神經網路的時間序列預測——短時交通流量預測 模糊神經網路的預測演算法——嘉陵江水質評價 廣義神經網路的聚類演算法——網路入侵聚類 粒子群優化演算法的尋優演算法——非線性函數極值尋優 遺傳演算法優化計算——建模自變數降維 基於灰色神經網路的預測演算法研究——訂單需求預測 基於Kohonen網路的聚類演算法——網路入侵聚類 神經網路GUI的實現——基於GUI的神經網路擬合、模式識別、聚類
⑸ 第三章 語音信號特徵分析
語音合成音質的好壞,語音識別率的高低,都取決於對語音信號分析的准確度和精度。例如,利用線性預測分析來進行語音合成,其先決條件是要用線性預測方法分析語音庫,如果線性預測分析獲得的語音參數較好,則用此參數和成的語音音質就較好。例如,利用帶通濾波器組法來進行語音識別,其先決條件是要弄清楚語音共振峰的幅值,個數,頻率范圍及其分布情況。
語音信號特徵的分析可以分為時域,頻域和倒譜域。
時域分析簡單直觀,清晰易懂,物理意義明確。
更多有效的分析是圍繞頻域進行的,因為語音中最重要的感知特性反應在其功率譜中,其相位變化只起著很小的作用。
常用頻域分析有帶通濾波器組,傅里葉變換法和線性預測分析法。頻譜具有很明顯的聲學特性,利用頻域分析獲得的特徵具有實際的物理意義,如共振峰參數,基音參數周期等。
倒譜域是對對數功率譜進行傅里葉反變換得到的,可以將聲道特性和激勵特性有效的分開,更好的揭示語音信號的本質特徵。
可以將語音信號分析分為模型分析法和非模型分析法兩種。模型分析法是指依據語音信號產生的數學模型,來分析和提取表徵這些模型的特徵參數;共振峰模型分析法和線性預測都術語這種方法。凡不進行模型化分析的其他方法都屬於非模型分析法,包括上面提到的時域分析法,頻域分析法及同態分析法。
貫穿語音信號分析全過程的是「短時分析技術」。短時間內特性基本保持不變,相對穩定,准穩態過程。10~30ms內保持相對平穩。
實際信號常有一些低能量的信號分量超過采樣頻率的一半,如濁音的頻譜超過4khz的分量至少比峰值低40db,而清音,超過8khz,頻率分量也沒有顯著下降,因此語音信號所佔的頻率范圍可以達到10khz以上,但對語音清晰度的有明顯影響部分的最高頻率為5.7kHZ左右。
電話系統為8kHZ,而時間中,采樣頻率為8-10kHZ,而語音合成或者語音識別,獲得更高的質量,采樣頻率一般為15——20kHZ。
在一般的識別系統中,采樣率最高為16kHZ,當繼續增加采樣率是,識別率幾乎沒有增加。
量化: 有三種方式,零記憶量化,分組量化和序列量化。
假設語音信號在10~30ms內是平穩的,後面所有的分析都是在這個假設下進行的。
為了得到短時的語音信號,要對語音信號進行加窗的操作,窗函數平滑的在語音信號上滑動,將語音信號分成幀。分幀可以連續,也可以採用交疊分段,交疊部分稱為幀移,一般為窗長的一般。
加窗時,不同窗口將影響到語音信號分析的結果
窗的長度對能否反映語音信號的幅度變化起決定性作用。如果N特別大,即等於幾個基因周期量級,則窗函數等效於很窄的低通濾波器,此時信號短時信息將緩慢的變化,因而不能充分反映波形變化的細節。如果N特別小,即等於或小於一個基因周期的量級,則信號的能量將按照信號波形的細微狀況而很快的啟發,但如果N太小,濾波器的通帶變寬,則不能獲得平滑的短時信息,因此窗口的長度要選擇合適。窗的衰減基本與窗的持續時間無關,因此當改變寬度N時,會使帶寬發生變化。
窗口長度是相對於語音信號的汲引周期而言,通常認為一個語音幀內,應含有1~7個基音周期,然而不同人的基音周期變化范圍很大,基音周期的持續時間會從高音的約20個采樣點變化到低音調250個采樣點,這意味著可能需要多個不同的N值,所以N的選擇比較困難,通常在采樣頻率10kHZ的情況,N選擇100~200量級(10~20ms)持續時間是比較合適的。
有聲(V)無聲(S)清音(U)判決。
能夠實現這些判決的依據再於,不同性質的語音各種短時參數具有不同的概率密度函數,以及相鄰的若干幀具有一致的語音特性,不會再S , U, V之間快速變化。
每個語音的輸入起點和重點,利用短時平均幅度參數M和短時過零率可以做到這一點。
濁音情況下短時平均幅度參數的概率密度函數P(M|V)確定一個閾值參數M_H.根據M_H可以確定前後兩個點A_1和A_2 後肯定是語音段,但精確起點,還要仔細查找。
為此,再設定一個較低的閾值參數M_L, 然後確定B_1 和 B_2, 從這兩個點之後用短時過零率搜索。 清音的過零率高於無聲段,但是能量低。
但是在研究結果中表明,利用短時平均過零率區分無聲和清音在有些情況下不是很可靠,由於清音的強度會比無聲段高一下,將門限提高一些對清音的影響不大,但在沒有背景雜訊的情況下,無聲段將不會穿越這一提高的電平,因為可以正確區分清音和無聲段。
因此採用這種過零率,具有抗干擾能力
濾波器可以是寬頻帶通濾波器,具有平攤的特性,粗略求語音的頻譜,頻率解析度低,可以是窄帶濾波器,頻率解析度較高。
現在一般都在用數字濾波器,其中如何將模擬濾波器數字化,涉及到零點極點的內容,需要參考DSP的內容。極點波峰,零點波谷。
為窗口函數。
兩種方式來理解物理意義
在實際計算時,一般用離散傅里葉變換代替連續傅里葉變換,則需要對信號進行周期延拓。(非周期->連續譜,周期->離散譜),這時候得到的是功率譜 。 如果窗長度為 , 那麼 的長度為 , 如果對 以 進行周期拓展,則自相關就會出現混疊現象,即這個周期的循環相關函數在一個周期中的值就與線性相關 的值不同,這樣得到的功率譜就是一組前采樣,若想得到全部的 個值,可以補充L個零,擴展成2L的信號,並做離散傅里葉變換,這時的循環相關與現行相關是等價的。( 後面這句話對我來說暫時是天書 )
在對窗函數的分析中,我們知道對於任何一個窗函數都存在旁瓣效應,這時候有諧波效應。
語譜圖的時間解析度和頻率解析度是由所採用的窗函數決定的。假設時間固定,對信號乘以窗函數相當於在頻域用窗函數的頻率響應與信號頻譜的卷積。如果窗函數的頻率響應 的通帶寬度為 ,那麼語譜圖中的頻率解析度的寬度即為 。即卷積的作用將使任何兩個相隔間隔頻率小於 的譜峰合並為一個單峰。對於窗函數而言,通帶寬度與窗長成反比,如果希望頻率解析度高,則窗長應該盡量長一些。
對於時間解析度,假設頻率固定,相當於對時間序列 做低通濾波,輸出信號的帶寬就是 的帶寬b,根據采樣定理,只需要以 的采樣率就可以反映出信號的所有頻率成分,這時候所具有的時間解析度的寬度為 . 因此如果希望時間解析度高,則窗長應該短一些。因此時間解析度和頻率解析度是相互矛盾的,這也是短時傅里葉變換本身固有的缺點。
點評:
1.26新增理解:
這類線性主要有短時傅里葉變換與Gabor變換和小波變換,其中STFT和Gabor變換是一種加窗的傅里葉變換,使用固定大小的時頻網格,時頻網格在時頻變換只限於時間平移和頻率平移,窗函數固定的,只適用於分析帶寬固定的非平穩信號,實際應用中,希望對低頻分析,頻率解析度高,高頻時間解析度高,要求窗函數寬度能隨之頻率變化而變化。小波分析的視頻分析網格變化除了時間平移外,還有時間和頻率軸比例尺度的改變。適用於分析具有固定比例帶寬的非平穩信號。
這類時頻由能量譜或功率譜演化而來,其特點是變換為二次的。雙線性關系可以表示為
其中 為能量譜,而 表示取共軛操作。
點評: 好像沒見過,先跳過。。。。。
在信號分析與信號處理中,信號的「時間中心」及「時間寬度」以及頻率中心與頻率寬度是非常重要的概念,分別說明信號在時域和頻域中心位置在兩個域的擴展情況。
信號再這兩個物理量的測量上有一個重要的約束原則,就是著名的「不確定性原理」。它的意義是,信號波形在頻率軸上的擴張和時間軸上的擴張不可能同時小於某一界限,即若函數 和 構成一堆傅里葉變換,則不可能同時是短寬度的,即
等號成立的充分必要條件是 為高斯函數,即 . 證明,用Cauchy-Schwarts不等式可得。
窗函數為高斯函數的短時傅里葉變換稱為Gabor變換。
是大於0的固定常數。由於 , 因此 . 這表明,信號 的gabor 變換 是對任何 在時間 附近對 傅里葉變換的局部化(在說什麼??),達到了對 的精確分解。
Gabor變換是具有最小時頻窗的短時傅里葉變換。但進一步研究發現,這兩種變換都沒有離散的正交基, 所以沒有像離散傅里葉變換FFT那種快速演算法。而且窗函數固定不變,不能隨著所分析信號的成分是高頻還是低頻做相應的變化。所以這時候有小波變換,能夠自動調節窗口長度。
小波理論採用多解析度的分析的思想,非均勻地劃分時頻空間,為非平穩信號的分析提供了新途徑。
定義: 小波是函數空間 中滿足下述條件的一個函數或者信號
其中 表示全體非零實數, 為 的頻域表示形式。 稱為小波母函數。對於任意實數對,稱如下形式的函數為右小波母函數生成的依賴於參數(a,b)的連續小波函數,稱為小波,其中a必須為非零實數。
的作用是把基本小波 做伸縮, 的作用是確定對 分析的時間位置,也即是實踐中心。 在 的附近存在明顯的波動,而且波動范圍的大小完全依賴於尺度因子 的變化。 時,一致, 時,范圍比原來小波函數 范圍大些,小波的波形變得矮寬,變化越來越緩慢,當 時, 在 附近波動范圍葯效,小波波形尖銳而消瘦。
給定平方可積的信號 ,即 , 則 的小波變換定義為
與傅里葉變換不同,小波變換是一個二元函數。另外,因為母函數 只在原點附近才會有明顯偏離水平軸的移動,遠離原點,迅速衰減為0.
假設小波函數 及傅里葉變換 都滿足窗口函數的要求,他們的窗口中心和半徑分別記為 和 和 和 , 可以證明對於任意任意參數對,連續小波變換和其傅里葉變換都滿足窗口函數的要求,他們的窗口中心和寬度分別為
則時頻窗是平面一個可變的矩形,面積為 . 這個面積只與小波的母函數 有關,與 無關,但形狀隨著a變換。
如果按照線性模型理論,語音信號是由激勵信號和聲道響應卷積產生。解卷就是將各卷積分量分開。解卷演算法分為兩大類,一類稱為「參數解卷」,即線性預測分析,另一類演算法稱為「非參數解卷」,即同態解卷積,對語音信號進行同態分析後,將得到語音信號的倒譜參數,此時同態分析也稱為 倒譜分析或者同態處理。
同態處理是一種較好的解卷積方法,它可以較好的將語音信號中的激勵信號和聲道響應分離,並且只需要用十幾個倒譜系數就能相當好的描述語音信號的聲道特性,因此占很重要的位置。
通常的加性信號可以用線性系統處理,滿足線性疊加原理。然後很多信號是由乘性信號或者卷積信號組合的信號。這樣的信號不能用線性系統處理,得用非線性系統處理。但是非線性系統分析起來困難,同態語音辛哈就是將非線性問題轉換為線性問題處理。語音信號可以看做是聲門激勵信號與聲道響應的卷積結果,所以下面僅討論卷積同態信號的處理問題。
同態語音信號處理的一個通用的系統如圖3-23所示,其符號 表示由卷積組合規則組合起來的空間,即該系統的輸入和輸出都是卷積性信號。同態系統的一個最主要理論結果是同態系統理論分解,分解的目的是用兩個特徵系統和一個線性系統來代替非線性的同態系統。分解的情形如下面所示。
分別對應聲門激勵信號(excitation 和 vocal tract),特徵信號 是將卷積信號轉化為加性信號,這時候進行Z變換,將卷積信號轉化為乘積信號(疑問1),這時候得到的就是頻譜,然後通過對數運算,變成加性信號,但是這個時候是對數頻譜,使用不便。最後再變換回時域信號。
是在倒譜域對信號處理,常見處理方式是將語音聲源信號與聲道信號分離。 在倒譜域,總可以找到一個 ,當 時,聲道濾波器的倒譜為0,當 時,激勵的倒譜接近於0.
如果想再恢復語音信號,用d所示的逆特徵系統運算即可。
MFCC (Mel Frequency cepstrum coefficient),MFCC是將人耳的聽覺感知特性和語音產生機制相結合,因此目前大多數語音識別系統廣泛使用這種特徵。
耳蝸的濾波作用是在對數頻率尺度進行的,在1000Hz以下為線性,在1000Hz以上為對數,這就使得人耳對低頻比高頻更敏感
對頻率軸不均勻劃分是MFCC特徵區別於前面普通倒譜特徵的最重要的特點,變換到Mel域後,Mel帶通濾波器組的中心頻率是按照Mel刻度均勻排列的,實際應用中,MFCC計算過程如下
MFCC有效利用的聽覺特性,因此改變了識別系統的性能,如果倒譜位數增加,對識別性能影響不大。但採用動態特徵,誤識率有20%的下降。
點評2019.01.30:第三四次囫圇吞棗的看完MFCC,即使知道了倒譜,但最後按個離散餘弦變換還是比較不能聯繫上,反正感覺亂亂的吧,包括差分之類的,想被打回哪門語音信號處理課上回爐了,Mark一下,始終有一天會懂其中的深意的。