首頁 資訊 一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法與流程

一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法與流程

來源:泰然健康網(wǎng) 時(shí)間:2024年12月20日 20:54

一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法與流程

本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法。

背景技術(shù):

失語癥是一種后天獲得性神經(jīng)語言障礙,表現(xiàn)為患者產(chǎn)生或理解語言的能力受到損害,包括聽、說、讀、寫四個(gè)方面。研究發(fā)現(xiàn),失語癥患者的生活質(zhì)量非常差,排名倒數(shù)第一,緊隨其后的才是癌癥和老年癡呆癥患者。為了消除或減輕這種影響,失語癥患者和他們的護(hù)理人員積極尋求康復(fù)治療。失語癥的主要康復(fù)手段為言語訓(xùn)練法,然而,這是一個(gè)資源密集型的過程,在評估和治療中,至少需要一位語言病理學(xué)家。這一要求很難滿足,因?yàn)槭дZ癥群體數(shù)量龐大,而且醫(yī)療資源有限。針對這種情況,計(jì)算機(jī)輔助治療可以起到很好分擔(dān)治療壓力的作用。但是,計(jì)算機(jī)輔助治療失語癥主要流行于歐美國家,國內(nèi)的相關(guān)研究工作比較陳舊且為數(shù)不多。本發(fā)明的目的是訓(xùn)練一個(gè)失語癥患者的自動語音識別模型,以支持患者的康復(fù)訓(xùn)練和輔助交流,本發(fā)明滿足世界衛(wèi)生組織提出的家庭康復(fù)和早期支持出院(earlysupporteddischarge,esd)計(jì)劃。

針對失語癥患者的計(jì)算機(jī)輔助治療,如果采用通用的語音識別模型,不能滿足失語癥患者的語音識別要求,因?yàn)榛颊吒】等说恼f話特征有所不同,患者會出現(xiàn)發(fā)音費(fèi)力、音位錯(cuò)誤等現(xiàn)象。

技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例所要解決的技術(shù)問題在于,提供一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法??捎糜谑дZ癥患者的康復(fù)訓(xùn)練、言語評估和輔助交流中。

為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法,包括以下步驟:

步驟1:錄制包含失語癥患者和健康被試者的語音材料;

步驟2:將所述語音材料中的語音信號轉(zhuǎn)換成特征矩陣,所述特征矩陣的大小為n*51,其中n為語音信號個(gè)數(shù),51為信號特征維度,包括2維時(shí)域特征、3維頻域特征、39維倒譜域特征、7維圖像特征;

步驟3:使用特征選擇確認(rèn)使用所述特征矩陣得到最優(yōu)結(jié)果;

步驟4:在將所述特征矩陣輸入機(jī)器學(xué)習(xí)算法支持向量機(jī)訓(xùn)練所述語音識別模型之前,進(jìn)行z-score數(shù)據(jù)標(biāo)準(zhǔn)化處理;

步驟5:將所述特征矩陣輸入機(jī)器學(xué)習(xí)算法支持向量機(jī)中進(jìn)行學(xué)習(xí),構(gòu)建出用于失語癥患者言語康復(fù)的語音識別模型;

步驟6:將待識別語音轉(zhuǎn)換為所述特征矩陣,使用所述語音識別模型預(yù)測識別結(jié)果。

進(jìn)一步地,所述步驟2將所述語音信號轉(zhuǎn)換成特征矩陣的步驟包括:

步驟2.1:使用matlab函數(shù)audiodatastore讀取所述語音信號,獲得語音標(biāo)簽和采樣率,所述語音標(biāo)簽的形式為n*1向量,n為語音信號個(gè)數(shù);

步驟2.2:獲取時(shí)域特征,檢測所述語音信號中的時(shí)域波形圖,設(shè)置幅度閾值lcthreshold為0.05,提取語音信號的過零率;使用matlab函數(shù)f_pitch計(jì)算出語音的基音頻率;

步驟2.3:獲取頻域特征,檢測語音信號的頻譜圖及其包絡(luò),提取包絡(luò)的前三個(gè)峰值;

步驟2.4:獲取倒譜域特征,使用matlab函數(shù)mfcc計(jì)算出語音的倒譜域特征,其中梅爾倒譜系數(shù)的第一維使用信號能量的對數(shù)值替代;

步驟2.5:獲取圖像特征,使用短時(shí)傅里葉變換將語音信號轉(zhuǎn)換成具有時(shí)頻域特征的語譜圖,使用matlab函數(shù)regionprops檢測語音的圖像特征;

步驟2.6:將上述時(shí)域特征、頻域特征、倒譜域特征、圖像特征放入n*51的所述特征矩陣中,其中n表示語音信號的個(gè)數(shù),51表示語音信號的特征維度。

更進(jìn)一步地,所述步驟5將所述特征矩陣輸入機(jī)器學(xué)習(xí)算法支持向量機(jī)中進(jìn)行學(xué)習(xí)的步驟包括:

步驟5.1:使用matlab函數(shù)templatesvm創(chuàng)建一個(gè)默認(rèn)的svm模板t;

步驟5.2:在多分類學(xué)習(xí)器fitcecoc中輸入步驟2的所述語音標(biāo)簽和特征矩陣,設(shè)置交叉驗(yàn)證折數(shù)為5折,訓(xùn)練出所述語音識別模型。

更進(jìn)一步地,所述步驟3使用特征選擇的步驟包括:

將步驟2中的所述語音標(biāo)簽和特征矩陣導(dǎo)入matlab的快速分類學(xué)習(xí)器classificationlearner中,通過手動自由選擇特征組合,最終確認(rèn)使用步驟2所述特征矩陣得到最優(yōu)結(jié)果。

更進(jìn)一步地,所述步驟4進(jìn)行z-score數(shù)據(jù)標(biāo)準(zhǔn)化處理的步驟包括:

將所述特征矩陣按列求取均值xj和標(biāo)準(zhǔn)差sj,然后根據(jù)公式zij=(xij-xj)/sj計(jì)算得出標(biāo)準(zhǔn)化后的數(shù)值,其中,xij為特征矩陣中的原始值。

更進(jìn)一步地,所述語音信號內(nèi)容中國康復(fù)研究中心標(biāo)準(zhǔn)失語癥檢查表中的關(guān)鍵詞匯。

實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:本發(fā)明采用的語音特征向量以及組合健康人和患者數(shù)據(jù)進(jìn)行訓(xùn)練模型的方法,可以有效地提高失語癥患者的語音識別率,構(gòu)建的模型可以應(yīng)用于失語癥患者的康復(fù)訓(xùn)練、言語評估和輔助交流中。

附圖說明

圖1是本發(fā)明語音識別框架圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步地詳細(xì)描述。

本發(fā)明實(shí)施例的一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法,通過以下步驟進(jìn)行。

步驟a,招募符合要求的失語癥患者(共13名)和健康被試(共34名)錄制用于訓(xùn)練模型的語音材料。語音材料選自中國康復(fù)研究中心標(biāo)準(zhǔn)失語癥檢查表(chineserehabilitationresearchcenterstandardaphasiaexamination,crrcae)中的20個(gè)關(guān)鍵詞匯,包含10個(gè)動詞和10個(gè)名詞以及中文6個(gè)基本元音ā,ō,ē,ī,ū,ǖ,語料均采用普通話錄制。其中,健康被試的語料可以提高模型的識別性能,因?yàn)椴糠质дZ癥患者的發(fā)音障礙并不嚴(yán)重,比較接近正常人;crrcae為失語癥評估臨床量表。

步驟b,將步驟a錄制的語音信號(包括患者和健康被試)轉(zhuǎn)換成特征矩陣。

一,使用matlab函數(shù)“audiodatastore”讀取語音信號,獲得語音標(biāo)簽和采樣率,語音標(biāo)簽的形式為n*1向量,n為語音信號個(gè)數(shù)。同時(shí)設(shè)置幀長為256,幀移為196;

二,檢測語音信號的時(shí)域波形圖,設(shè)置幅度閾值lcthreshold為0.05,提取語音信號與x=lcthreshold的交點(diǎn)數(shù),即過零率。同時(shí)使用matlab函數(shù)“f_pitch”計(jì)算出語音的基音頻率;

三,檢測語音信號的頻譜圖及其包絡(luò),提取包絡(luò)的前三個(gè)峰值,即共振峰;

四,使用matlab函數(shù)“mfcc”計(jì)算出語音的倒譜域特征,其中梅爾倒譜系數(shù)的第一維使用信號能量的對數(shù)值替代。此特征為r*c矩陣,其中,r代表語音信號的幀數(shù),c代表特征維度。然后,對此特征矩陣取均值,得到1*c的特征向量;

五,基于短時(shí)傅里葉變換(short-timefouriertransform,stft),將語音信號轉(zhuǎn)換成具有時(shí)頻域特征的語譜圖,使用matlab函數(shù)“regionprops”檢測圖像特征,即語音的時(shí)頻域特征;

六,將上述所有特征放入一個(gè)n*51的矩陣中,其中n表示語音信號的個(gè)數(shù),51表示語音信號的特征維度,即每一行代表一個(gè)語音信號,每一列代表一種特征向量。

上述語音特征共51維,其中包括2維時(shí)域特征:過零率、基音頻率;3維頻域特征:第一共振峰、第二共振峰、第三共振峰;39維倒譜域特征:13維梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients,mfcc)、13維mfcc一階差分值、13維mfcc二階差分值;7維時(shí)頻域特征:頻率峰值檢測區(qū)域的質(zhì)心、主頻率峰值寬度、方向角、檢測區(qū)域中的實(shí)際像素?cái)?shù)、能量強(qiáng)度的最大值、能量強(qiáng)度的最小值、能量強(qiáng)度的平均值。時(shí)頻域特征是語音通過短時(shí)傅里葉變換,在其語譜圖上提取出來的圖像特征,不同的語音在語譜圖上會表現(xiàn)出不同的能量分布,這種分布差異性決定了其具有較好的語音區(qū)分度。

步驟c,將語音特征向量輸入機(jī)器學(xué)習(xí)算法支持向量機(jī)(supportvectormachine,svm)中進(jìn)行學(xué)習(xí),構(gòu)建出用于失語癥患者言語康復(fù)的語音識別模型。

學(xué)習(xí)過程如下:

一,使用matlab函數(shù)“templatesvm”創(chuàng)建一個(gè)默認(rèn)的svm模板t;

二,在多分類學(xué)習(xí)器“fitcecoc”中輸入步驟b的語音標(biāo)簽和語音特征矩陣,此兩者具有相同的行數(shù),呈現(xiàn)一一對應(yīng)的關(guān)系。

然后,設(shè)置學(xué)習(xí)器為模板t,設(shè)置交叉驗(yàn)證折數(shù)為5折。按此設(shè)置即可訓(xùn)練出用于失語癥患者的語音識別模型,最后將其保存為matlab腳本代碼。

在得到最終識別效果較好的模型之前,進(jìn)行了特征選擇,方法如下:將步驟b中的語音標(biāo)簽和語音特征矩陣導(dǎo)入matlab的快速分類學(xué)習(xí)器“classificationlearner”中,通過手動自由選擇特征組合,最終確認(rèn)使用步驟b所述的51維特征可以得到最優(yōu)結(jié)果。

在將特征矩陣輸入svm訓(xùn)練之前,進(jìn)行了z-score數(shù)據(jù)標(biāo)準(zhǔn)化處理。具體如下:特征矩陣按列求取均值xj和標(biāo)準(zhǔn)差sj,然后根據(jù)公式zij=(xij-xj)/sj計(jì)算得出標(biāo)準(zhǔn)化后的數(shù)值,其中,xij為特征矩陣中的原始值。

支持向量機(jī)算法可以包括線性支持向量機(jī)、二次支持向量機(jī)及其變種和組合。

模型訓(xùn)練完畢后(前述均為模型訓(xùn)練過程),假設(shè)有一待識別語音,將其轉(zhuǎn)換成步驟b所述的51維特征向量序列后,用“predict”函數(shù)即可用此模型來預(yù)測識別結(jié)果。

以上所揭露的僅為本發(fā)明一種較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

相關(guān)知識

言語康復(fù)訓(xùn)練對腦卒中失語癥患者的臨床護(hù)理應(yīng)用
言語治療的訓(xùn)練方法:失語患者如何重新開口交流?學(xué)習(xí)下
腦卒中后失語患者的語言康復(fù)護(hù)理
國際言語治療的訓(xùn)練方法,助失語患者重獲新聲
淺談失語癥兒童的語言康復(fù)訓(xùn)練
運(yùn)動性失語癥康復(fù)訓(xùn)練方法
如何進(jìn)行失語語言康復(fù)訓(xùn)練?
語言認(rèn)知康復(fù)訓(xùn)練方法
言語障礙患者的康復(fù)PPT
語言康復(fù)訓(xùn)練方法

網(wǎng)址: 一種用于失語癥患者康復(fù)訓(xùn)練專用的語音識別方法與流程 http://m.u1s5d6.cn/newsview681661.html

推薦資訊