您現(xiàn)在的位置:首頁 > 科技 > 正文

Siri、小度和小冰 它們是如何做到和你相談甚歡的

時間:2019-08-19 14:47:35    來源:科技日報    

你知道小冰嗎?你呼叫過小度嗎?你和小娜互動過嗎?你使用過Siri嗎?如果都沒有,那你就out了。它們都是當下很火爆的智能語音機器人,很多人都和它們聊過天。

日前,美國投資機構(gòu)Mangrove Capital Partners發(fā)布了2019年《語音技術(shù)報告》。報告分析了語音助理服務的日益普及,并預測蘋果2020年將推出Siri操作系統(tǒng)。那么,究竟什么是語音技術(shù)?它有哪些應用?語音操作系統(tǒng)又是什么?為此,記者采訪了相關(guān)專家。

通過純語音信息實現(xiàn)與機器交互

與圖像識別、機器學習一樣,智能語音是人工智能的一個分支。在人工智能異?;馃岬漠斚?,從Siri到小度,從小冰到小娜,智能語音正在融入人們的生活之中。

所謂智能語音技術(shù),就是研究人與計算機直接以自然語音的方式進行有效溝通的各種理論和方法,涉及語音識別、內(nèi)容理解、對話問答等。一般來說,智能語音就是利用計算機對語音信息進行自動處理和識別的技術(shù)。

“從引擎模塊的角度講,智能語音技術(shù)包括語音前端處理(含語音增強)、語音識別、語音合成、語義理解對話管理和聲紋識別等模塊。其中,語音識別就是將語音信息通過計算機自動處理轉(zhuǎn)化成文字的過程,也叫語音轉(zhuǎn)寫,它包括語音分段、端點檢測、特征提取、解碼以及后處理等過程。”中國科學院聲學研究所(以下簡稱中科院聲學所)研究員趙慶衛(wèi)告訴科技日報記者。

目前,智能語音技術(shù)主要應用于智能家居、虛擬助手、可穿戴設備、智能車載、智能客服、智能醫(yī)療、陪伴機器人等方面。所謂虛擬助手,就是智能語音助手,它的核心在于人類通過純語音信息實現(xiàn)與機器的交互,讓智能機器“助手”幫忙完成指派的任務。

在趙慶衛(wèi)看來,語音操作系統(tǒng)是一個比較大膽的設想,基于語音的人機交互有很大的發(fā)展?jié)摿?,所以不少互?lián)網(wǎng)企業(yè)都看好這個方向。目前,亞馬遜已經(jīng)打造了一個智能語音云平臺(Alexa),平臺上有各種智能語音應用(8萬種技能),在這個平臺上,用戶可以通過語音發(fā)出一系列指令,比如購物、搜索、聽音樂、講故事等。

智能語音技術(shù)的前世今生

事實上,智能語音技術(shù)的研究起源于20世紀50年代。1952年,美國貝爾實驗室制造了一臺6英尺高的自動數(shù)字識別機“Audrey”,它可以識別數(shù)字0—9的發(fā)音,且準確度高達90%以上。并且它對熟人的精準度高,而對陌生人則偏低。1958年,中科院電子所的聲學研究室利用電子管實現(xiàn)了10個元音的識別。“由于那時計算能力很弱,智能語音只能做一些特別簡單的字母或數(shù)字的識別。”趙慶衛(wèi)說道。

20世紀60年代到70年代初,語音識別的研究取得了一定進展。“此時,智能語音技術(shù)開始形成系統(tǒng)的框架,提出了基于線性預測編碼(LPC)技術(shù)的特征提取方法和動態(tài)時間規(guī)整(DTW)技術(shù),并且使用模板匹配的方法做一些簡單的語音識別(小詞匯量、特定人、孤立詞)”。

從20世紀70年代中期到80年代,語音識別的框架有了突破,統(tǒng)計模型逐步取代模板匹配的方法,隱含馬爾科夫模型成為語音識別系統(tǒng)的基礎(chǔ)模型。同時,也采用高斯混合模型作為聲學模型的主要建模方法,連接詞識別和中等詞匯量連續(xù)語音識別得到了較大發(fā)展。

“到90年代的時候,基礎(chǔ)的神經(jīng)網(wǎng)絡語音識別模型已經(jīng)提出。但當時神經(jīng)網(wǎng)絡語音識別模型之所以沒能取得較大的突破,主要是因為當時服務器的計算能力不夠強以及訓練語音數(shù)據(jù)的量不夠多。”趙慶衛(wèi)說,90年代時的神經(jīng)網(wǎng)絡語音識別模型沒能替代傳統(tǒng)方法,此時智能語音技術(shù)還是以隱含馬爾科夫模型和高斯混合模型為基本框架。

從20世紀90年代到21世紀初,非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)的研究成為國際語音界研究方向的主流。1997年,IBM首個聽寫產(chǎn)品Via Voice問世,用戶只要對著話筒說出想要輸入的文字,系統(tǒng)就會自動識別并輸出文字。

2002年,中科院自動化所推出了“天語”中文語音系列產(chǎn)品——Pattek ASR;2005年,中科院聲學所推出國內(nèi)第一個自主研發(fā)的電信級語音識別平臺,首次實現(xiàn)了國產(chǎn)語音識別軟件的規(guī)模應用,在中國移動23個省的增值業(yè)務上線應用,占據(jù)了國內(nèi)80%市場份額,使美國公司對中國語音識別市場的壟斷成為歷史。

深度神經(jīng)網(wǎng)絡框架成為主流

2010年,隨著服務器的計算能力大幅提高(受益于GPU的應用)和訓練語音數(shù)據(jù)的大幅度增加(受益于移動互聯(lián)網(wǎng)和云計算的發(fā)展),微軟基于深度神經(jīng)網(wǎng)絡的語音識別研究取得較大進展,“識別錯誤率相對下降20%以上”。此后,深度神經(jīng)網(wǎng)絡的建模優(yōu)勢被許多國際和國內(nèi)知名語音研究機構(gòu)所驗證,業(yè)界開始認識到基于深度神經(jīng)網(wǎng)絡的建??蚣鼙仍瓉淼目蚣茏R別效果明顯要好,“現(xiàn)在大家基本都采用了基于深度神經(jīng)網(wǎng)絡的建??蚣堋?rdquo;趙慶衛(wèi)說道。

最近幾年,基于深度神經(jīng)網(wǎng)絡的語音識別技術(shù)也進行了持續(xù)的迭代,從基礎(chǔ)的深度神經(jīng)網(wǎng)絡發(fā)展到延時神經(jīng)網(wǎng)絡(TDNN)、雙向長短時記憶(BLSTM)以及卷積神經(jīng)網(wǎng)絡(CNN)等;近年來,基于端到端架構(gòu)(End-to-End)的語音識別系統(tǒng)正在被語音識別的學術(shù)界和工業(yè)界深入研究,一些系統(tǒng)也已經(jīng)上線,中科院聲學所將其最新研究成果實際應用于中國移動通信集團和中國電信集團的客服熱線,智能技術(shù)直接服務了數(shù)以億計的客戶。

據(jù)了解,中科院聲學所長期致力于語音識別核心技術(shù)研究。針對實時語音識別的需求,研究人員提出一種基于混合神經(jīng)網(wǎng)絡(延時神經(jīng)網(wǎng)絡+輸出投影門循環(huán)單元)的低延時聲學建模技術(shù),可處理長時信息,網(wǎng)絡結(jié)構(gòu)簡潔,計算速度快,易于并行化訓練。該模型結(jié)構(gòu)已作為一種新型的回饋神經(jīng)網(wǎng)絡結(jié)構(gòu)被國際主流語音識別開源軟件Kaldi采納。在非實時語音識別方面,提出基于BLSTM-E(雙向長短時記憶擴展)的深度神經(jīng)網(wǎng)絡結(jié)構(gòu),提升了現(xiàn)有主流BLSTM的性能,并解決了序列化訓練條件下LSTM(長短時記憶網(wǎng)絡)對不同長度語音輸入的魯棒性差的問題。(陸成寬)

關(guān)鍵詞: 智能語音技術(shù)

凡本網(wǎng)注明“XXX(非中國微山網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和其真實性負責。

特別關(guān)注