過去一年,從谷歌眼鏡開始,穿戴式設(shè)備、智能家居和車載設(shè)備的興起,將語音識別技術(shù)推到應(yīng)用的前臺。
對整個語音識別行業(yè)而言,過去一年也經(jīng)歷了前所未有的繁榮,語音識別技術(shù)也有大幅度提高,特別是對新興創(chuàng)業(yè)公司而言,語音識別技術(shù)不再如過去那樣封閉,而是逐步開放和開源,語音技術(shù)門檻逐漸降低。“專業(yè)公司的語音識別可以做到90%,小廠商可以利用開源技術(shù)至少可以做到70%左右的識別率。”語音識別的業(yè)內(nèi)人士這樣判斷。
實際上,即使如專業(yè)語音識別廠商科大訊飛、云知聲、思必馳等都可以做到90%以上的語音識別正確率,單獨的語音識別在可穿戴設(shè)備中的應(yīng)用依然不夠“聽話”。這甚至成為整體語音技術(shù)應(yīng)用的一個最大痛點。
“語音識別的遺憾是再努力做也做不到百分之百”。智能語音技術(shù)創(chuàng)業(yè)公司思必馳首席科學家俞凱這樣判斷。
劍橋大學皇家工程院院士史蒂夫.楊(Steve Young)教授是語音識別界的權(quán)威人物,多年前開始思考另一個方向:“在識別有錯誤,或者在理解有歧義的情況下,人和人之間可以繼續(xù)對話溝通達成目標,機器也應(yīng)可以做到。”
沿著在英國奠定的“對話”技術(shù)路徑,作為史蒂夫.楊的對話系統(tǒng)研究團隊早期核心成員,劍橋大學語音識別博士俞凱,和另一位同在劍橋大學畢業(yè)的高始興回國創(chuàng)業(yè),創(chuàng)立了思必馳。從思必馳的進展來看,不糾結(jié)于語音識別的識別率的完美主義,而死磕人機交互的“對話”系統(tǒng)似乎可成為如何讓可穿戴設(shè)備真正能用上語音技術(shù)的“捷徑”之一。
語音助手的尷尬
自蘋果iPhone 4S內(nèi)置Siri以來,幾乎所有的手機都開始內(nèi)置語音助手類的應(yīng)用。除了谷歌Now、蘋果Siri,國內(nèi)如百度、搜狐等公司都推出了語音助手類應(yīng)用。
一年后,助手類應(yīng)用幾乎都面臨著功能的同質(zhì)化、用戶體驗不足、語音識別準確率在復雜條件下距離實用化尚有距離的問題。
Siri的迭代可以解釋助手的尷尬。在蘋果發(fā)布iPhone 一代和二代時并沒有沒有語音驅(qū)動。在當時,蘋果的一個調(diào)研顯示,75%的用戶希望在手機中內(nèi)置語音應(yīng)用。隨后,蘋果在iPhone3GS中加入了語音控制的功能。實際應(yīng)用中,不到5%的人會使用語音控制。蘋果內(nèi)部的總結(jié)發(fā)現(xiàn),用戶不使用語音控制不是不喜歡語音應(yīng)用,而是由于語音控制不是用戶的自然交互。
“有87%的用戶每月至少使用一次Siri,但大多數(shù)用戶都是和Siri聊天。而不是通過Siri完成任務(wù)。”Siri的一位負責人發(fā)布了這樣的數(shù)據(jù)。
“Siri給我們的啟示是,未來智能語音技術(shù)的發(fā)展,必須同時解決自然語言交互和完成有用任務(wù)的問題,而且限制越少越好,缺了哪個都不行。”俞凱說。
去年,Siri被重新整合到蘋果的內(nèi)容和服務(wù)部門,且設(shè)立的四個研發(fā)組中一個與語音識別相關(guān),三個全都是與對話系統(tǒng)相關(guān)。另一家巨頭谷歌于去年9月對外公布新算法“Hummingbird(蜂鳥)”目的是發(fā)展語義搜索;12月在巴黎舉行的LeWeb上透露將采用反復對話的形式進行搜索。
俞凱認為,這個舉動暗示巨頭的戰(zhàn)略在從語音識別向?qū)υ捊换サ姆较蜻~進。
用對話交互解決痛點
對于那些不方便使用鍵盤和鼠標輸入的設(shè)備而言,語音識別技術(shù)成為更有效的輸入手段,幫助用戶解決了輸入的困難。
“有了語音識別,將語音轉(zhuǎn)換成文本,再將文本用自然語言處理轉(zhuǎn)換成語義就完成任務(wù)了么?”俞凱認為,這些還不夠。“語音技術(shù)的本意是幫助用戶最快地完成任務(wù),但語音識別+自然語言處理不能徹底解決這個問題。”
單純的語音識別的另一個局限是,識別+自然語言處理本質(zhì)上是根據(jù)文本理解,語音先轉(zhuǎn)換成文本,自然語言理解僅僅針對文本進行,這種模式很難應(yīng)對語音識別的錯誤,也無法理解用戶意圖的模糊性。
這是由于,人天生的傾向于用非精確的信息來交互,因為非精確的信息傳輸量更大,更方便。機器卻是需要有精確信息來處理才能讓識別和自然語言處理更準確。這是一對天然的矛盾。
例如說“去九寨溝吃飯”,到底是去風景區(qū),還是去一個叫九寨溝的餐館是不清楚的。因為在識別過程中沒有針對交互過程中的上下文建立對話模型和聯(lián)系歷史信息,這類用戶意圖的模糊是無法由自然語言處理完成的。
“我們把識別、理解、決策、合成等對話系統(tǒng)的各個模塊進行聯(lián)合優(yōu)化,在每個模塊出現(xiàn)處理上的偏差的時候,基于全系統(tǒng)豐富的非精確信息進行計算,更新交互,實現(xiàn)順暢對話。在自然語言理解的基礎(chǔ)上,又允許有不確定性的信息,綜合去做理解和交互決策。”俞凱說。
劍橋語音技術(shù)血統(tǒng)的創(chuàng)業(yè)
科大訊飛的創(chuàng)始團隊來自于中國科技大學,云知聲的團隊來自于中科院自動化所和盛大創(chuàng)新院。
在科大訊飛開始做語音識別技術(shù)之前,90年代初期,劍橋大學開發(fā)的HTK語音識別工具已經(jīng)將實驗室研究的語音識別技術(shù)的代碼標準化,并免費提供給開發(fā)者,普及了語音識別技術(shù)的開發(fā),至今也是全世界使用最為廣泛的開源軟件之一。
思必馳的創(chuàng)業(yè)血統(tǒng)來自于劍橋大學。俞凱和思必馳CEO高始興是在劍橋的師兄弟。俞凱曾和對話領(lǐng)域的奠基人史蒂夫.楊搭檔開展語音對話交互的研究和產(chǎn)業(yè)化工作。
2011年,高始興看到中國市場上智能設(shè)備上有爆發(fā)之勢,請俞凱回國,并從漢語和英語口語評測的方向轉(zhuǎn)型,在完成高精度的云端語音識別之后,重點實現(xiàn)對話系統(tǒng)技術(shù)。
“2011年,我們的首輪融資來自聯(lián)想之星。之所以在眾多投資者中選擇聯(lián)想,是聯(lián)想之前投資了科大訊飛有關(guān)。聯(lián)想是唯一一家投過語音識別企業(yè)的。”高始興說。
去年9月,思必馳發(fā)布了國內(nèi)第一個對話平臺——對話工場,以對話為核心的智能語音交互技術(shù)開放平臺,核心是不僅讓機器聽清人話,還能聽懂,并完成任務(wù)。
截止到目前,聯(lián)想、蘇州電信、同程網(wǎng)、土曼智能手表、幻騰智能燈、智能家居Broadlink、驢媽媽等都采用了思必馳的語音技術(shù)解決方案。“互聯(lián)網(wǎng)的合作伙伴有20家,手機等智能設(shè)備的合作伙伴也有20家。還有一些智能客服的合作伙伴。”高始興透露。
不過他認為,和廠商的合作并非接入語音識別的技術(shù)方案那樣簡單,更重要的是與業(yè)務(wù)的耦合。
語音助手類的應(yīng)用的尷尬在于只是識別引擎,效果不好很容易被其他助手替換。如果能與合作伙伴的業(yè)務(wù)能深度耦合,“一方面給合作伙伴的業(yè)務(wù)帶來用戶粘性,同時還可以通過該業(yè)務(wù)用戶的語音語料做自身技術(shù)方案的優(yōu)化,同時還能提升用戶體驗,多方共贏。”高始興說。