免費發(fā)布信息網(wǎng)站
貿(mào)易服務(wù)免費平臺

語音助手不靈 “對話交互”才是未來？

發(fā)布日期：2014-01-06 13:25 瀏覽次數(shù)：16

　　過去一年，從谷歌眼鏡開始，穿戴式設(shè)備、智能家居和車載設(shè)備的興起，將語音識別技術(shù)推到應(yīng)用的前臺。

　　對整個語音識別行業(yè)而言，過去一年也經(jīng)歷了前所未有的繁榮，語音識別技術(shù)也有大幅度提高，特別是對新興創(chuàng)業(yè)公司而言，語音識別技術(shù)不再如過去那樣封閉，而是逐步開放和開源，語音技術(shù)門檻逐漸降低。“專業(yè)公司的語音識別可以做到90%，小廠商可以利用開源技術(shù)至少可以做到70%左右的識別率。”語音識別的業(yè)內(nèi)人士這樣判斷。

　　實際上，即使如專業(yè)語音識別廠商科大訊飛、云知聲、思必馳等都可以做到90%以上的語音識別正確率，單獨的語音識別在可穿戴設(shè)備中的應(yīng)用依然不夠“聽話”。這甚至成為整體語音技術(shù)應(yīng)用的一個最大痛點。

　　 “語音識別的遺憾是再努力做也做不到百分之百”。智能語音技術(shù)創(chuàng)業(yè)公司思必馳首席科學家俞凱這樣判斷。

　　劍橋大學皇家工程院院士史蒂夫.楊（Steve Young）教授是語音識別界的權(quán)威人物，多年前開始思考另一個方向：“在識別有錯誤，或者在理解有歧義的情況下，人和人之間可以繼續(xù)對話溝通達成目標，機器也應(yīng)可以做到。”

　　沿著在英國奠定的“對話”技術(shù)路徑，作為史蒂夫.楊的對話系統(tǒng)研究團隊早期核心成員，劍橋大學語音識別博士俞凱，和另一位同在劍橋大學畢業(yè)的高始興回國創(chuàng)業(yè)，創(chuàng)立了思必馳。從思必馳的進展來看，不糾結(jié)于語音識別的識別率的完美主義，而死磕人機交互的“對話”系統(tǒng)似乎可成為如何讓可穿戴設(shè)備真正能用上語音技術(shù)的“捷徑”之一。

　　語音助手的尷尬

　　自蘋果iPhone 4S內(nèi)置Siri以來，幾乎所有的手機都開始內(nèi)置語音助手類的應(yīng)用。除了谷歌Now、蘋果Siri，國內(nèi)如百度、搜狐等公司都推出了語音助手類應(yīng)用。

　　一年后，助手類應(yīng)用幾乎都面臨著功能的同質(zhì)化、用戶體驗不足、語音識別準確率在復雜條件下距離實用化尚有距離的問題。

　　Siri的迭代可以解釋助手的尷尬。在蘋果發(fā)布iPhone 一代和二代時并沒有沒有語音驅(qū)動。在當時，蘋果的一個調(diào)研顯示，75%的用戶希望在手機中內(nèi)置語音應(yīng)用。隨后，蘋果在iPhone3GS中加入了語音控制的功能。實際應(yīng)用中，不到5%的人會使用語音控制。蘋果內(nèi)部的總結(jié)發(fā)現(xiàn)，用戶不使用語音控制不是不喜歡語音應(yīng)用，而是由于語音控制不是用戶的自然交互。

　　“有87%的用戶每月至少使用一次Siri，但大多數(shù)用戶都是和Siri聊天。而不是通過Siri完成任務(wù)。”Siri的一位負責人發(fā)布了這樣的數(shù)據(jù)。

　　 “Siri給我們的啟示是，未來智能語音技術(shù)的發(fā)展，必須同時解決自然語言交互和完成有用任務(wù)的問題，而且限制越少越好，缺了哪個都不行。”俞凱說。

　　去年，Siri被重新整合到蘋果的內(nèi)容和服務(wù)部門，且設(shè)立的四個研發(fā)組中一個與語音識別相關(guān)，三個全都是與對話系統(tǒng)相關(guān)。另一家巨頭谷歌于去年9月對外公布新算法“Hummingbird(蜂鳥)”目的是發(fā)展語義搜索；12月在巴黎舉行的LeWeb上透露將采用反復對話的形式進行搜索。

　　俞凱認為，這個舉動暗示巨頭的戰(zhàn)略在從語音識別向?qū)υ捊换サ姆较蜻~進。

　　用對話交互解決痛點

　　對于那些不方便使用鍵盤和鼠標輸入的設(shè)備而言，語音識別技術(shù)成為更有效的輸入手段，幫助用戶解決了輸入的困難。

　　“有了語音識別，將語音轉(zhuǎn)換成文本，再將文本用自然語言處理轉(zhuǎn)換成語義就完成任務(wù)了么？”俞凱認為，這些還不夠。“語音技術(shù)的本意是幫助用戶最快地完成任務(wù)，但語音識別+自然語言處理不能徹底解決這個問題。”

　　單純的語音識別的另一個局限是，識別+自然語言處理本質(zhì)上是根據(jù)文本理解，語音先轉(zhuǎn)換成文本，自然語言理解僅僅針對文本進行，這種模式很難應(yīng)對語音識別的錯誤，也無法理解用戶意圖的模糊性。

　　這是由于，人天生的傾向于用非精確的信息來交互，因為非精確的信息傳輸量更大，更方便。機器卻是需要有精確信息來處理才能讓識別和自然語言處理更準確。這是一對天然的矛盾。

　　例如說“去九寨溝吃飯”，到底是去風景區(qū)，還是去一個叫九寨溝的餐館是不清楚的。因為在識別過程中沒有針對交互過程中的上下文建立對話模型和聯(lián)系歷史信息，這類用戶意圖的模糊是無法由自然語言處理完成的。

　　 “我們把識別、理解、決策、合成等對話系統(tǒng)的各個模塊進行聯(lián)合優(yōu)化，在每個模塊出現(xiàn)處理上的偏差的時候，基于全系統(tǒng)豐富的非精確信息進行計算，更新交互，實現(xiàn)順暢對話。在自然語言理解的基礎(chǔ)上，又允許有不確定性的信息，綜合去做理解和交互決策。”俞凱說。

　　劍橋語音技術(shù)血統(tǒng)的創(chuàng)業(yè)

　　科大訊飛的創(chuàng)始團隊來自于中國科技大學，云知聲的團隊來自于中科院自動化所和盛大創(chuàng)新院。

　　在科大訊飛開始做語音識別技術(shù)之前，90年代初期，劍橋大學開發(fā)的HTK語音識別工具已經(jīng)將實驗室研究的語音識別技術(shù)的代碼標準化，并免費提供給開發(fā)者，普及了語音識別技術(shù)的開發(fā)，至今也是全世界使用最為廣泛的開源軟件之一。

　　思必馳的創(chuàng)業(yè)血統(tǒng)來自于劍橋大學。俞凱和思必馳CEO高始興是在劍橋的師兄弟。俞凱曾和對話領(lǐng)域的奠基人史蒂夫.楊搭檔開展語音對話交互的研究和產(chǎn)業(yè)化工作。

　　2011年，高始興看到中國市場上智能設(shè)備上有爆發(fā)之勢，請俞凱回國，并從漢語和英語口語評測的方向轉(zhuǎn)型，在完成高精度的云端語音識別之后，重點實現(xiàn)對話系統(tǒng)技術(shù)。

　　“2011年，我們的首輪融資來自聯(lián)想之星。之所以在眾多投資者中選擇聯(lián)想，是聯(lián)想之前投資了科大訊飛有關(guān)。聯(lián)想是唯一一家投過語音識別企業(yè)的。”高始興說。

　　去年9月，思必馳發(fā)布了國內(nèi)第一個對話平臺——對話工場，以對話為核心的智能語音交互技術(shù)開放平臺，核心是不僅讓機器聽清人話，還能聽懂，并完成任務(wù)。

　　截止到目前，聯(lián)想、蘇州電信、同程網(wǎng)、土曼智能手表、幻騰智能燈、智能家居Broadlink、驢媽媽等都采用了思必馳的語音技術(shù)解決方案。“互聯(lián)網(wǎng)的合作伙伴有20家，手機等智能設(shè)備的合作伙伴也有20家。還有一些智能客服的合作伙伴。”高始興透露。

　　不過他認為，和廠商的合作并非接入語音識別的技術(shù)方案那樣簡單，更重要的是與業(yè)務(wù)的耦合。

　　語音助手類的應(yīng)用的尷尬在于只是識別引擎，效果不好很容易被其他助手替換。如果能與合作伙伴的業(yè)務(wù)能深度耦合，“一方面給合作伙伴的業(yè)務(wù)帶來用戶粘性，同時還可以通過該業(yè)務(wù)用戶的語音語料做自身技術(shù)方案的優(yōu)化，同時還能提升用戶體驗，多方共贏。”高始興說。

下一篇：微信可付打車費了但的哥很謹慎
上一篇：國行iPhone 5s“越獄”也無法用4G

分享與收藏： 資訊搜索告訴好友關(guān)閉窗口打印本文本文關(guān)鍵字：

為您推薦更多相關(guān)文章

微軟表示人工智能領(lǐng)域?qū)⑿枰碌姆煞ㄒ?guī)　2018-01-19
Windows 10和Windows 7之間的差距正在縮小　2018-01-17
微軟已在Microsoft Messaging應(yīng)用中試水Fluent　2018-01-15
支持Win10 Always-Connected PC的運營商新名單　2018-01-11
Intel悄然發(fā)布了新款雷電3控制器　2018-01-10
報道稱：無人機在2018年將在多領(lǐng)域得到越發(fā)廣泛　2018-01-03
下一代手機SurfacePhone相關(guān)的最新專利曝光　2017-12-27
微軟宣布第二屆年度Windows開發(fā)者大獎投票活動　2017-12-21
Android8.0上線四月占比為0.5%　2017-12-14
亞馬遜將與西云數(shù)據(jù)合作，進一步擴大在中國的云　2017-12-13

推薦圖文

過半職場人年終獎過萬	蘋果旗艦店正式入駐天貓售價與官網(wǎng)同步
淘寶禁止銷售比特幣等虛擬貨幣 14日生效	蘋果新專利：用戶照片自動生成3D地圖“街景”

贊助商鏈接

推薦資訊

贊助商鏈接