彭博社發(fā)布文章稱(chēng),要能夠與我們的電子設備進(jìn)行自然的對話(huà),那語(yǔ)音識別技術(shù)必須要有更加顯著(zhù)的改善。為此,各家科技巨頭紛紛積極收集任何它們能夠收集到的語(yǔ)言、口音和方言語(yǔ)音。
以下是文章主要內容:
亞馬遜的Echo智能音響讓家家戶(hù)戶(hù)都有帶人工智能的個(gè)人助手變得切實(shí)可行。那些擁有該款聲控設備的人都對Alexa贊譽(yù)有加,稱(chēng)贊它能夠幫助通過(guò)Uber叫車(chē),訂購比薩餅,又或者檢查10年級學(xué)生的數學(xué)作業(yè)。亞馬遜稱(chēng),每天有逾5000人表達對Alexa的喜愛(ài)。
另一方面,Alexa信徒們也知道,除非你緩慢地用非常清晰而的語(yǔ)言去跟她說(shuō)話(huà),否則她很可能會(huì )跟你說(shuō),“對比起,我不知道那個(gè)問(wèn)題的答案?!庇形活櫩驮趤嗰R遜的網(wǎng)站上評價(jià)道,“我愛(ài)她,我恨她,我愛(ài)她?!辈贿^(guò)他還是給于A(yíng)lexa五星評價(jià)?!澳愫芸炀蜁?huì )學(xué)會(huì )如何用一種她會(huì )明白的方式跟她說(shuō)話(huà),這就像是跟一個(gè)不高興的小孩子說(shuō)話(huà)一樣?!?/p>
語(yǔ)音識別在過(guò)去幾年里取得了很大的進(jìn)展。但這還不足以令該技術(shù)普及到日常生活的方方面面,還不足以引領(lǐng)人機交互新時(shí)代的到來(lái),還不足以讓人們輕松自如地與身邊所有的設備(如汽車(chē)、洗衣機和電視機)進(jìn)行交談。在可預見(jiàn)的未來(lái)里,這種情況可能還會(huì )延續。
發(fā)展障礙
那么是什么因素導致語(yǔ)音識別還不能更進(jìn)一步呢?部分因為驅動(dòng)該項技術(shù)的人工智能還有不小的改進(jìn)空間。另外,所需數據嚴重缺乏——即往往嘈雜環(huán)境下多種語(yǔ)言、口音和方言的人類(lèi)語(yǔ)音的音頻。
因此,亞馬遜、蘋(píng)果、微軟和百度紛紛著(zhù)手在全球范圍內收集海量的人類(lèi)語(yǔ)音數據。微軟在全球各地設立據點(diǎn),記錄志愿者在家庭環(huán)境中說(shuō)話(huà)的聲音。亞馬遜無(wú)時(shí)無(wú)刻都在將Alexa請求上傳到其龐大的數據庫。百度在中國忙于收集各種方言的語(yǔ)音。收集過(guò)后,他們會(huì )將那些數據用于教導他們的計算機如何分析、理解和響應語(yǔ)音指令和請求。
對于這些科技巨頭而言,挑戰在于找到方法去捕捉自然真實(shí)的對話(huà)。負責領(lǐng)導百度在加州森尼維爾的人工智能實(shí)驗室的亞當·科茨(Adam Coates)指出,語(yǔ)音識別的準確率即便有95%也不足夠?!拔覀兊哪繕耸菍㈠e誤率壓低到1%以下?!彼f(shuō),“做到了這一點(diǎn),你才能夠真正相信設備理解你說(shuō)的話(huà)。那將會(huì )是變革性的進(jìn)展?!?/p>
不久以前,語(yǔ)音識別還處于非常初期的發(fā)展階段。在2006年的一次演示中,微軟運行于Windows的語(yǔ)音識別技術(shù)的早期版本在眾多分析師和投資者面前竟然將“mom”(媽媽)轉錄成“aunt”(阿姨)。蘋(píng)果5年前推出Siri時(shí),該個(gè)人助手頻頻出錯,備受嘲笑。它經(jīng)常給出錯誤的結果,又或者不能夠準確聽(tīng)清問(wèn)題。被問(wèn)到吉莉安·安德森(Gillian Anderson)是不是英國人時(shí),Siri卻展示了一系列的餐館。如今,微軟稱(chēng)其語(yǔ)音引擎的準確率已經(jīng)不亞于專(zhuān)業(yè)轉錄員,Siri正贏(yíng)得一定的尊重,Alexa也讓人們看到了未來(lái)的希望。
神經(jīng)網(wǎng)絡(luò )
這一進(jìn)展很多程度上要歸功于神奇的神經(jīng)網(wǎng)絡(luò )。神經(jīng)網(wǎng)絡(luò )是一種基于人腦架構的人工智能形式,它不需要明確的程序化就能學(xué)習,通常只需要大量廣泛多樣的數據。語(yǔ)音識別引擎消化的語(yǔ)音數據越多,它就越能夠理解不同的語(yǔ)音,就越接近于實(shí)現在多種情景中用多種語(yǔ)言進(jìn)行自然對話(huà)的最終目標。
因此,各大巨頭在爭奪大批的語(yǔ)音資源?!拔覀兘o系統注入的數據越多,它的表現就會(huì )越好?!卑俣仁紫茖W(xué)家吳恩達(Andrew Ng)表示,“正因為此,收集語(yǔ)音成為了一種資本密集型的活動(dòng);有這么多數據的機構組織并不多?!?/p>
當業(yè)界在1990年代開(kāi)始積極發(fā)展語(yǔ)音識別技術(shù)時(shí),微軟等公司主要依靠來(lái)自研究機構公開(kāi)的可用數據,比如語(yǔ)言學(xué)數據聯(lián)盟。該語(yǔ)音與文本數據庫于1992年創(chuàng )立于賓夕法尼亞大學(xué),擁有美國政府的支持。后來(lái),科技公司們紛紛開(kāi)始收集自有的語(yǔ)音數據,部分公司通過(guò)給志愿者錄音進(jìn)行收集。如今,隨著(zhù)聲控軟件日益普及,它們從自有的產(chǎn)品與服務(wù)收集大量的數據。
當你叫你的手機去搜索內容,播放歌曲,又或者提供導航路線(xiàn)時(shí),你很有可能會(huì )被公司錄音。(蘋(píng)果、谷歌、微軟和亞馬遜均強調有匿名化用戶(hù)數據來(lái)保護個(gè)人隱私。)在你問(wèn)Alexa天氣怎么樣或者體育比賽的比分時(shí),設備會(huì )利用你的語(yǔ)音請求來(lái)改進(jìn)其對自然語(yǔ)言的理解(盡管“她”不會(huì )偷聽(tīng)你的對話(huà),除非你有說(shuō)她的名字)。Alexa項目首席科學(xué)家尼克·斯特羅姆(Nikko Strom)指出,“通過(guò)我們的設計,Alexa會(huì )隨著(zhù)你的使用的增多而變得越來(lái)越智能?!?/p>
兩大挑戰
語(yǔ)音識別的一大挑戰在于,使得該項技術(shù)熟悉各種各樣的語(yǔ)言、口音和方言。也許,這一點(diǎn)在中國尤為重要。為了采集全國各地的方言語(yǔ)音,百度今年在春節期間展開(kāi)了一項營(yíng)銷(xiāo)推廣行動(dòng)。該搜索巨頭稱(chēng)該舉是“方言對話(huà)項目”,并向人們承諾,如果他們參與進(jìn)來(lái),他們就能幫助引領(lǐng)人人都能用自己的方言跟百度對話(huà)的未來(lái)。在兩周的時(shí)間里,該公司錄得超過(guò)1000個(gè)小時(shí)的語(yǔ)音來(lái)接入它的計算機。很多人之所以愿意無(wú)償參與進(jìn)來(lái),是因為他們?yōu)樽约杭亦l的方言感到驕傲。四川的一位高中教師對于該項目感到非常興奮,因而他號召全班學(xué)生錄制了超過(guò)1000首用四川話(huà)朗讀的古詩(shī)語(yǔ)音。
另一挑戰是:教導語(yǔ)音識別技術(shù)理解嘈雜背景下(比如在酒吧和在體育場(chǎng))傳來(lái)的指令。微軟部署了一款名為Voice Studio的Xbox應用來(lái)收集用戶(hù)在進(jìn)行射擊游戲或者看電影時(shí)的對話(huà)聲。該公司為參與者提供包括積分和游戲裝備在內的各種獎品,吸引了數百位愿意貢獻自己玩游戲時(shí)的聊天聲音的用戶(hù)。該項目在巴西尤其奏效,微軟在當地的子公司在Xbox主頁(yè)面上大力推廣Voice Studio應用。那些數據用來(lái)打造Cortana的巴西葡萄牙語(yǔ)版本。該版本于今年早些時(shí)候推出。
各家公司也在針對特定的情境設計語(yǔ)音識別系統。微軟一直在測試能夠回答機場(chǎng)旅客的請求的技術(shù),它希望其技術(shù)能夠不受機場(chǎng)持續不斷的航班通知聲音的干擾。該公司的技術(shù)目前還被應用于麥當勞外賣(mài)車(chē)道的自動(dòng)訂餐系統。經(jīng)過(guò)訓練,它能夠做到不受諸如孩子尖叫聲的各類(lèi)雜音的感染,因而能夠準確理解復雜的訂單指令,甚至能夠分辨出用戶(hù)想要的調味品。亞馬遜則在汽車(chē)中進(jìn)行測試,它希望Alexa能夠克服道路噪聲和敞開(kāi)車(chē)窗帶來(lái)的挑戰。
少用數據
在從世界各地收集數據的同時(shí),科技巨頭們也在想方設法地用更少的數據來(lái)改進(jìn)語(yǔ)音識別技術(shù)。在微軟研究語(yǔ)音識別逾20年的首席語(yǔ)音科學(xué)家黃學(xué)東指出,公司在麥當勞測試的技術(shù)比其它使用多得多的數據的語(yǔ)音識別系統要更加精確?!凹幢闶褂玫臄祿皇亲疃嗟?,你也總能夠取得突破?!?/p>
谷歌總的來(lái)說(shuō)也奉行少即是多的理念,它在部署零碎策略來(lái)利用難以理解的聲音單元構建詞語(yǔ)和短語(yǔ)。該公司對于其語(yǔ)音識別系統的目標是,只需一個(gè)變化就能解決多個(gè)問(wèn)題。對于所積累的數據集,谷歌會(huì )將數萬(wàn)個(gè)通常只有兩到五秒長(cháng)的音頻片段連在一塊。谷歌的研究人員弗朗索瓦茲· 比倫發(fā)斯(Fran?oise Beaufays)指出,這一過(guò)程需要較少的運算能力,更加容易測試和調整。百度方面則在研究更加高效的算法來(lái)簡(jiǎn)化語(yǔ)言的學(xué)習。
問(wèn)問(wèn)像吳恩達這樣的研究人員,什么時(shí)候才能夠跟數字助手進(jìn)行自然的對話(huà)。沒(méi)有人知道答案。神經(jīng)網(wǎng)絡(luò )仍舊非常神秘,即便對于那些專(zhuān)家而言也是如此。研究人員目前的工作很多都是反復試驗;在一處地方進(jìn)行一項改動(dòng)后,你永遠都無(wú)法確定其它地方會(huì )產(chǎn)生什么樣的變化。鑒于當下的技術(shù)和方法,這一過(guò)程很可能要持續很長(cháng)一段時(shí)間。不過(guò),吳恩達、黃學(xué)東、比倫發(fā)斯以及其他的科學(xué)家認為,你很難預料什么時(shí)候會(huì )出現那種大大加速研究進(jìn)程,讓Alexa和Siri變成真正的交談?wù)叩耐黄啤?/p>