語(yǔ)音識(shí)別技術(shù)的進(jìn)步,使語(yǔ)音正成為可被計(jì)算機(jī)所接受的一種數(shù)據(jù)接口,也是計(jì)算機(jī)輸入最有效率的一種形式,由此,人機(jī)交互的方式將發(fā)生變革。
近來(lái),國(guó)內(nèi)、外媒體時(shí)常會(huì)提到一款智能語(yǔ)音產(chǎn)品——Echo,根據(jù)Amazon公布的最新消息顯示,語(yǔ)音交互的代表——Echo的累計(jì)出貨量已經(jīng)超過(guò)1000萬(wàn)臺(tái),在美國(guó)家庭的滲透率達(dá)到5%。
這個(gè)小圓筒機(jī)器人體內(nèi)的家伙“ Alexa”的技能已經(jīng)超過(guò)了10000項(xiàng),分分鐘秒殺Siri——時(shí)刻聽你說(shuō)話,不用按按鈕觸發(fā);通過(guò)藍(lán)牙來(lái)播放音樂;從Amazon Prime上語(yǔ)音購(gòu)買任何東西;可以語(yǔ)音追蹤你的包裹而且你不用等到Echo的喚醒燈亮起來(lái)再說(shuō)話。
根據(jù)Alexa Skills Marketplace 的數(shù)據(jù),Alexa10000 項(xiàng)技能中,被使用最多的Top 10技能是:
① 歷史上的今天:是從 history.com網(wǎng)站收集來(lái)的每日歷史知識(shí)。
② 睡前小故事:可以設(shè)置孩子們的名字,為他們講一個(gè)大約一分鐘的睡前故事。
③~⑤ 環(huán)境聲音:雷聲、海浪和雨聲。這個(gè)技能只播放環(huán)境聲音。
⑥ Jeopardy! J6:是一個(gè)來(lái)自電視節(jié)目的每日腦筋急轉(zhuǎn)彎。
⑦ Ditty:會(huì)根據(jù)你的話語(yǔ),做成一首歌。歌曲可以選擇快節(jié)奏或慢節(jié)奏,或基于某個(gè)主題。
⑧二十題挑戰(zhàn):在20個(gè)問(wèn)題之內(nèi)讓你猜測(cè)動(dòng)物、植物等。
⑨ 好奇心:分享各種知識(shí)。
⑩ Inspire Me:提供每日格言。
另外,Echo最強(qiáng)大的技能是遠(yuǎn)距離語(yǔ)音識(shí)別和噪聲抑制,你在家里任何一個(gè)地方呼喚Echo,即使有噪音,它都能聽到,最遠(yuǎn)距離可達(dá)12米!這下Siri真的被啪啪啪打臉了。可憐的Siri只能在近距離且安靜的環(huán)境中才能被你調(diào)戲。
VoiceLabs估計(jì),2015年以語(yǔ)音為主要交互方式的智能硬件出貨量為170萬(wàn)臺(tái),2016年的出貨量達(dá)到650萬(wàn)臺(tái),預(yù)計(jì)2017年將有2450萬(wàn)臺(tái)智能語(yǔ)音設(shè)備送到消費(fèi)者手上,累計(jì)出貨量將達(dá)到3300萬(wàn)臺(tái),市場(chǎng)規(guī)模超過(guò)200億美元。從圖中可以很明顯的看出,以語(yǔ)音為主要交互方式的智能設(shè)備出貨量的增速非???,超過(guò)3倍。
美國(guó)市場(chǎng)在該領(lǐng)域比較典型的就是Echo和Google Home,中國(guó)市場(chǎng)有Rokid和叮咚。
Rokid是一家面向C端用戶,提供新型家庭機(jī)器人助手和智能家庭產(chǎn)品的公司,其主打產(chǎn)品為Rokid家庭智能機(jī)器人以及即將正式出售的便攜款Rokid.Pebble。 而叮咚則是由一款智能音箱產(chǎn)品。這兩款產(chǎn)品都是以語(yǔ)音為主要交互方式的智能設(shè)備。另外,不管是美國(guó)還是中國(guó),廠商都有一個(gè)野心——想做一款入口級(jí)產(chǎn)品,即智能家居控制中心(盡管目前中美兩國(guó)都還處于早期探索階段)。
在 Echo 流行之前,已有一家叫 Nest 的公司將智能硬件普及到美國(guó)的很多家庭中。從“2016年中美用戶安裝智能家居系統(tǒng)的家庭數(shù)量對(duì)比圖”可以很明顯的看出,中國(guó)目前的智能家居產(chǎn)品的覆蓋率還非常非常低,距離美國(guó)有15倍的差距。而只有智能家居產(chǎn)品的覆蓋率達(dá)到一定程度,類似于Echo這種智能音箱的“語(yǔ)音控制智能家居產(chǎn)品”的功能才有用武之地,否則只會(huì)是一個(gè)多余的功能擺設(shè)。當(dāng)然,不管是中國(guó)還是美國(guó),也都在等這塊市場(chǎng)成熟,顯然中國(guó)等待的時(shí)間還會(huì)更長(zhǎng),小米等廠商的智能家居布局之路“任重而道遠(yuǎn)”。
美國(guó)用戶已經(jīng)養(yǎng)成了為內(nèi)容付費(fèi)的習(xí)慣,他們非常重視版權(quán)保護(hù)。雖然從去年開始,中國(guó)的內(nèi)容或者知識(shí)付費(fèi)被提到很多,但是讓用戶、尤其是普通用戶養(yǎng)成為內(nèi)容付費(fèi)的習(xí)慣還有很長(zhǎng)的路要走。目前由于國(guó)內(nèi)智能家居市場(chǎng)還遠(yuǎn)沒有成熟,所以用戶對(duì)通過(guò)智能語(yǔ)音設(shè)備控制智能家居的需求度還很低,更多的用戶會(huì)拿這些設(shè)備去聽音樂、聽故事或者是書籍等。但是由于近來(lái)版權(quán)收緊,這些智能語(yǔ)音設(shè)備廠商要么與版權(quán)方在資源上有合作,要么就需要為版權(quán)付費(fèi),然而設(shè)備廠商又無(wú)法通過(guò)內(nèi)容從C端用戶身上收到錢,這就很尷尬了。
所以,國(guó)內(nèi)廠商目前還處于非常早期的探索階段。即使“渠道+技術(shù)”優(yōu)勢(shì)都已經(jīng)具備,但是做得還是不溫不火,這與國(guó)內(nèi)大環(huán)境和用戶習(xí)慣有非常大的關(guān)系。即使是在美國(guó),Echo目前常用的功能也就是播放音樂、控制智能燈、定鬧鐘、讀新聞等。這些常用功能和控制智能家居,成為入口級(jí)產(chǎn)品的野心相差還是非常遠(yuǎn)的。在美國(guó)尚且如此,在中國(guó)就更不用說(shuō)了。
Echo的成績(jī)前面也已經(jīng)提過(guò)了,目前的數(shù)據(jù)非常亮眼,所以我們也有必要來(lái)總結(jié)和復(fù)盤一下,為什么Echo能取得如此好的成績(jī)。
第一、Amazon對(duì)Echo的支持力度和決心非常大。Echo的內(nèi)部研發(fā)工作從2011年就已經(jīng)開始,并且之前在硬件(Kindle等)方面就已經(jīng)有一定的積淀,隨后吸收了語(yǔ)音識(shí)別公司Nuance的部分員工,并且還收購(gòu)了兩家語(yǔ)音技術(shù)公司Yap和Evi。等到Echo正式面市的時(shí)候,Amazon又不惜投入重金在各大渠道為Echo宣傳和促銷,同時(shí)還將Echo放在Amazon電商網(wǎng)站的顯眼位置,從而獲得了巨大的流量。而Echo的研發(fā)團(tuán)隊(duì)也在不斷擴(kuò)大,目前整個(gè)團(tuán)隊(duì)已經(jīng)超過(guò)1000人。除此之外,Amazon的CEO貝索斯對(duì)于產(chǎn)品近乎嚴(yán)苛的要求,例如:要求將Echo的反應(yīng)時(shí)間控制在1秒。
第二、Echo尋找到了一個(gè)正確的“引爆點(diǎn)”來(lái)激發(fā)消費(fèi)者的購(gòu)買欲。超過(guò) 40% 的早期測(cè)試者說(shuō)他們使用 Echo 主要目的是聽音樂。然后研發(fā)小組加倍投入精力,把音樂設(shè)計(jì)為 Echo 的主要功能之一。在人工智能還處于“弱智”階段時(shí),以“智能音箱”的邏輯切入,用戶可以通過(guò)語(yǔ)音來(lái)播放音樂,能夠降低用戶的期望值。并且Echo是第一款能通過(guò)語(yǔ)音(遠(yuǎn)距離拾音)來(lái)控制設(shè)備的產(chǎn)品,正如iPhone面市時(shí)的觸摸屏方式,對(duì)人機(jī)交互方式做出了一定的變革,能夠給用戶帶來(lái)新意和好奇感。再加上價(jià)格也不算很貴(最高價(jià):179.99美元,約合1250人民幣;最低價(jià):49.99美元,約合345人民幣),所以用戶會(huì)很愿意去嘗試。
第三、圍繞語(yǔ)音交互設(shè)計(jì)產(chǎn)品。Echo只提供語(yǔ)音一種交互方案,除了揚(yáng)聲器和麥克風(fēng),Echo沒有其它交互接口。Echo“強(qiáng)迫”用戶使用語(yǔ)音與設(shè)備互動(dòng),教育用戶,培養(yǎng)用戶的使用習(xí)慣。
第四、硬件設(shè)備(Echo)+軟件服務(wù)(Alexa),打造生態(tài)體系,建立數(shù)據(jù)壁壘。Echo成為Amazon將智能硬件產(chǎn)品鋪到千家萬(wàn)戶的“殺手锏”,Echo的數(shù)據(jù)表現(xiàn)也讓人們看到了以語(yǔ)音為交互方式的智能硬件時(shí)代已經(jīng)到來(lái),這就為Amazon開放基于Alexa的軟硬件開發(fā)者平臺(tái)提供了良好的基礎(chǔ)。Alexa Skills呈現(xiàn)出爆發(fā)式的增長(zhǎng),目前的Skills已經(jīng)超過(guò)10000種。同時(shí),接入Alexa的智能硬件設(shè)備也在快速增長(zhǎng),比如:華為美國(guó)版Mate 9手機(jī)就內(nèi)嵌了Alexa語(yǔ)音系統(tǒng)等。整個(gè)生態(tài)體系的搭建離不開最初Echo的推出。而Echo的大規(guī)模鋪貨以及生態(tài)體系的搭建,又能為Amazon帶來(lái)大規(guī)模的數(shù)據(jù),尤其是專業(yè)領(lǐng)域的真實(shí)場(chǎng)景數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),從而將Alexa訓(xùn)練得更加“聰明”。
另外,Amazon Echo和Google Home還沒有進(jìn)入國(guó)內(nèi),一方面由于中文語(yǔ)音/語(yǔ)義識(shí)別和文化差異導(dǎo)致,另一方面中國(guó)的防火墻將國(guó)外廠商給“無(wú)情”地?fù)踉诹送饷?。那么,?guó)內(nèi)市場(chǎng)中目前主要的廠商/產(chǎn)品就是Rokid和叮咚了,同時(shí)也還有不少潛在進(jìn)入者,就目前整個(gè)市場(chǎng)階段來(lái)看,還處于非常早期的教育用戶和培育市場(chǎng)階段,各廠商當(dāng)下最重要是要找到中國(guó)市場(chǎng)的“引爆點(diǎn)”或者是應(yīng)用場(chǎng)景,同時(shí)去打磨產(chǎn)品,等待這塊市場(chǎng)的爆發(fā)。所以現(xiàn)在談競(jìng)爭(zhēng)還為時(shí)尚早。
微軟和蘋果據(jù)傳一直在研發(fā)類似于Echo和Google Home的產(chǎn)品,但是這兩家巨頭也可能從其他角度切入市場(chǎng)。例如微軟的HoloLens VR頭顯,目前也支持語(yǔ)音控制VR體驗(yàn);蘋果的無(wú)線耳機(jī)AirPods,支持通過(guò)Siri來(lái)控制。在推出的短短一個(gè)月內(nèi),蘋果AirPods就占據(jù)了美國(guó)無(wú)線耳機(jī)26%的市場(chǎng)份額。而三星在2016年8月也被曝出正在做類似于Echo的智能音箱,并且其新品Scoop的設(shè)計(jì)圖還在網(wǎng)上被曝光,但直到現(xiàn)在該產(chǎn)品也沒有正式面市。同時(shí),三星也在2016年10月收購(gòu)了AI助手系統(tǒng)Viv公司,而其聯(lián)合創(chuàng)始人正是“Siri之父”。并且在2017年3月,三星在 Galaxy S8 問(wèn)世之前,率先公布了內(nèi)置于手機(jī)之中的人工智能助理 Bixby。
可以看到,不管是國(guó)內(nèi)還是國(guó)外,巨頭們都紛紛在語(yǔ)音交互市場(chǎng)搶奪賽道。尤其是面向C端用戶提供以語(yǔ)音為基礎(chǔ)的智能硬件市場(chǎng),巨頭林立,創(chuàng)業(yè)公司涉足會(huì)面臨非常大的壓力,但是面向C端用戶的市場(chǎng)想象空間更大,如果創(chuàng)業(yè)公司能夠找到具體的落地場(chǎng)景和應(yīng)用,并且對(duì)于團(tuán)隊(duì)、資金、技術(shù)、資源等各方面都足夠自信,或者能夠伴上“干爹”,涉足C端市場(chǎng)也是很好的選擇。但目前對(duì)于國(guó)內(nèi)的大多數(shù)創(chuàng)業(yè)公司來(lái)說(shuō),針對(duì)B端客戶或者是垂直行業(yè)輸出解決方案是更好的選擇。這樣可以避開巨頭的直面競(jìng)爭(zhēng),在技術(shù)發(fā)展早期段彌補(bǔ)產(chǎn)業(yè)的薄弱環(huán)節(jié),現(xiàn)金流情況會(huì)更好。
另外,語(yǔ)音和視覺目前還被分得比較開,但是長(zhǎng)遠(yuǎn)來(lái)看,語(yǔ)音和視覺在AI領(lǐng)域一定會(huì)統(tǒng)一,因?yàn)檫@更符合人的自然習(xí)慣。這也是為什么VR/AR會(huì)火的重要原因,VR/AR最后也會(huì)將語(yǔ)音統(tǒng)一進(jìn)去。