香蕉視頻在線精品視頻,成在人线av无码喷水,久久精品亚洲人成影院,少妇人妻偷人精品视蜜桃

ad9_210*60
關(guān)鍵詞:
臺(tái)灣網(wǎng)  >  經(jīng)貿(mào)  >   IT

機(jī)器語(yǔ)音識(shí)別距人類只差0.4% 即將比肩人類

2017年05月03日 09:52:32  來(lái)源:北京日?qǐng)?bào)
字號(hào):    

  日前,美國(guó)一家公司宣稱專業(yè)速記員在記錄對(duì)話時(shí),轉(zhuǎn)錄詞錯(cuò)率為5.1%,而該公司最新研發(fā)的語(yǔ)音識(shí)別系統(tǒng)詞錯(cuò)率已達(dá)到5.5%,超越之前的歷史最佳水準(zhǔn),樹(shù)立了新的里程碑。語(yǔ)音識(shí)別,是人工智慧領(lǐng)域的核心問(wèn)題之一,0.4%的差距似乎意味著機(jī)器即將比肩人類。

  已過(guò)“甲子”之年

  斯坦福大學(xué)的相關(guān)研究者在2016年9月發(fā)佈了一篇名為《2030年的人工智慧與生活》的文章,提到:人工智慧領(lǐng)域正式誕生於1956年夏天,一場(chǎng)由約翰·麥卡錫組織的在美國(guó)達(dá)特茅斯暑期研究項(xiàng)目的研討會(huì),在多年以後被認(rèn)定為全球人工智慧研究的起點(diǎn)。

  其實(shí),對(duì)於人工智慧子項(xiàng)目之一的語(yǔ)音識(shí)別來(lái)説,它的歷史甚至比60年還要久。

  語(yǔ)音識(shí)別的研究源頭可追溯至1950年,電腦科學(xué)之父阿蘭·圖靈在《思想》(Mind)雜誌上發(fā)表了題為“計(jì)算的機(jī)器和智慧”的論文,首次提出了機(jī)器智慧的概念,論文還提出了一種驗(yàn)證機(jī)器是否有智慧的方法:讓人和機(jī)器進(jìn)行交流,如果人無(wú)法判斷自己交流的對(duì)像是人還是機(jī)器,就説明這個(gè)機(jī)器有智慧了,這就是後來(lái)鼎鼎有名的人工智慧圖靈測(cè)試。

  圖靈測(cè)試的概念極大影響了人工智慧對(duì)於功能的定義,以此為途徑,卡內(nèi)基梅隆大學(xué)的兩位科學(xué)家希爾伯特·西蒙和曼紐爾·布盧姆做了大量的前期工作,非常精妙地證明了羅素《數(shù)學(xué)原理》52道中的38道。西蒙甚至宣稱在10年之內(nèi),機(jī)器就可以達(dá)到和人類智慧一樣的高度。

  在這一時(shí)期,科學(xué)家們也將語(yǔ)音識(shí)別比作“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”,該技術(shù)可以讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年,貝爾研究所、Davis等人研製了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國(guó)的Denes等人研製了第一個(gè)電腦語(yǔ)音識(shí)別系統(tǒng)。

  從“模擬”人腦到開(kāi)創(chuàng)統(tǒng)計(jì)方法

  當(dāng)20世紀(jì)50年代明確了人工智慧要模擬人類智慧這一大膽目標(biāo)後,這一領(lǐng)域經(jīng)歷了近20年的輝煌。研究人員開(kāi)展了一系列項(xiàng)目,表明電腦能夠完成一系列原本只屬於人類能力範(fàn)疇之內(nèi)的任務(wù),例如證明定理、求解微積分、通過(guò)規(guī)劃來(lái)響應(yīng)命令、履行物理動(dòng)作,甚至是模擬心理學(xué)家心理實(shí)驗(yàn)、作曲家譜曲這樣的活動(dòng)。

  但是,過(guò)分簡(jiǎn)單的演算法以及計(jì)算能力的限制,嚴(yán)重阻礙了人們使用人工智慧來(lái)解決更加困難和多樣化的問(wèn)題。

  這一階段在人工智慧的細(xì)分領(lǐng)域語(yǔ)音識(shí)別上,科學(xué)家們也走上了同樣的彎路。他們認(rèn)為,電腦要完成語(yǔ)音識(shí)別這類只有人才能做的事情,必須先讓電腦理解自然語(yǔ)言,導(dǎo)致研究局限在人類學(xué)習(xí)語(yǔ)言的方式上了,即電腦模擬人腦,語(yǔ)言學(xué)者參與了大量的研究工作,但最後的成果卻近乎為零。伴隨著對(duì)未來(lái)繼續(xù)努力的失望,人工智慧包括語(yǔ)音識(shí)別都于20世紀(jì)70年代中期逐漸淡出公眾視野。

  轉(zhuǎn)機(jī)出現(xiàn)在統(tǒng)計(jì)語(yǔ)言學(xué)的創(chuàng)立上。這不得不提一個(gè)關(guān)鍵性人物——德里克·賈裏尼克和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室,他們創(chuàng)新的使用統(tǒng)計(jì)方法,將當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%迅速提升到90%,同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百個(gè)單詞上升到幾萬(wàn)個(gè)單詞,使得語(yǔ)音識(shí)別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

  在賈裏尼克之前,科學(xué)家們都把語(yǔ)音識(shí)別問(wèn)題的核心歸結(jié)為語(yǔ)言學(xué)中的規(guī)則問(wèn)題,而賈裏尼克將它當(dāng)作通信問(wèn)題後,用兩個(gè)隱含馬爾可夫模型(聲學(xué)模型和語(yǔ)言模型)把語(yǔ)音識(shí)別重新概括清楚了。

  這個(gè)框架結(jié)構(gòu)至今仍對(duì)語(yǔ)音識(shí)別影響深遠(yuǎn),它不僅從根本上使得語(yǔ)音識(shí)別有使用的可能,而且奠定了今天自然語(yǔ)言處理的基礎(chǔ)。賈裏尼克後來(lái)也因此當(dāng)選美國(guó)工程院院士,並被某雜誌評(píng)為20世紀(jì)100名發(fā)明家之一。

  儘管賈裏尼克在1972年就提出了新的研究範(fàn)式,但模擬人腦與統(tǒng)計(jì)學(xué)的方法之爭(zhēng),卻持續(xù)了近十五年時(shí)間,語(yǔ)音識(shí)別領(lǐng)域歷經(jīng)了十五年的新舊交替後,最大的成果其實(shí)是在技術(shù)的應(yīng)用及産品化方面出現(xiàn)了進(jìn)展。

  大進(jìn)步的催化劑

  在網(wǎng)際網(wǎng)路大爆發(fā)的20世紀(jì)90年代,人工智慧的相關(guān)研究又一次停滯了。直到21世紀(jì)前10年,出現(xiàn)了一系列復(fù)興人工智慧研究進(jìn)程的要素,尤其是下面這些重要的因素和核心技術(shù):

  大數(shù)據(jù)。得益於網(wǎng)際網(wǎng)路、社交媒體、移動(dòng)設(shè)備和廉價(jià)的感測(cè)器,這個(gè)世界産生的數(shù)據(jù)量急劇增加。大數(shù)據(jù)是人工智慧發(fā)展的助推劑,這是因?yàn)橛行┤斯ぶ腔奂夹g(shù)使用統(tǒng)計(jì)模型來(lái)進(jìn)行數(shù)據(jù)的概率推算,如語(yǔ)音識(shí)別,通過(guò)數(shù)據(jù)的海洋中豐富的語(yǔ)料,使得技術(shù)不斷優(yōu)化。

  新演算法。演算法是解決一個(gè)設(shè)計(jì)程式或完成任務(wù)的路徑方法。在一個(gè)完整的工業(yè)界語(yǔ)音識(shí)別系統(tǒng)裏,最關(guān)鍵的是深度學(xué)習(xí)演算法,還有很多工作是專業(yè)領(lǐng)域相關(guān)的演算法,以及海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建。這些演算法本身很重要,同時(shí)也是其他技術(shù)的推動(dòng)者,比如機(jī)器學(xué)習(xí)演算法Google的TensorFlow目前就被開(kāi)源使用。

  可以説,任何技術(shù)都有蓄能階段和爆發(fā)階段,人工智慧包括語(yǔ)音識(shí)別技術(shù)的爆發(fā)都得益於以上條件。這也不難理解,從語(yǔ)音識(shí)別來(lái)看,它是需要經(jīng)驗(yàn)、數(shù)據(jù)和用戶反饋共同作用來(lái)提升表現(xiàn)的。需要利用用戶的反饋總結(jié)出一些特點(diǎn)。

  谷歌是最早在全球範(fàn)圍內(nèi)大規(guī)模使用深度學(xué)習(xí)演算法的公司,也最早開(kāi)創(chuàng)了用網(wǎng)際網(wǎng)路思維做語(yǔ)音識(shí)別。在這方面,科大訊飛受到谷歌的啟發(fā),迅速跟進(jìn)成為國(guó)內(nèi)第一個(gè)在商用系統(tǒng)裏使用深度學(xué)習(xí)的公司。

  現(xiàn)有成績(jī)和待解難題一樣多

  語(yǔ)音識(shí)別技術(shù)已經(jīng)發(fā)展了幾十年,因?yàn)榇髷?shù)據(jù)和深度學(xué)習(xí)的應(yīng)用,這一領(lǐng)域的傳統(tǒng)強(qiáng)者成了谷歌、亞馬遜、蘋果和微軟這些美國(guó)科技巨頭,據(jù)統(tǒng)計(jì),美國(guó)至少有26家公司在開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù),而中國(guó)則有近50家公司研究這一領(lǐng)域。

  儘管谷歌這些巨頭在語(yǔ)音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓後來(lái)者似乎難以望其項(xiàng)背,但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因,當(dāng)然也有部分原因是中文的複雜程度高於英語(yǔ),所以國(guó)際巨頭的語(yǔ)音識(shí)別主要偏向於英語(yǔ),中文領(lǐng)域的語(yǔ)音智慧機(jī)會(huì)則留給了科大訊飛、百度、搜狗等中國(guó)公司。在國(guó)內(nèi),這些本土化産品更為用戶所熟知。

  中文領(lǐng)域的識(shí)別難度在哪?舉個(gè)簡(jiǎn)單的例子,魯迅《孔乙己》中的孔乙己之問(wèn):茴香豆的“茴”有幾種寫法?或者一個(gè)更有時(shí)代感的案例,如何形容物流很快?據(jù)説,在漢語(yǔ)裏回答這個(gè)問(wèn)題竟然至少有3600種説法,比如第二天就到了、物流很給力、給快遞點(diǎn)讚等不盡其詳。儘管語(yǔ)音識(shí)別在近些年來(lái)取得了巨大的進(jìn)步,但其實(shí)仍然還有很多的工作要做。

  此外,還有確保語(yǔ)音識(shí)別能在更為真實(shí)生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方,比如聚會(huì)場(chǎng)所或在高速路上駕駛的時(shí)候;還有在多人交談環(huán)境中將不同的説話人區(qū)分開(kāi)。

  還有一個(gè)更深層次的難題是,如果需要實(shí)現(xiàn)人機(jī)對(duì)話、人機(jī)寫作,不只是需要用機(jī)器轉(zhuǎn)錄來(lái)自人類嘴巴的聲音信號(hào),更要理解人們所説的話。

  從語(yǔ)音識(shí)別來(lái)看,下一個(gè)前沿是從識(shí)別走向理解,真正的人工智慧仍然還在遙遠(yuǎn)的地平線上,在機(jī)器能理解其所聽(tīng)到或看到的事物的真正含義之前,還需要很長(zhǎng)時(shí)間的工作,有很長(zhǎng)的路要走。

  或許也可以説,我們正在從一個(gè)人類必須理解電腦的世界,邁向一個(gè)電腦必須理解我們的世界。亞裏士多德曾説過(guò),如果機(jī)器能幹很多活,豈不能讓人類解放出來(lái),或許這一解放的起點(diǎn)就是“理解”。

 ?。ㄗ髡邽椤稒C(jī)器人産業(yè)》雜誌副總編輯)

[責(zé)任編輯:郭曉康]

特別推薦
點(diǎn)擊排名
聚焦策劃
  • <nav id="ggggg"></nav>
  • <noscript id="ggggg"></noscript>
    <sup id="ggggg"><code id="ggggg"></code></sup>
    <sup id="ggggg"></sup>
  • <nav id="ggggg"></nav>
    <sup id="ggggg"><code id="ggggg"></code></sup>
    <nav id="ggggg"><code id="ggggg"></code></nav>
    <tfoot id="ggggg"><noscript id="ggggg"></noscript></tfoot>
    <nav id="ggggg"><sup id="ggggg"></sup></nav>
    <nav id="ggggg"><sup id="ggggg"></sup></nav>