日韩在线欧美在线,成人国产精品一级毛片天堂,看看的在线视频国产,久久天天躁夜夜躁狠狠躁2019

金站網
搜索
Google 追尋自己的聲音

發布時間 : 2010-09-02 14:16:18 來源 : 金站網 瀏覽次數 : Google 追尋自己的聲音


    領導Google的語音技術開發與產品應用的Mike Cohen,最近接受本站專訪時表示:“Google的使命是整理全世界的資訊,問題是,許多資訊都是用說的。”

    Google要開發出適用行動運算和網路應用軟體的語音辨識技術。也就是,將重度運算交給資料中心,又能在硬體配備有限之網際網路和行動裝置上執行的簡單、好用的軟體。

    電腦語音辨識已存在將近百年(1911年上市的Radio Rex玩具狗即可回應唿叫),但一直無法達到科幻電影中那種精細、靈敏和準確的程度。然而,Cohen相信,業界即將實現重大的突破。他說:“我們的目標是完全普及的語音輸入和輸出,任何可行的地方,我們都要提供非常優良的(語音辨識)。”

    聽到你的聲音

    2004年加入Google的Cohen,已在這個領域耕耘26年。他在Google的主要工作,是將先進的語音辨識和合成技術,應用到Google的各種服務上。

    Cohen表示,目前主要的語音技術系統大都已確立其基本架構。第一步是收到的聲波分成每10毫秒一組、辨識其聲音屬性(抑揚頓錯)上的微妙差異,制作出那些聲音的數位呈現。接下來是困難的部份,將這些聲音組對應英語中數十億組聲音組合。(其他語言的程序相同,但對應組的數量各不相同。)

    Cohen說:“這基本上就是一個大的統計模型。”Google的方法是分析聲音的音質,辨識出其“音素”(phoneme),這些音素如何組成個別的字,和文法如何將那些字構成句子。基本的方法各家公司大都相同,但Cohen自然認為Google有獨特的優勢。

    時間和資料

    語音辨識是一個極度運算密集的挑戰,即使簡單的語音指令,都需要許多運算資源來解讀。所幸,Google已累積了大量有關全球使用者的搜尋模式資料,和透過其書籍搜尋計畫所數位化的上千萬本圖文內容。這些資料都能用在語音辨識的處理。

    因此,Cohen認為,Google能在更快的時間內提供更準確的結果,因為他們有能力消化龐大的新資料,并與較舊的資料進行比對。Google的最新成果展現在其Android行動作業系統,使用者只要按下一個麥克風鍵,即可用聲音搜尋網路,或啟動特定應用程式。

    聲音障礙

    然而,多數人都同意,現在仍沒有一家公司能提供真正可靠的語音辨識技術。問題究竟是什么?

    Cohen表示,眼前最根本的問題是背景噪音。行動使用者經常因為風聲、背景對話或車輛噪音,影響辨識系統的聲音接收。改善麥克風或許有助,但系統必須加強處理這類干擾的能力。另一個主要問題是預期使用者會說什么字,并準確地合成句子,所涉及的復雜度。這不只是腔調和方言的問題,還有昵稱、俚語和口齒不清、句子不完整等情況,都會混淆最聰明的系統。

    用語音搜尋的人通常會自動說出關鍵字或關鍵句,如“臺北東區的餐廳”,這在預測和交叉比對上都相當有幫助。但語音郵件則完全無法預測,尤其是基于隱私保護,Google沒有保留這部份的資料庫。

    盡管還有許多挑戰,不論內外,人們都開始期待Google的語音技術將實現長久以來的幻想。改變長期的輸入習慣需要一些時間,但我們已經看到有些人拋棄以往的電腦輸入方式(鼠標和鍵盤),開始擁抱觸控和語音輸入。Cohen說:“我們不是要消滅既有的輸入方法,而是提供另一種選擇。”