谷歌AI同聲傳譯新突破:任意耳機秒變翻譯神器,情緒語調全保留

ITBEAR科技資訊
12/19

科技巨頭谷歌近日在翻譯領域邁出重要一步,將升級後的Gemini 2.5 Flash原生語音模型整合至Google翻譯,推出耳機實時語音翻譯測試版功能。這項創新突破傳統硬件限制,用戶無需購買專用設備,只需佩戴任意耳機並連接安裝Google翻譯的安卓設備,即可開啓實時翻譯服務,實現單向聆聽與雙向對話的無縫切換。

該功能的核心優勢在於"零硬件成本"與"情緒傳遞"技術。區別於蘋果AirPods Pro 3需綁定特定iPhone機型的限制,谷歌方案支持所有有線、藍牙及AI耳機,覆蓋超過70種語言和2000個語言對。更引人注目的是其語音處理能力——通過Gemini 2.5 Flash模型,翻譯不僅能保留說話者的語調、重音和節奏,還能在學術會議、跨國談判等場景中區分不同發言者。演示視頻顯示,四位使用者分別使用韓語、英語、中文和德語交流,系統可精準識別主要說話者並在對話中動態切換語言。

技術層面,新模型將準確率提升至71.5%,多輪對話質量從62%躍升至83%。儘管海外用戶反饋仍存在識別誤差,尤其在專業術語翻譯方面,但谷歌披露的數據顯示其性能已顯著優於前代。產品管理副總裁Rose Yao強調,這項技術突破使機器翻譯從"信息傳遞"升級為"情感共鳴",例如西班牙語的熱情重音或中文的含蓄語速都能被完整保留。

市場格局因此面臨重構。當前同聲傳譯領域存在三類主要方案:一是科大訊飛時空壺等廠商的專用硬件,翻譯準確率高達95%但售價昂貴;二是蘋果生態的封閉方案,僅支持5種語言且需特定設備;三是Nebulabuds等輕量化APP,依賴第三方AI模型且需商業合作激活。谷歌的入局打破了這種平衡——其方案既無需硬件投入,又突破生態限制,雖在專業領域仍不及專用設備,但已實現"所有耳機皆可翻譯"的普及化目標。

目前該功能已向美國、墨西哥和印度的安卓用戶推送,計劃2026年擴展至iOS生態及更多地區。行業觀察者指出,這將對翻譯耳機、AI眼鏡等智能硬件造成衝擊——當實時翻譯成為基礎功能而非產品賣點,廠商需重新思考差異化競爭策略。儘管谷歌方案尚不能完全替代專業設備,但其普惠性已為翻譯技術普及開闢新路徑。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10