凯时AG

2026-06-16 16:30:46 设为首页 | 加入珍藏

Google推出Gemini 3.5实时语音翻译:支持70多种语言, ,,,,,延迟仅几秒

2026-06-16 16:30:46 宣布 泉源:小说排行 作者:季志安 浏览:8440次

6月10日新闻, ,,,,,Google推出Gemini 3.5 Live Translate, ,,,,,将实时语音到语音翻译做成可接入的模子能力。。它支持70多种语言, ,,,,,能在几秒延迟内天生译后语音, ,,,,,并只管保存语言者的语调、语速和音高。。该功效已通过Gemini Live API和Google AI Studio向开发者开放, ,,,,,也最先在Google Translate的Android和iOS应用中上线。。

转变不在翻译自己, ,,,,,在入口

Google做实时翻译已经许多年, ,,,,,但已往的体验总绑在特定装备上, ,,,,,包括Pixel手机、Pixel Buds, ,,,,,以及特定App。。能不可用得上, ,,,,,取决于你用的是什么硬件。。

这次的转变是把"听到一种语言、实时说出另一种语言"从产品功效酿成了模子能力。。模子自动检测输入语言, ,,,,,一连处理语音流, ,,,,,不需要等语言人讲完整句再最先翻译。。Google的说法是, ,,,,,系统在"等更多上下文"和"尽快输出跟上节奏"之间一连做平衡, ,,,,,因此译后语音始终落伍语言人几秒。。

这意味着任何应用都可以接入这条能力。。浚浚跨国电话、视频聚会、旅游问路、在线课程。。翻译不再是一个自力App, ,,,,,而是一个开关。。

保存语气会提升可用性, ,,,,,也放大冒充风险

这次更新最容易被用户感知的点:译后语音不但是机械朗读翻译效果, ,,,,,而是只管听起来像统一个人在换一种语言语言, ,,,,,语调、节奏、音高都只管保存。。

利益很直接。。浚浚客服电话、网约车相同、在线教学, ,,,,,这些场景里语气和停留自己就是信息。。已往TTS式朗读让对话变僵, ,,,,,保存语气后更靠近"有人在旁边帮你转述"。。

风险也很直接。。译后语音越像真人, ,,,,,越容易被用来伪造对话、冒充身份、制造误导音频。。Google体现会嵌入SynthID水印标识AI天生内容。。但水印在转录、压缩、转发、二次录音之后还能不可稳固识别, ,,,,,还需要看后续现实检测效果。。

谁先受影响

经常浚浚跨语言相同的人。。 跨国团队开会、外洋旅行、跨境客服不再需要特殊翻译装备, ,,,,,只要常用工具接入这个API。。

小团队和应用开发者。。 已往做实时语音翻译要自己串语音识别→机械翻译→语音合成→低延迟传输。。现在一条API挪用解决, ,,,,,多语言客服、直播翻译、聚会工具的开发门槛会显着降低。。

翻译从业者, ,,,,,影响更重大。。 专业同传依赖配景知识、临场判断和高准确率, ,,,,,短期内不可替换。。但大宗"不要求逐字准确、只要求马上听懂"的场景会被分流。。真正的界线不在于模子能不可翻一句话, ,,,,,而在于长对话、强口音、专业术语、多人插话时它还稳不稳。。

演示不即是日常

Google没有给出可较量的准确率数据。。70多种语言代表笼罩面扩大, ,,,,,但差别语言之间质量差别可能很大——低资源语言、方言、口音、专业术语, ,,,,,每一个都是坑。。

演示音频来自受控情形。。地铁站、咖啡馆、多人同时语言的电话聚会, ,,,,,才是真正的磨练场。。Gemini 3.5 Live Translate的意义在于把实时语音翻译推到了更开放的产品入口;;;;;它能不可从"够惊艳"酿成"够可靠", ,,,,,还要等真实场景里的大规模使用往返覆。。(易句)

(本文由AI翻译, ,,,,,网易编辑认真校对)

锁骨下血管区域也要特殊注重, ,,,,,推拿不当可致头晕、手麻, ,,,,,甚至血管损伤。。

责任编辑:陈琳发    校对:黄若贞

今日热门

  1. 山东省淄博市政协原副主席刘东军接受审查视察
  2. 微视频|殷殷嘱托 暖暖悬念
  3. 三部分联合开展保健食物护老提升专项行动
  4. (墟落行·看振兴)山西闻喜藤蔓月季花激活“花海经济” 药韵赋能墟落振兴
  5. 北京曲剧《雷雨》观摩钻研会在京举行
  6. 国家防总针对湖北、重庆启动防汛四级应急响应
  7. 习近平同美国总统特朗普举行谈判
  8. 广东肇庆四会市委书记翁卓辉被查
  9. 上海降生新“币王” 5083万元成交
  10. 普京:俄方愿在美国安克雷奇与乌谈判

相关推荐

【网站地图】