AI类 · 2026年3月27日 0

谷歌掀语音Agent新纪元,开口就是生产力,Siri的最强外挂来了?

为语音龙虾打样!谷歌最强音频模型来了,动嘴就能做App。

智东西3月27消息,昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放。

这一版本的核心在实时语音Agent能力升级:语音已可直接驱动应用开发(vibe coding),Gemini App的实时多模态对话能力同步增强,在多项评测中超过GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview等模型。

模型一出,就被外网网友称作Siri”救星”。就在昨日,外媒曝2026苹果WWDC将主打AI并将推新版Siri,苹果已获谷歌完整Gemini模型直连权限,将通过蒸馏自研轻量化端侧AI部署iPhone。

从公开测试结果来看,这一版本在语音Agent关键能力上提升显著。在ComplexFuncBench audio测试中,Gemini 3.1 Flash Live的函数调用准确率达到90.8%。

谷歌语音Agent

本文来自微信公众号”智东西”(ID:zhidxcom),作者:江宇,编辑:冰倩,36氪经授权发布。