寻医问药网2024年10月13日发布:遭GPT-4o碾压,豆包们直面语音AI生死战刘显达的演艺生涯不仅限于硬汉角色的塑造,他还挑战了反派角色

⭐发布日期:2024年10月13日 | 来源:寻医问药网

⭐作者:马特·温斯顿 责任编辑:Admin

⭐阅读量:434 评论:5人

【澳门一肖一码100准免费资料】

【2024特马今晚开奖号码查询】

【管家婆2024正版资料图38期】 【2024澳门最新开奖结果查询】 【新澳门开奖结果2024开奖记录】 【新澳开奖结果记录史免费】 【六和彩开码资料2024开奖结果】 【2024年开奖结果新奥今天挂牌】 【2024年新澳门六开彩开奖结果查询】 【2024新澳精准资料免费提供】
【2024新澳门天天六开好彩大全】 【新澳六开彩开奖号码记录乾坤未定】 【8383848484管家婆特中】 【新澳2024年精准资料32期】 【新澳历史查询结果】 【2024澳门特马今晚开奖】 【47596澳彩开奖结果查询今天】 【新澳六开彩资料2024】

文 | 科技新知 ,作者丨廖政 编辑丨蕨影

最近,语音AI这个赛道,又被OpenAI搞火了。

就在9月25日,GPT-4o高级语音终于开始全量推出,Plus用户一周内都能用了。在OpenAI的移动端APP上即可体验!

讲真,这是AI渐冷的日子里,为数不多的“高光时刻”。

此外,还带上了一些更新,增加自定义指令、记忆、5种新的声音和改进的口音。与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示。

并且,其中还包括对诸如重庆话、北京儿化音等地域性方言的精准模仿,可以说是学嘛像嘛。

在消除语音机械感的同时,用户不仅可以随时打断通话,即使不和它说话时,它也能保持安静,一旦有任何问题可随时向它提出。

从总体上来说,这次语音AI的更新,让GPT-4o的交互越来越有“人味”了。

不过,早在GPT-4o的实时语音功能推出前,国内的一批大厂,就已经率先开始了对语音AI这块高地的争夺,其焦点也是冲着“实时交流”“真人化”等方向去的。

至于结果…… 只能说,在“徒有其表”的模仿下,国内的语音AI,离真正通用且泛化的人机交互方式,还有相当一段距离。

Part.短板暴露

在AI时代,语音AI最大的意义是什么?

对于这个问题,科大讯飞给出了一个具有全局性的答案:

语音平台可能成为未来物联网的“操作系统”,换句话说,就是当物联网将所有的设备都能联网后,什么智能硬件、自动驾驶汽车、消费级机器人等等,都是潜在的应用场景。

到那时候,要想让这些设备能听懂人话,那就得靠语音平台了。

但是,虽然总的思路挺有格局的,但在具体实施的手段上,讯飞这样的大厂却走了一条“自下而上”的路线。

大体意思是,在语音AI生态的构建上,讯飞这几年基本上是从行业场景一个个往下打,像教育、医疗、政务这些场景,都是它们重点发力的地方。

从总体上看,讯飞的策略是先抓住这些垂直领域,通过提供专用解决方案来逐步累积数据和优化算法。这个做法有个好处,就是每个场景里,讯飞可以做得很深、很专。

举例来说,讯飞在2022年推出了“讯飞医疗AI医生助手”,这款产品能在病历记录、辅助诊疗等方面提供语音输入和智能建议,帮助医生减轻文书工作压力。

类似的例子,还有讯飞在2023年推出了“智慧课堂解决方案”,旨在通过语音识别和评测技术,帮助教师进行实时的课堂互动与教学反馈。

在这些垂直领域,星火的定制化方案,确实解决了很多行业痛点,也使得讯飞能够在激烈的市场竞争中保持行业的龙头地位。

在GPT-4o推出语音演示功能后,讯飞的星火大模型,也紧随其后,推出了同样能够极速响应、自由打断,且能在各种情感、风格、方言随意切换的语音AI。

然而,对于构建能够“统一调度”的大平台级别的语音AI来说,除了做到布局广,且“说话流畅”之外,还有至关重要的一步。

那就是:实时状态下的语音AI,究竟能否帮助用户解决一些较为复杂的需求?

关于这点,我们对讯飞的星火大模型进行了一次测试。

左右滑动查看更多左:纯文本状态下的回答,右:实时语音状态下的回答

例如,在询问开封有哪些著名景点时,讯飞的实时语音AI,虽然回答得很流畅,但答案却较为简单,比纯文本状态下省略了很多内容。

那造成这种差距的关键原因是什么?

其实,对于GPT-4o这样的语音AI来说,除了确保通话流畅的RTC技术外,其背后还有一种关键的技术。

这就是端到端的语音大模型。

在以往的AI语音交互中,语音的处理大致分成了三个步骤。传统的 STT(语音识别,Speech-to-Text)-LLM(大模型语义分析)- TTS(文本到语音,Text To Speech)三步走的语音技术。

这样的技术,特点是成熟,但反应慢,缺乏对语气等关键信息的理解,无法做到真正的实时语音对话。

与过去的三步式语音交互产品相比,GPT-4o 是一款跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。

这也是GPT-4o说话时反应贼快,智商还在线的重要原因。

而当今一众力图模仿GPT-4o的国产厂商,例如字节跳动,虽然依靠RTC技术,让语音AI做到了流畅、即时,但在最核心的“内功”,即端到端语音模型方面,却露出了短板。

Part.“智力”缩水

在今年的8月21日,字节挑动的豆包大模型,搭载了火山引擎的RTC技术,也实现了类似GPT-4o的实时音频互动表现,能够做到随时打断,交流自然,感觉就像真人说话一样。

所谓RTC(Real-Time Communication)技术,是一种支持实时语音、实时视频等互动的技术。旨在降低语音通话中的延迟,使得用户在进行语音对话时感觉更加自然和顺畅。

但RTC主要解决的,仅仅是语音AI流畅性和实时性问题,但它并不能直接整合语音识别、理解和生成的步骤。

换句话说,在实时通话时,模型虽然话说得利索了,但智商却不一定在线。

一个明显的例子,就是字节的豆包大模型,在通过实时语音AI与用户交流时,遇到了和讯飞星火一样的问题,那就是语音AI的智力,明显比纯文本大模型被“砍”了很多。

左右滑动查看更多左:实时语音状态下豆包的回答,右:纯文本状态下豆包的回答

例如,在对《黑神话:悟空》这一话题进行交流时,纯文本状态下的豆包,回答明显要比实时语音的豆包要更详细,更有针对性。

一个可能的原因,是豆包在进行语音交互时,使用的并不是真正的端到端语音大模型。

在非端到端模型中,语音识别、理解和生成可能仍然是分开的步骤,模型需要在极短的时间内完成语音识别、理解和生成,而这一过程的计算和响应速度,会限制其对复杂问题的深入处理。

当模型被迫快速反应时,由于无法充分利用上下文信息,从而导致了“智力下降”的表现。

其实,真正的端到端语音大模型,实现起来远非想象中那么简单。

其中的难点,一在训练数据,二在计算资源;

根据腾讯算法工程师Marcus Chen的推测,GPT-4o这样的端到端语音大模型,背后使用的一种工程学方法,很可能是一种名叫离散化技术的路子。

这个技术,简单点说,就是把这些连续的声音波形切成一段一段的,每一段都提取出它特有的特征,比如语音的语义信息和声学特征。这些特征就像是一个个小的“口令”,机器可以把它们当成输入,丢到语言模型里去学习和理解。

但这可不是什么人人都能轻松掌握的技术。

要想做出高质量的语音token,需要大量的数据积累和复杂的建模过程。

这样的高质量数据,往往来自高质量的视频、播客等等。成本是过去文字训练模型的几十倍甚至更高。

而在计算资源方面,在实时互动场景中,计算必须在极短的时间内完成,这意味着端到端的大模型,通常需要消耗大量的计算资源,尤其是在处理高维度的语音数据任务时。

这也是为什么,OpenAI在推出GPT-4o的语音AI功能后,对用户的使用量进行了额度限制。其额度消耗和GPT-4o回复的额度一样。

反观现在以豆包为首的一些国产语音AI,虽然以免费、不限次数为噱头,但其生成质量,却相较于纯文本状态大打折扣。

这或许正是在算力资源紧张的情况下,模型采取的一种“权宜之计”。

因为当计算资源不足时,模型可能会优先选择简单的、低耗能的响应方式,以确保能够及时回应用户的请求。

毕竟,又想要免费无限地使用,又想要高质量的实时回复,天底下哪有那么好的事?

Part.算力困境

在AI时代,各类To C 语音产品的主要逻辑是,将昂贵或难以获得的人类服务,且是基于对话且可以在线完成的,替换为 AI,主要场景包括心理疗愈、辅导、陪伴等。

对于To C 类APP,要想大范围地落地,其中一个前置条件,必然是成本的大幅度降低。唯有如此,企业才能够以更低的价格提供服务,进而不断扩大用户基数。

但问题是,在降低成本的同时,质量和成效能否保障一定的水准?

这正是最考验讯飞、字节等大厂的一点。

从商业上来说,在降低成本的同时,要想质量不拉胯,就需要有源源不断的资金,进行研发和技术迭代。

这就要求企业找到一种明确的商业模式,来自我造血。

OpenAI之所以能在如此短的时间推出GPT-4o的语音功能,是因为背靠微软,能获得源源不断的融资,从而不断强化其模型的能力。

相较之下,坐拥几乎是行业内最为丰富业务场景的科大讯飞,虽然赶上了2023年AI浪潮,并在同年6月市值一度逼近2000亿大关,可随着其大模型持续高额的投入、销售费用持续攀升当下,讯飞对大模型收益能否覆盖成本尚无定论,成本压力始终存在。

一个重要的问题是:既然在一些特定的行业,例如医疗、教育、客服等,传统语音AI已经能够胜任了,那么以端到端大模型为核心的语音AI,又该怎样从中获取自己的市场份额?

一个可能的方向,就是在各种长尾需求中,对一系列复杂查询非标准化指令做出回应。例如在智能汽车或移动应用中,端到端模型可以通过自然语言,理解用户说的犄角旮旯的地点在哪,并提供精确的导航指令。

然而,在这种模式下,用户更多地是为语音AI背后强大的语言模型付费,为其出众的智力付费。

因此,端到端语音AI的盈利之路,一开始就因为这种“附属地位”而充满了坎坷,因为前者的能力一旦遇到瓶颈,其也会跟着“一损俱损”。

而在附属于语言大模型的尴尬之下,在算力资源的分配方面,语音AI也面临着一种不利的态势。例如,对于字节来说,迄今为止,字节跳动已经推出了11款AI应用;其中,豆包是国内用户最多的AI独立应用,其MAU可能已达到2000万量级。

然而,从业务布局上来说,语音AI现阶段不太可能是字节的重点。

在9月24日的深圳AI创新巡展上,火山引擎发布两款视频生成大模型PixelDance(像素舞动)和Seaweed(海草),很多业内人士分析,这条视频AI的类“Sora”赛道,才是以短视频闻名的字节真正不能输掉的一仗。

而AI视频生成,恰恰又是最消耗算力的一条赛道。

来源:豆包AI视频生成模型

与语音AI相比,同样消耗高算力的视频生成AI,因为对应着短视频这个更明确,且更易于盈利的赛道,因此在资源分配上,更有可能得到大厂或投资者的倾斜。

结合之前豆包在实时通话状态下的智力表现,我们或许能够推断,留给豆包打造端到端语音大模型的算力,未必会那么充足。

而这种资源不足,却又要在面上与GPT-4o一较高下的情况,这正是当下实时语音AI这支“偏军”在中国AI版图中的窘境所在。

语音交互技术火热了十来年,到了大模型时代,OpenAI、科大讯飞、字节这些大厂,又开始重新在往这领域挤,为何?因为这种技术,实际上暗藏着语音平台可能成为未来物联网“大脑”的想象。

通过一个语音平台,操控所有智能终端,这是所有传统语音AI都办不到的事。但是,这技术要想做得好,得先解决一个大问题,就是机器得能真正理解人说的话。这就需要AI在自然语言理解、知识获取这些领域有新的突破。

然而,在语言大模型遇到瓶颈,且算力资源被视频AI等“光环”更耀眼的产品抢走的情况下,语音AI在中国人工智能的版图中,暂且只能是个尴尬的存在。

【澳门六开彩资料免费大全今天】 【2024澳门开什么结果】
【新澳姿料大全正版2024】 【2024年的澳门开奖】
【王中王最准一肖100免费公开】 【2023澳门天天六开彩开奖结果】
【新澳好彩免费资料查询小龙女】 【2024今晚澳门开奖号码】
【澳门开奖4238开奖记录】 【2024澳门特马今晚开奖记录】
【新澳这里免费长期公开吗】 【2024年澳门特马今晚开码】 【今晚新澳门特马开什么生肖】
上一条新闻 下一条新闻

推荐文章

发表评论

Mustakallio

8秒前:然而,从业务布局上来说,语音AI现阶段不太可能是字节的重点。

IP:21.81.2.*

亨伯利·冈萨雷斯

7秒前:这个技术,简单点说,就是把这些连续的声音波形切成一段一段的,每一段都提取出它特有的特征,比如语音的语义信息和声学特征。

IP:42.55.6.*

Kamel)

3秒前:2 “智力”缩水在今年的8月21日,字节挑动的豆包大模型,搭载了火山引擎的RTC技术,也实现了类似GPT-4o的实时音频互动表现,能够做到随时打断,交流自然,感觉就像真人说话一样。

IP:91.61.1.*

寻医问药网APP介绍

APP图标

4949澳门开奖现场+开奖直播APP名:寻医问药网

版本:V9.10.575

更新时间:2024-10-12 21:19

2024澳门六开彩开奖结果查询表这是一个功能强大的今晚澳门特马开的什么号码2024APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:在消除语音机械感的同时,用户不仅可以随时打断通话,即使不和它说话时,它也能保持安静,一旦有任何问题可随时向它提出。

香港今晚开奖结果号码2024年3期APP介绍

APP图标

2024澳门资料免费大全APP名:寻医问药网

版本:V2.41.728

更新时间:2024-10-12 24:19

无论是澳彩精准资料今晚期期准快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新奥资料免费精准新奥生肖卡APP介绍

APP图标

4949开奖免费大全APP名:寻医问药网

版本:V9.11.918

更新时间:2024-10-12 19:14

2024新澳今晚资料鸡号几号应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

今晚必中一码一肖100准APP介绍

APP图标

澳门开奖4949.885cbmAPP名:寻医问药网

版本:V1.31.993

更新时间:2024-10-12 18:21

新澳资料免费精准2024这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新澳六2004开奖记录APP介绍

APP图标

澳门开奖结果2024开奖记录今晚APP名:寻医问药网

版本:V9.34.669

更新时间:2024-10-12 15:14

这是一款功能强大的新奥今晚上开奖9点30分应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:相较之下,坐拥几乎是行业内最为丰富业务场景的科大讯飞,虽然赶上了2023年AI浪潮,并在同年6月市值一度逼近2000亿大关,可随着其大模型持续高额的投入、销售费用持续攀升。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

新澳最新开门奖历史记录APP介绍

APP图标

澳门六开彩天天免费领取APP名:寻医问药网

版本:V2.57.334

更新时间:2024-10-12 16:22

这是一款功能强大的新奥六开彩资料2024应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:要想做出高质量的语音token,需要大量的数据积累和复杂的建模过程。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024今晚澳门码特开什么号码APP介绍

APP图标

新澳门历史所有记录大全APP名:寻医问药网

版本:V8.87.628

更新时间:2024-10-12 17:16

这是一款功能强大的新澳2024年开奖记录应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

最新澳门6合开彩开奖结果APP介绍

APP图标

2024新澳今晚资料APP名:寻医问药网

版本:V1.67.634

更新时间:2024-10-12 14:17

今天的最新动态包括:大体意思是,在语音AI生态的构建上,讯飞这几年基本上是从行业场景一个个往下打,像教育、医疗、政务这些场景,都是它们重点发力的地方。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门最新开奖结果开奖APP介绍

APP图标

新澳门最新快资料APP名:寻医问药网

版本:V5.23.975

更新时间:2024-10-12 19:17

这是一款功能强大的2024新澳门特马今晚开什么应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:这也是为什么,OpenAI在推出GPT-4o的语音AI功能后,对用户的使用量进行了额度限制。。

新奥免费料全年公开APP介绍

APP图标

2024年新澳门今晚开奖结果APP名:寻医问药网

版本:V8.55.675

更新时间:2024-10-12 19:19

这款功能强大的2024年澳门特马今晚开奖号码应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

香港特马开码开奖结果今天APP介绍

APP图标

2024正版资料免费公开APP名:寻医问药网

版本:V8.98.805

更新时间:2024-10-12 22:22

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024澳门今晚开什么生肖APP介绍

APP图标

2024新奥历史开奖记录85期APP名:寻医问药网

版本:V5.91.758

更新时间:2024-10-12 17:19

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。