猪八戒网2024年10月12日发布:GPT-4o和Gemini Live,OpenAI和谷歌都在重新定义大模型产品的人机交互标准孤战迷城直到叛徒曾继武替欧孝安覃墨卿掩护,魏清明才一语点破

⭐发布日期:2024年10月12日 | 来源:猪八戒网

⭐作者:Coby 责任编辑:Admin

⭐阅读量:363 评论:9人

【2024今晚澳门开奖结果】

【澳门天天开彩期期精准】

【香港的开奖记录近15期开奖结果】 【今晚必出一肖一码】 【新澳门跑狗图2024年】 【2023澳门天天六开彩开奖结果】 【2024年新澳门六开今晚开奖号码】 【澳门彩2024年今晚开奖】 【澳门正版挂牌免费挂牌大全】 【管家婆精准一肖一码必中一肖】
【新澳门彩开奖结果记录历史】 【新澳门2024年资料大全官家婆】 【澳门六开彩开奖结果号码直播】 【管家婆2024正版资料图38期】 【新澳彩资料免费长期公开】 【澳门六开彩开奖+结果澳门六开】 【澳门4949开奖现场直播+开】 【新澳门2024年资料大全】

就在这周的前几天,OpenAI和Google都相继发布了新的大模型产品。尽管真正的具身智能还有很长的路,但大家都在借助新的AI想定义新的人机交互标准,在多模态交互上,迈出关键一步。

这是我们首次在易用性方面取得重大突破,意义非凡!因为这揭示了我们与机器之间未来的互动方式。

——Mira Murati OpenAI首席技术官

GPT-4o的发布,无疑是昨日AI圈一大焦点。很多文章都做了详细介绍和功能解析,总结下来有3个核心优势:

  1. 使用门槛更低:免费开放、API价格减半、Mac版工具
  2. 使用体验更好:速度翻倍、跨模态推理、自然对话
  3. 使用场景更丰富:情绪感知、实时语音、视觉增强

其中最能引发遐想的,我觉得是“实时理解世界”的能力,包括对物理现实的理解,和人类情绪的理解。

无独有偶,就在5月15日凌晨,谷歌在Google I/O开发者大会展示了名为“Gemini Live”的新体验:

和GPT-4o一样,Gemini Live可以通过手机摄像头拍摄的照片或视频,查看用户的周围环境,并对其做出反应。作为人类的代理,它可以看到和听到我们所做的事,更好地了解我们所处的环境,并在对话中快速做出反应,从而让交互更自然。

这项能力的发布,很明显都在指向一个关键词:具身智能

具身智能强调“感知—行动回路”,并呈现出三个特点:

  1. 一定是多模态的,能像人一样通过视觉、听觉、触觉等感官,以及语言、运动、交互等行为,完成一系列智能任务。
  2. 能根据环境的交互积累经验,基于不同数据构建不同模型,产生不同的智能,在完成任务上更智能;
  3. 机器人或智能体有自主性,和人类的学习和认知过程一致。

尽管距离真正的具身智能还有很长的路要走,但我看到了在多模态交互上,人类迈出了关键一步。

我觉得无论是OpenAI还是谷歌,都在借助新的AI技术,为我们制定了新的大模型产品的人机交互标准。

一、大模型产品的人机交互标准是什么?

说起大模型产品的交互方式,通常第一反应都是CUI(Conversational User Interface 对话式用户交互界面),或者叫LUI(Language User Interface,语言交互界面)。甚至很多人一度认为,这就是AI产品最终的交互方式了。

然而真是这样么?回归到交互的本质,无论是图形界面,还是对话界面,目的都是要更精准地解读用户的输入意图,达成更匹配的输出。

表面上看,似乎用对话方式,用户可以更自由、灵活地表达需求,而不用局限在产品经理预设的界面上去完成任务。然而,回归到交互设计原则上看,到底什么样的交互,是真正对用户友好的?

著名的美国认知心理学家、用户体验设计大师唐·诺曼(Don Norman),曾提过一个好产品的交互设计六项基本原则,分别是:

示能(Affordance)

指一个物理对象本身就有的、特定的交互方式,不需要解释,它直接就可以被感知到。比如一把椅子,不管它怎么设计,一定会有一个平面可以坐人。这里面的“平面”,就是一种示能。一出现平面,人们就会天然地认为,这个地方是可以坐的。

意符(Signifiers)

意符是一种提示,告诉用户可以采取什么行为。比如我们经常看到,有些商场的大门上,会写上“推”或者“拉”的提示,这个推和拉就是一种意符。

约束(Constraint)

约束限定了一系列可能的操作。在设计中有效使用约束因素,就可以让用户在任何未知环境下都能找到合适的操作方法。比如拼乐高积木、使用电源插座。

映射(Mapping)

映射表示两组事物要素之间的关系,是可以直观反映在物理位置上的。比如办公室的顶灯和对应的开关,它们之间的排布是一一对应的,你就可以知道按哪个按钮开关哪排灯。

反馈(Feedback)

好设计一定要有即时反馈,稍有延迟便会令人不安。生活中我们经常会碰到有人在电梯前反复按楼层键,就是因为缺少及时反馈。反馈需要精心策划,以一种不显著的方式确认所有操作。

概念模型(Conceptual Models)

指高度简化的说明,告诉用户产品是如何工作的。比如电脑中的文件和文件夹就是一套概念模型,实际上硬盘上并不存在文件夹,但这比复杂的计算机指令更能让用户理解计算机的操作。

我们把传统对话式交互,分别带入这6个原则:

你会发现,似乎文字对话框式的使用方式,并不符合一个好产品的交互原则。

而GPT-4o和Gemini Live的出现,我认为是重新定义了大语言模型产品的交互设计标准。因为它为我们带来了:

二、更即时的交互反馈

Murati在发布会上提到,与GPT-4-Turbo相比,GPT-4o的速度快2倍。尤其在语音对话场景,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,而GPT-4o对音频输入的平均响应时间为320毫秒,最短的响应时间为232毫秒,与人类的响应时间相似。Gemini Live也支持在聊天时打断,让AI实时适应人类语言表达的模式。

这样的高效,带来了更自然的使用体验,让人类和大模型的交流,更符合人与人之间面对面沟通的概念模型。也创造了更即时的反馈。将这些技术和增强的语音引擎相结合,就可以实现更一致的情感表达和现实的多轮对话。

三、更立体的交互方式

人机交互的底层原理,可以概括为:事件有反馈,操作有结果

输入的对象是机器,输入给机器的内容,是固定化的指令和多样化的信息。而输出的对象是人,输出的内容是给到人的感官反馈。优秀的交互设计,就是用更多元的输入,带给用户更丰富的输出。

乔布斯说过:

苹果电脑就是21世纪人类的自行车,只要愿意,谁都可以拥有它。它是工具,是人类大脑的延伸。

在人与电脑之间,可以发展出特殊的关系,它可以改善个人的生产力。

GPT-4o交付给我们的,不光是人类的第二大脑,更是第二双眼睛、耳朵和嘴。

通过GPT-4o,大模型的示能方式可以延展为“能说话的摄像头”,扮演教你做题的数学老师、为你同声传译的翻译官、理解你情绪的咨询师。

而文字表达带来的低约束性问题,也可以借助对视觉、声音、语调的理解,让大模型围绕特定环境给出更精准的对话引导。想象下,当打开AI后,它会先环顾四周,知道你在哪儿,身边都有谁,大家在说什么,再开启一场更符合场景的对话,这样的交互简直不能再自然了。

四、更情绪化的交互过程

“人类的生命,不能以时间长短来衡量,心中充满爱时,刹那即为永恒”

人与机器的区别之一,就在于能否理解情绪,甚至表达情绪。

AI+情绪,也一直是创业者热衷投入的赛道。无论是微软小冰、Glow、Character.AI、Replika等聊天陪伴型机器人,还是Pi、Hume.AI这种对情绪理解更深入的技术解决方案。都希望借助情感化设计,提供更贴心和人性化的服务。

唐·诺曼(Don Norman)在《设计心理学3-情感设计》中写到,情感化设计,自底向上分为:本能层、行为层、反思层三层结构。

  • 本能层表现为感性认知,凭借第一印象吸引用户。
  • 行为层体现在操作产品时,是否有清晰流畅的步骤,明确的使用动线,靠体验留住用户。
  • 反思层则代表产品融入了独特的文化内涵和差异化的亮点设计,能打动人心,扎根在记忆中。

想象下,具备情绪感知和视觉理解的AI,可以在本能层表现的更加自然生动,在行为层给出更连贯、可打断、有记忆的个性化输出,在反思层深深植入每个人独有的陪伴角色。

当然,也许你会觉得我想多了,这些新技术没那么厉害。不就是在文字聊天的基础上,增加了语音和视频通话的功能么?说它是重新定义了AI交互,太夸张了。

说的没毛病。不过我更关心的,不在定义本身,而是想为你提供一种设计AI产品交互界面的新思路。

我的观点是:

作为生产力工具的大模型产品,在产品设计之初,就应该考虑多模态的交互方式。

  • 大模型产品,应该是可以“看”的——通过视觉或其他感官,感知环境。
  • 大模型产品,应该是可以“说”的——根据环境的不同,进行自然语言对话。
  • 大模型产品,应该是可以“听”的——在对话和观察中感知情绪,认真聆听,做出反应。
  • 大模型产品,应该是可以“记”的——在长期交互中形成记忆,动态调整和你的互动方式和输出的内容。

回看当初OpenAI发布Sora时,曾提出“视频生成模型是世界模拟器”的观点(Video generation models as world simulators)。构建世界模拟器的前提,就是要增强对世界的理解,补充更多物理规律和世界常识。多模态交互的设计,正是达成这一目标的最优解。

五、结语

最后,我们再来看看本文开头提到的交互设计六原则,我想试着把多模态交互也填进去,看看和传统chat式交互的对比差异。

客观看,就算增加了多模态,当前的大模型和人类的交互方式,仍不是最优的,那还有没有其他解法呢?

肯定是有的,好的交互,永远不是单一设计。

我们完全可以融合GUI+CUI/LUI+多模态几种形式到一起,在指定场景下,为特定角色设计交互方式。比如老师机器人、医生机器人、教练机器人。人类都可以分角色,为什么AI不行呢

专栏作家

申悦,微信公众号:互联网悦读笔记(ID:pmboxs),人人都是产品经理专栏作家,前360产品总监,起点学院优秀导师。

本文原创发布于人人都是产品经理。未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

【新澳门彩历史开奖记录查询表】 【六盒宝典2024年】
【澳门今期开什么号码】 【2024年新澳门天天开好彩大全】
【澳门最新开奖历史结果】 【4949澳门开奖现场开直播】
【2024新奥历史开奖记录28期】 【新奥门历史记录查询】
【2024全年资料免费大全优势生肖】 【新澳门2024年正版免费公开】
【2024澳门六开彩开奖结果直播】 【新澳门香港今晚开奖结果查询结果】 【新澳历史开奖最新结果查询今天】
上一条新闻 下一条新闻

推荐文章

发表评论

江良至

1秒前:很多文章都做了详细介绍和功能解析,总结下来有3个核心优势:使用门槛更低:免费开放、API价格减半、Mac版工具使用体验更好:速度翻倍、跨模态推理、自然对话使用场景更丰富:情绪感知、实时语音、视觉增强其中最能引发遐想的,我觉得是“实时理解世界”的能力,包括对物理现实的理解,和人类情绪的理解。

IP:21.43.1.*

李奎

8秒前:尽管距离真正的具身智能还有很长的路要走,但我看到了在多模态交互上,人类迈出了关键一步。

IP:21.74.8.*

尤利娅·奥格

3秒前:生活中我们经常会碰到有人在电梯前反复按楼层键,就是因为缺少及时反馈。

IP:51.64.5.*

猪八戒网APP介绍

APP图标

新澳门彩开奖结果今天APP名:猪八戒网

版本:V3.78.710

更新时间:2024-10-11 24:13

澳门天天彩资料正版免费特色快8这是一个功能强大的澳门正版资料免费大全新闻最新大神APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:通过GPT-4o,大模型的示能方式可以延展为“能说话的摄像头”,扮演教你做题的数学老师、为你同声传译的翻译官、理解你情绪的咨询师。

2024年澳门管家婆一肖一码一中奖APP介绍

APP图标

2023澳门天天彩今晚开什么APP名:猪八戒网

版本:V8.35.702

更新时间:2024-10-11 19:18

无论是奥门开奖结果2024澳门快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

2024澳门传真图片今天APP介绍

APP图标

477777最快开奖!APP名:猪八戒网

版本:V8.97.158

更新时间:2024-10-11 13:24

澳门六开彩天天开奖结果查询应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

澳门正版资料全年免费公开精准资料一APP介绍

APP图标

7777788888一肖一码APP名:猪八戒网

版本:V1.46.575

更新时间:2024-10-11 13:22

2024澳门天天开好彩大全开奖记录这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

澳门今晚开什么号码APP介绍

APP图标

澳门开码记录今天查询结果APP名:猪八戒网

版本:V4.10.533

更新时间:2024-10-11 20:19

这是一款功能强大的2024年奥门今晚开奖结果应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:比如我们经常看到,有些商场的大门上,会写上“推”或者“拉”的提示,这个推和拉就是一种意符。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2O24澳彩管家婆五不中APP介绍

APP图标

新澳内部资料APP名:猪八戒网

版本:V7.77.773

更新时间:2024-10-11 22:24

这是一款功能强大的管家婆一肖一码取准确比必应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:Gemini Live也支持在聊天时打断,让AI实时适应人类语言表达的模式。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024年特码开奖APP介绍

APP图标

新澳门一码一肖一特一中准选今晚APP名:猪八戒网

版本:V5.86.307

更新时间:2024-10-11 22:15

这是一款功能强大的新澳彩资料免费资料大全应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:在人与电脑之间,可以发展出特殊的关系,它可以改善个人的生产力。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

2024今晚香港开特马第38期APP介绍

APP图标

澳门今晚开特马+开奖结果走势图APP名:猪八戒网

版本:V5.44.219

更新时间:2024-10-11 21:18

今天的最新动态包括:三、更立体的交互方式人机交互的底层原理,可以概括为:事件有反馈,操作有结果。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

白小姐开奖结果十开奖记录免费APP介绍

APP图标

新澳门开奖直播最新平台APP名:猪八戒网

版本:V3.44.826

更新时间:2024-10-11 15:19

这是一款功能强大的新澳门开码结果开奖彩2024应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:五、结语最后,我们再来看看本文开头提到的交互设计六原则,我想试着把多模态交互也填进去,看看和传统chat式交互的对比差异。。

2024澳门码今晚开奖结果APP介绍

APP图标

2024年澳门资料大全免费APP名:猪八戒网

版本:V2.53.235

更新时间:2024-10-11 13:17

这款功能强大的老澳门开奖号码记录应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

香港今晚开什么特别号码APP介绍

APP图标

2024新奥历史开奖记录香港1APP名:猪八戒网

版本:V8.33.575

更新时间:2024-10-11 17:17

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

新奥管家婆资料2024年85期APP介绍

APP图标

新澳免资料费开奖APP名:猪八戒网

版本:V7.56.190

更新时间:2024-10-11 17:20

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。