OpenAI 发布新模型 GPT-4o，可实时跨音频、视觉和文本进行对话，并且免费开放给用户

chatgpt中文网2024-05-14 19:39:3981

从 0 点开始我就等着发布会开始，听了一小时的“催眠曲”之后终于在凌晨 1 点开始，已经困的迷迷糊糊的我熬夜看完 OpenAI 的发布会。

这次的发布会震撼到我了，本来想着写完公众号再睡的，结果实在撑不住了，既然睡醒了那就把文章补上。

上来先放个震撼的，新出的 GPT-4o 他免费，是的，他居然免费，不过对于免费用户来说有使用限制（是 Plus 用户的 1/5）。

直接进入 GPT 页面就会弹出试用弹窗，如果没有退出登录再进入试试。

GPT-4o（“o”代表“omni”，也就是全能），全能？这么牛？那我们来看看是否名副其实。

他能实时进行文字、音频、视频的对话，没错就是实时。GPT3.5 平均延迟为 2.8 秒，GPT4 的延迟有 5.4 秒，而 GPT-4o 平均为 320 毫秒，已经类似人类的反应速度。

有人可能会说不就是反应快了吗，有什么大惊小怪的，但是他不仅能“听”，还能“看 ”，能“思考”。

我们来看一下发布会上的演示吧

这是 OpenAI 工作人员打开摄像头进行的数学题演示，工作人员一边写，GPT一边给答案。（以后不用辅导孩子作业了呢，全部交给 GPT，哈哈哈）

有个演示是给 GPT 的纸条上写着“I love Chat GPT”时，GPT 发出小女生般害羞的尖叫，那种真实感，让我一度认为 AI 女友可以实现了，这谁能听得出是机器人啊。

就这些了吗？那当然不是，我们不仅可以打开摄像头，还能让 GPT 看到屏幕（基于 OpenAI 新推出的 Mac 客户端），可以辅助我们写代码、分析表格

在视觉方面，GPT 还能实时识别你的表情和情绪变化，也许我们未来与 AI 交流真的分不出是不是 AI 了

实时对话都可以了，那实时翻译也不在话下（演示中让ChatGPT进行一个英语和意大利语的实时翻译）。我们出国旅行带着 GPT 就像随身带着一个会所有语言的翻译一样，这简直对我来说太爽了。

目前我们只能使用 GPT-4o 对话功能，更多功能将会在几周内推出

OpenAI 春季发布会中英双语字幕，感兴趣的可以看一下下方视频内容（刚刚机翻的，可能有点词有错误，不影响理解，哈哈哈哈）

模型评估：

GPT-4o 在文本、推理和编码智能方面和 GPT-4 Turbo 达到相同水平，并且在多语言、音频和视觉功能上达到了新的高水位线。

文本能力：

改进推理 - GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高分。所有这些评估都是通过新的简单评估收集的（在新窗口中打开）图书馆。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。（注：Llama3 400b（在新窗口中打开）还在训练中）

音频 ASR 性能：

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

音频翻译性能：

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam 零样本结果：

M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。（我们省略了斯瓦希里语和爪哇语的视力结果，因为这些语言的视力问题只有 5 个或更少。

视觉理解评估：

视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot，其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

‍

本文链接：https://p6p6.cn/chatgptPlus_gpt4_gpt5_321.html

GPT-4o GPT4o gpt-4o检测人的情绪 gpt-4o多模态大模型发布 GPT-4o免费 GPT-4o官网 GPT4o官网

OpenAI 发布新模型 GPT-4o，可实时跨音频、视觉和文本进行对话，并且免费开放给用户

相关文章

2025年3月ChatGPT充值失败频发，技术故障还是行业变局？

2025年3月最新指南，用支付宝充值GPT会员，这些细节你可能忽略了

2025年3月最新指南，ChatGPT会员开通如何用支付宝完成支付？

2025年3月，GPT会员究竟能为你带来什么？深度解析隐藏价值与行业趋势

2025年3月支付宝礼卡新玩法，当GPT技术遇上消费场景，如何让红包更懂人心？

网友评论