OpenAI 发布新模型 GPT-4o,可实时跨音频、视觉和文本进行对话,并且免费开放给用户

chatgpt中文网2024-05-14 19:39:3981
从 0 点开始我就等着发布会开始,听了一小时的“催眠曲”之后终于在凌晨 1 点开始,已经困的迷迷糊糊的我熬夜看完 OpenAI 的发布会。
这次的发布会震撼到我了,本来想着写完公众号再睡的,结果实在撑不住了,既然睡醒了那就把文章补上。
上来先放个震撼的,新出的 GPT-4o 他免费,是的,他居然免费,不过对于免费用户来说有使用限制(是 Plus 用户的 1/5)。
直接进入 GPT 页面就会弹出试用弹窗,如果没有退出登录再进入试试。
GPT-4o(“o”代表“omni”,也就是全能),全能?这么牛?那我们来看看是否名副其实。
他能实时进行文字、音频、视频的对话,没错就是实时。GPT3.5 平均延迟为 2.8 秒,GPT4 的延迟有 5.4 秒,而 GPT-4o 平均为 320 毫秒,已经类似人类的反应速度。
有人可能会说不就是反应快了吗,有什么大惊小怪的,但是他不仅能“听”,还能“看 ”,能“思考”。
我们来看一下发布会上的演示吧
这是 OpenAI 工作人员打开摄像头进行的数学题演示,工作人员一边写,GPT一边给答案。(以后不用辅导孩子作业了呢,全部交给 GPT,哈哈哈)
有个演示是给 GPT 的纸条上写着“I love Chat GPT”时,GPT 发出小女生般害羞的尖叫,那种真实感,让我一度认为 AI 女友可以实现了,这谁能听得出是机器人啊。
就这些了吗?那当然不是,我们不仅可以打开摄像头,还能让 GPT 看到屏幕(基于 OpenAI 新推出的 Mac 客户端),可以辅助我们写代码、分析表格
在视觉方面,GPT 还能实时识别你的表情和情绪变化,也许我们未来与 AI 交流真的分不出是不是 AI 了
实时对话都可以了,那实时翻译也不在话下(演示中 让ChatGPT进行一个英语和意大利语的实时翻译)。我们出国旅行带着 GPT 就像随身带着一个会所有语言的翻译一样,这简直对我来说太爽了。
目前我们只能使用 GPT-4o 对话功能,更多功能将会在几周内推出
OpenAI 春季发布会中英双语字幕,感兴趣的可以看一下下方视频内容(刚刚机翻的,可能有点词有错误,不影响理解,哈哈哈哈)
模型评估:
GPT-4o 在文本、推理和编码智能方面和 GPT-4 Turbo 达到相同水平,并且在多语言、音频和视觉功能上达到了新的高水位线。
文本能力:
改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b(在新窗口中打开)还在训练中)
音频 ASR 性能:
音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译性能:
音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。
M3Exam 零样本结果:
M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。(我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。
视觉理解评估:
视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

本文链接:https://p6p6.cn/chatgptPlus_gpt4_gpt5_321.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

网友评论