OpenAI发布了自己的新产品GPT-4o,与之前的GPT有何不同,于是我迫不及待地想一探究竟~
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间(opens in a new window)相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
最大的亮点是可以全方位感知,而不仅仅是文字,你可以直接和ChatGPT-4o进行视频对话!
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
借助 GPT-4o,OpenAI跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此OpenAI仍然只是浅尝辄止地探索该模型的功能及其局限性。
它所提供的能力有哪些呢,下面例举其中一些,具体可以上官网查看。
比如可以直接通过文本生成视觉文件~
比如定义角色,写漫画小说~
比如把文本诗歌变成真实笔写稿件~
再比如将网上的视频课件,快速总结~
你也可以通过设计稿图,直接将实物设计出来~
那么,关于模型的可用性,哪些用户可以用呢?
GPT-4o 是OpenAI突破深度学习界限的最新举措,这次是朝着实用性的方向发展。在过去的两年里,OpenAI花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果,OpenAI能够更广泛地提供 GPT-4 级别模型。GPT-4o 的功能将迭代推出(从今天开始扩大红队访问权限)。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。OpenAI正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。OpenAI将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。OpenAI计划在未来几周内在 API 中向一小部分合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
都说是ChatGPT用户是免费了,那我们就来一探究竟~
首先登入之后会看到如下界面:
它提示“您现在对我们最新型号 GPT‑4o 的访问权限有限。它更聪明,可以理解图像,可以浏览网页,并且可以讲更多语言。”
点击立即试用后,可以看到不同用户对于GPT-4o的权限:
所以对于普通用户只有有限权限,下面是普通用户权限下与ChatGPT的对话:
不过还是可以看到,GPT-4o的部分权限还是在原GPT3.5的用户下开放了。
语音交互在普通用户下还不能实现~
文字转图像,在普通用户下也还不能实现~
不过对于文章阅读总结已经非常优秀了:
以上看来,ChatGPT4-o对于普通用户提供的能力有限,至少Plus用户才是目前才有被更好优待的资格,那么,后面接着试~
参考来源:
[1] https://openai.com/index/hello-gpt-4o/
[2] https://www.theverge.com/2024/5/13/24155493/openai-gpt-4o-launching-free-for-all-chatgpt-users
[3] https://www.youtube.com/watch?v=DQacCB9tDaw
本文链接:https://p6p6.cn/chatgptPlus_gpt4_gpt5_322.html
GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网
网友评论