OpenAI近日推出了其首个智能体Operator,这是一个多功能的人工智能工具,能够执行多种日常任务,如在线购物、预订票务以及制作表情包。Operator的推出标志着人工智能在日常生活应用中的进一步深入,它不仅简化了用户的在线操作流程,还通过其高度智能化的交互能力,为用户提供了更加个性化和高效的服务体验。这一创新工具的出现,预示着未来人工智能将在更多领域发挥其潜力,极大地提升人们的生活质量和工作效率。
Operator处于研究预览阶段,这意味着它仍存在一些局限性,并将根据用户反馈不断优化,OpenAI将其定义为“智能体”(Agent)的一种,这类AI能够独立完成任务,用户只需下达指令,它便会自动执行,Operator将首先面向美国的ChatGPT Pro订阅用户开放,未来计划逐步向Plus、Team和Enterprise用户推广,用户可通过独立网站访问Operator,OpenAI表示将尽快将其集成到所有ChatGPT应用中。
OpenAI CEO山姆·奥特曼(Sam Altman)在发布会上表示:“这款产品是我们进军智能体领域的起点。”OpenAI总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)在社交媒体上写道:“2025年将是智能体元年。”Operator不仅是ChatGPT的重大升级,更标志着AI工具从被动接收信息向主动执行任务的跨越。
Operator的核心能力在于替代人类执行复杂的电脑操作,它可以像真人一样浏览网页,精准点击、滚动、填写表单,甚至完成订票、购物、订餐等任务,与传统虚拟助手不同,Operator不仅提供建议,还能直接采取行动。
Operator背后的技术被称为“计算机使用智能体”(Computer-Using Agent,简称CUA),这一模型结合了GPT-4o的视觉识别能力和高级推理技术,能够通过截图“理解”网页内容,并像人类一样操作鼠标和键盘,CUA经过训练,能够与图形用户界面(GUI)交互,无需依赖特定于操作系统或网络的API。
CUA的工作原理分为三个阶段:
1、感知:通过屏幕截图分析网页内容和结构。
2、推理:利用复杂的思路链推理后续步骤,动态调整任务执行策略。
3、操作:执行点击、滚动或输入等操作,直至任务完成或需要用户输入,对于敏感操作(如填写验证码),CUA会主动寻求用户确认。
在WebArena和WebVoyager两项浏览器操作测试中,CUA表现优异,WebArena模拟网购、在线商店管理等复杂场景,CUA的成功率为58.1%;在WebVoyager的实际网站导航测试中,CUA的成功率高达87%,展现了其在从在线购物到旅行预订等任务中的潜力。
Operator还支持个性化定制,用户可以为特定网页或全站添加自定义指令,并保存至主页,实现跨聊天窗口的多任务处理,在OSWorld基准测试中(评估模型控制Ubuntu、Windows和macOS等操作系统的能力),CUA的成功率为38.1%,而人类平均成绩为72.4%,表明AI仍有提升空间,OpenAI还发现,随着测试时间增加(允许更多操作步骤),CUA的表现会显著提升。
为防范潜在风险,Operator配备了多重安全机制,用户可以随时接管控制权,敏感操作(如信用卡信息输入和付款确认)需人工明确批准,Operator被限制执行银行交易、发送电子邮件、删除日历事项等高风险任务,Operator还设有滥用防范系统,能够识别并拒绝有害请求,并在检测到可疑活动时暂停执行,许多赌博、成人娱乐以及毒品或枪支零售网站也被列入黑名单。
尽管如此,Operator仍存在一些局限性,它无法可靠处理复杂的专业任务(如创建详细幻灯片或管理复杂的日历系统),也无法与高度定制或非标准的网页界面交互,部分网站(如Reddit)已禁止AI智能体访问,OpenAI也出于性能或法律原因阻止Operator访问某些资源密集型网站(如Figma)或竞争对手拥有的网站(如YouTube)。
奥特曼在发布会上表示,Operator是OpenAI“第一批智能体”之一,未来几周和几个月还将推出更多类似产品,随着AI智能体的普及,AI正从被动的信息处理工具转变为主动的数字生态系统参与者,无论是简化日常事务,还是创新商业工作流程,AI的实用性正日益凸显,人类与AI的协作,正从想象逐渐变为现实。
参考资料:
https://openai.com/index/introducing-operator/
https://openai.com/index/computer-using-agent/
https://techcrunch.com/2025/01/23/openai-launches-operator-an-ai-agent-that-performs-tasks-autonomously/
https://venturebeat.com/ai/meet-openais-operator-an-ai-agent-that-uses-the-web-to-book-you-dinner-reservations-order-tickets-compile-grocery-lists-and-more/
网友评论