OpenAI最近发布了智能代理Operator,这是一款基于ChatGPT技术的创新工具,旨在通过自然语言交互帮助用户高效完成任务。Operator能够理解复杂的指令,并与第三方应用程序无缝集成,执行诸如预订、查询、信息整理等操作。它通过对话式界面提供个性化服务,使用户能够以更直观的方式与数字世界互动。这一技术标志着人工智能在自动化领域的进一步发展,展示了ChatGPT在实际应用中的潜力。Operator的发布不仅提升了人机交互的便捷性,也为企业提供了新的智能化解决方案,有望在未来广泛应用于日常生活和工作场景中。
目前Operator处于测试阶段,这意味着它的功能仍在优化和完善中,我们将根据用户体验反馈持续改进,作为我们推出的首批智能助手之一,Operator能够独立完成用户交付的任务,而无需全程人工干预。
这款助手能够处理多种重复性的网页操作任务,包括表单填写、在线购物等日常事务,它通过模仿人类的操作方式,使用相同的界面和工具,大大提升了人工智能的实际应用价值,既能为个人用户节省时间,也能为企业创造新的服务模式。
为确保安全性和逐步优化,我们采取了小范围试用的策略,Operator已面向美国地区的Pro用户开放试用,通过这个测试版本,我们能够收集用户反馈,并不断完善产品,我们计划逐步向Plus、Team和Enterprise用户开放,并将相关功能整合到ChatGPT中。
Operator的核心技术基于一个名为计算机使用代理(CUA)的新型模型,该模型结合了GPT-4o的视觉识别能力和强化学习算法,使其能够理解和操作图形界面中的各种元素,如按钮、菜单和输入框等。
通过屏幕截图功能,Operator能够"看到"网页内容,并通过模拟键盘和鼠标操作与浏览器进行交互,这种设计使其无需依赖特定的API接口,就能完成各种网页操作任务。
在遇到复杂情况时,Operator具备自我修正的能力,当它无法独立解决问题时,会主动寻求用户协助,确保操作过程的顺畅。
虽然CUA技术仍处于发展阶段,但已在WebArena和WebVoyager两项重要的浏览器操作测试中取得了突破性的成绩。
使用Operator时,用户只需用自然语言描述需要完成的任务,助手就会自动执行相关操作,用户可以随时接管操作权限,同时Operator也会主动将需要身份验证、支付信息或验证码处理的任务交还给用户。
用户可以为Operator设置个性化的工作流程,这些设置可以应用于所有网站或特定网站,在Booking.com上设置特定的航空公司偏好,用户还可以保存常用任务指令,方便快速执行重复性操作,与同时打开多个浏览器标签类似,Operator支持同时处理多个任务,让用户能够高效完成多项在线事务。
Operator的出现标志着AI从被动响应转变为主动参与数字生态系统,它不仅为用户带来便利,也为企业提供了创新的客户服务方式,我们正与多家知名企业合作,确保Operator能够满足实际需求并符合行业规范,我们也积极探索Operator在公共服务领域的应用潜力,目前正在与斯托克顿市合作,旨在简化市民服务和项目的申请流程。
网友评论