OpenAI推出智能代理Operator，ChatGPT迈入‘动手’新时代

chatgpt注册教程网2025-01-24 09:25:2791

OpenAI近日发布了全新AI代理“Operator”，这一创新标志着AI从单纯的“对话”向“动手”能力的重大跨越。Operator不仅能够理解和生成自然语言，还能执行复杂的任务和操作，如编写代码、处理数据、管理业务流程等。这一突破性进展得益于OpenAI在强化学习和多模态模型上的持续优化。Operator的推出将极大提升企业和开发者的效率，使其能够更专注于战略决策和创新，而将繁琐的操作任务交给AI。这一技术的应用场景广泛，从软件开发到自动化办公，Operator都将成为不可或缺的智能助手，推动AI技术向更实用、更高效的方向发展。

AI 助手正快速迈入“实操”时代。

刚刚，OpenAI 发布了一款名为 Operator 的全新 AI 代理（Agent），能像我们一样，直接操作电脑和网页。

如果说过去的 AI 助手只是我们的“耳朵”和“嘴巴”，那么 Operator 则更进一步，成为了我们的“眼睛”和“双手”。它是一款真正能够“动手”的智能代理。

你可以直接告诉 Operator：“帮我在某网站订一份外卖，老地方，老口味。”它就能自动打开网页，找到你常用的地址和菜品，完成下单支付，全程无需你动手。除了订餐，还能帮你网上购物、填写各种繁琐的表格、预订酒店机票，甚至还能根据你的描述创作有趣的表情包。

Operator 的应用场景几乎涵盖了所有需要与网页打交道的日常任务。

那么，Operator 是如何做到这一切的呢？

简单来说，它依靠能“看见”网页内容的“眼睛”，和一双能“操作”鼠标键盘的“手”。“眼睛”基于 GPT-4o 的图像识别能力，可以截取网页的屏幕图像，并准确识别出其中的文字、按钮、菜单等各种元素，就像我们用眼睛看网页一样。

而它的“双手”则基于一种名为“Computer-Using Agent”（CUA）的新模型。这个模型经过了大量的训练，让 Operator 能够模拟鼠标的点击、滚动以及键盘的输入等操作，与我们在电脑上的操作别无二致。

更为重要的是，CUA 模型赋予了 Operator 强大的推理能力。如果遇到问题或犯了错，Operator 能够进行“反思”并自我纠正，而不仅仅是死板地执行程序。而若 Operator 遇到了实在无法解决的难题，它会把控制权交还给人，这种机制叫做“接管模式”，特别是当某些网站需要输入密码等个人敏感信息时。

Operator的主界面

为了让 Operator 更好地服务用户，OpenAI 已经与多家知名企业建立了合作关系，涵盖了餐饮、购物、旅游、出行等多个与我们生活息息相关的领域，包括外卖平台 DoorDash、线上购物平台 Instacart、餐厅预订平台 OpenTable、在线旅游平台 Priceline、票务交易平台 StubHub、本地服务平台 Thumbtack 以及出行巨头优步（Uber）等等。以 Instacart 为例，通过 Operator，用户只需一句话，就能轻松完成日常杂货的采购，极大地提升了购物的便捷性。

除了商业领域的应用，Operator 在公共服务领域也展现出了巨大的潜力。例如，OpenAI 正在与美国加利福尼亚州的斯托克顿市合作，探索利用 Operator 简化公共服务流程，方便市民更快捷地注册并参与到城市服务和项目中来。

从“研究预览”到全面普及

值得注意的是，Operator 仍处于“研究预览”阶段，这意味着它还不够成熟。OpenAI 将继续提升 Operator 处理更长时间、更复杂工作流程的能力，让它的能力更加强大。

目前，Operator 只面向美国的 ChatGPT Pro 付费订阅用户开放，每个月的费用为 200 美元。等到 Operator 的安全性和易用性得到充分验证后，OpenAI 会将 Operator 逐步扩展到 Plus、Team 和 Enterprise 等更多用户群体，并最终将其集成到 ChatGPT 中。这样一来，用户就可以在 ChatGPT 中无缝地执行实时和异步任务，获得更加流畅、高效的体验。

OpenAI 计划很快在 API 中开放为 Operator 提供支持的 CUA 模型，广大的开发者们就可以基于 CUA 模型构建属于自己的、各具特色的计算机使用代理。

事实上，除了 OpenAI，许多科技巨头都在布局 AI 代理领域。

微软、Salesforce、Workday 等商业软件公司已经发布了各自的 AI 代理版本，这些代理可以帮助用户总结报告、联系潜在客户等。谷歌和 AI 初创公司 Anthropic 最近也推出了类似的 AI 代理产品，它们同样可以浏览网页并与菜单和按钮进行交互。

Operator 的发布，也让 AI 代理领域的竞争变得更加激烈。

挑战与思考

当然，正如任何一项新技术一样，AI 代理的发展也面临着诸多挑战。

首先，在技术层面，目前的 AI 代理在处理复杂界面时仍然存在一些问题，例如创建幻灯片或管理日历等操作。

其次，由于 AI 代理能够访问用户的敏感信息，并代表用户执行各种操作，因此如何确保其安全性，防止数据泄露或被恶意利用，是一个至关重要的问题。

一些网站可能会专门针对 AI 代理设计陷阱，诱使其泄露用户的信息。而一些用户则可能试图诱导或欺骗 AI 代理，还有一类被称作“提示注入”（Prompt Injection）的攻击，会诱导用户将敏感信息或资金发送给恶意的网站或个人。

最后，如何确保用户始终拥有对 AI 代理的控制权，也是一个需要思考的问题。

在安全性和隐私保护方面，OpenAI 主要构建了三层防护机制来防止滥用并确保用户控制权。

1.用户掌控与关键点介入

当需要在浏览器中输入登录凭据或支付信息等敏感信息时，Operator 会要求用户接管，且在此模式下不会收集用户输入或截屏。

在执行提交订单或发送电子邮件等重要操作之前，Operator 会征求用户批准。

Operator 会拒绝执行银行交易或需要做出高风险决策（如决定工作申请）等敏感任务。

在访问电子邮件或金融服务等特别敏感的网站时，Operator 需要用户密切监督其行为，以便用户可以直接发现任何潜在的错误。

2.数据隐私管理

在 ChatGPT 设置中关闭“为所有人改进模型”选项，意味着 Operator 中的数据也不会用于训练 OpenAI 的模型。

用户可以在 Operator 设置的隐私部分一键删除所有浏览数据并注销所有网站，也可以一键删除过去的对话记录。

3.对抗性网站防御

Operator 能够检测并忽略“提示注入”。

一个专门的“监控模型”会监视可疑行为，并在发现异常时暂停任务。

自动化和人工审查流程会持续识别新的威胁并快速更新安全措施。

结语：

无论如何，Operator 等代理的出现，让我们看到了一个更加智能、便捷的未来。AI 不再仅仅是被动地执行指令，而是能够主动地理解我们的需求，并像真人一样操作电脑，帮助我们完成各种任务。

正如 OpenAI 所说，Operator 正在开启人机交互的新篇章。并表示，Operator 的设计理念是“以用户为中心”，用户始终是最终的决策者。Operator 只是一个助手，而不是一个替代者。

END

参考：

https://openai.com/index/introducing-operator/

本文链接：https://anhuibaike.vip/chatgpt_1061.html

智能代理 ChatGPT 动手新时代

OpenAI推出智能代理Operator，ChatGPT迈入‘动手’新时代

相关文章

ChatGPT的API和官网，到底有啥不一样？

手机上装个ChatGPT，真没你想的那么简单

ChatGPT手机版到底好不好用？实测告诉你答案

别找了！这才是ChatGPT官方应用的真相

ChatGPT字数限制突破技巧，如何让长文对话更流畅？

微信也能玩转ChatGPT？这些机器人真的靠谱吗

ChatGPT账号为啥这么难搞？手把手教你避开代注册的那些坑

ChatGPT查重率靠谱吗？这3个真相学生党必须知道

网友评论