刚刚刚刚，OpenAI宣布首个AI智能体！主动帮您订餐购物，直播翻车，使用前须要晓得这些

2025-01-24 08:33 499评论

明天清晨，OpenAI CEO Sam Altman 发布了两个重磅新闻。一个是 ChatGPT 用户不只将取得 o3-mini 的收费试用机遇，Plus 付费订阅会员还将享有更多应用额度。另一个则是备受等待的首个智能体产物——Operator 研讨预览版正式表态。好新闻是，它能帮你主动网购了，但坏新闻是，它可能比拟轻易「翻车」。OpenAI 总裁 Greg Brockman 在 X 平台发文称：「Operator–一种可能应用本人的阅读器为你履行义务的智能体。2025 年将是智能体之年。」OpenAI 让 AI 学会「用电脑」了？这是迈向 AGI 的第一步作为 OpenAI 首款真正模仿人类操纵网页阅读器的 AI 助手，Operator 可能主动实现预订游览留宿、餐厅预定跟在线购物等庞杂义务。用户能够在多个种别当选择差别的主动化义务，涵盖购物、配送、餐饮跟游览等范畴。这项功效将率先向订阅 200 美元 Pro 打算的美国用户开放，随后逐渐扩大至 Plus、Team 跟 Enterprise 级别用户。API 估计将在数周内推出。用户可经由过程 operator.chatgpt.com 拜访该效劳，OpenAI 打算后续将其整合到 ChatGPT，不外，ChatGPT 在明天清晨又双叒叕崩了。简略来说，当用户启用 Operator 时，体系会弹出一个小窗口，展现公用 Web 阅读器的操纵界面，并及时阐明正在履行的义务。在此时期，容许用户随时接收把持。技巧层面，Operator 采取近程云端阅读器履行义务，无需依附网站 API。它经由过程截图辨认界面元素，计划后续举措，构成「察看-打算-履行」的闭环，直至实现义务。体系支撑多义务并行处置，运转效力高，且能坚持登录状况。OpenAI 已与 DoorDash、Instacart、Priceline、StubHub 跟 Uber 等公司树立配合。Instacart 首席产物官 Daniel Danker 就指出「OpenAI 的 Operator 是一项技巧冲破，它使订购杂货等流程变得异样简略。」依照通例，OpenAI 也同期召开了一场宣布会。Sam Altman 与 Yash Kumar、Casey Chu 跟 Reiichiro Nakano 一同先容跟演示 Operator。演示涵盖了多个现实利用场景，比方经由过程 OpenTable 为 Beretta 餐厅预订双人座位，原定 7 点档位弗成用后改订 7:45。应用 Instacart 购物体系辨认购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片，并半途接收增加更多鸡蛋等商品。在 StubHub 上试图搜寻并选购估算 500 美元以下的壮士队竞赛门票；预定干净效劳；以及打算经由过程 DoorDash 点餐，订购烧烤披萨等。幻想很美妙，事实很骨感，Operator 现在最年夜的成绩仍是不敷稳固。刚开端演示时还算顺遂，但中前期的演示进程中遭受连环「翻车」，乃至未能胜利加载相干网页。或者是为了确保演示胜利，眼瞅着演示职员输入的提醒词是越来越长。X 平台年夜 V @rowancheung 也提前休会并分享了对 Operator 的察看。比喻说 Operator 固然在 ChatGPT 中运转，但功效完整差别，重要专一于网页操纵（点击、转动、输入）而非天生长文本。现在体系仍存在限度，包含局部网站会屏障 AI 拜访，配合搭档集成无限。他指出 Operator 须要特定的应用方式来优化后果，就像 GPT-4 合适 CoT 提醒一样，但现在对 Operator 的最佳应用方法研讨还很开端。不外，他仍是挺看好这项技巧能辅助人们主动化处置单调任务，从而将时光用于更有代价的事件。此前有新闻称，Operator 在履行义务时应用的截图内容可能被歹意应用，招致「提醒注入攻打」，存在重大的保险隐患。因而，确保 Operator 的保险应用是重要义务。依据官方博客，OpenAI 重要是经由过程多层维护办法避免滥用并确保用户紧紧把持 Operator。接收形式：Operator 在阅读器中输入敏感信息（比方登录把柄或付出信息）时请求用户接收。在接收形式下，经营商不会网络或截图用户输入的信息。用户确认：在实现任何严重操纵（比方提交订单或发送电子邮件）之前，Operator 应恳求同意。义务限度：Operator 经由培训能够谢绝某些敏感义务，比方银行买卖或须要高危险决议的义务，比方对任务请求做出决议。监督形式：在特殊敏感的网站上，比方电子邮件或金融效劳，Operator 须要对其行动停止亲密监视，以便用户可能直接发明任何潜伏的过错。别的，OpenAI 针对 Operator 实行了片面的隐衷跟保险维护办法。在隐衷治理方面，用户能够抉择退出模子练习，一键删除阅读数据跟汗青对话，并登记全部网站。为防备歹意网站的攻打，体系树立了多层防备机制，包含检测并疏忽提醒注入、监控可疑行动跟树立要挟辨认管道。同时，Operator 设有考核体系来谢绝无害恳求跟不当内容，对违规行动收回忠告或打消拜访权限。「休会讲演」颁布，Operator 背地的 CUA 技巧有多强？Computer-Using Agent (CUA)是支持 Operator 的中心技巧，它融会了 GPT-4o 的视觉辨认才能跟基于强化进修的高等推理功效。CUA 经由过程练习控制了与图形用户界面（GUI）交互的才能，能像人类一样操纵屏幕上的按钮、菜单跟文本框，无需依附特定的操纵体系或收集 API。据悉，其翻新之处在于采取通用界面方式，让 AI 能像人类般操纵各种软件东西，冲破了传统 AI 难以应答的浩繁细分利用场景。不外 OpenAI 坦言 CUA 另有很多须要改良的处所，比方现在就没法保障在全部场景下都能稳固运转。OpenAI 在 Operator 中安排的 CUA 体系展现了差别场景下的机能表示。比方它在基本网页操纵跟反复性义务方面表示杰出，如搜寻挑选、创立购物清单跟音乐播放列表等义务的胜利率到达 10/10。在电商网站搜寻商品时也坚持 9/10 的高胜利率。但在处置庞杂的房产搜寻等义务时，胜利率降至 3/10。测试还发明提醒词的品质会明显影响义务胜利率，比方园地预订义务中，增加详细时光跟操纵指引后，胜利率从 3/10 晋升至 8/10。体系在处置不熟习的 UI 界面跟文本编纂时表示欠佳，常呈现试错跟低效操纵，文本编纂义务的胜利率仅为 4/10。为了更好地量化 Operator 的机能指标，宣布会上的演示职员也提到了 OS World 测试跟 Web Arena 测试。OS World 用于评价 AI 智能体在 Linux 等操纵体系上的导航才能， Operator 得分 38.1%，高于其余公然体系但低于人类程度(72.4%)。Web Arena 则是测试评价 AI 智能体在电商网站跟交际论坛等网站的导航才能， Operator 得分 58.1%，同样超越其余公然 AI 体系但未达人类程度。保险方面，演示环节先容了三个重要的保险斟酌偏向。起首是体系谢绝履行无害义务，应用考核模子跟后续检测，并屏障特定网站。其次对模子可能存在的过错，体系在停止购置、预订等要害操纵前必需取得用户确认，限度高危险义务如银行买卖，并在敏感网站启用察看形式。特殊是针对网站抗衡性攻打（如提醒注入、逃狱跟垂纶），体系计划了谨严导航机制辨认并疏忽提醒注入，及时监控模子检测可疑内容，并树立检测管道疾速辨认可疑拜访形式。最后体系设有注入监控器(prompt injection monitor)，相似防病毒软件，及时监控模子检测可疑内容，发明可疑行动时会停息履行。斟酌到无奈预感全部保险隐患，OpenAI 只能先从小范围安排开端，经由过程连续网络反应来完美保险机制。ChatGPT 的突起曾经证实，巨大的产物每每出生于有数次「不完善」的实验。OpenAI 也安然否认现在由 CUA 支撑的 Operator 只是一项晚期技巧，固然在特定场景已证实有效，但仍需经由过程用户反应连续改良。而且，他们打算进步体系在不熟习界面的顺应才能，加强文本编纂准确度，优化对差别提醒词的懂得才能，并扩大牢靠义务的范畴。Altman 曾在月初的博客文章中表现，OpenAI 曾经有信念构建通用人工智能（AGI），并猜测 2025 年第一批 AI 智能体将「参加休息力雄师」。包含智谱昨天也发布推出了 GLM-PC。这是基于智谱多模态年夜模子 CogAgent，寰球首个面向大众、回车即用的电脑智能体（agent）。它能像人类一样「察看」跟「操纵」盘算机，帮助用户高效实现各种电脑义务。可预感的是，这些智能体在将来将具有强盛的自立决议跟义务履行才能，可能处置庞杂义务，乃至在某些范畴替换人类任务，并从基本上转变企业的出产方法跟产出。在 OpenAI 的五级 AGI 道路图中，智能体恰是处于 L3 级别，其特色是不只能思考，还能代表用户采用举动，履行庞杂义务。如许看来， Operator 不只是 OpenAI 智能体迈出的第一步，也将是迈向 AGI 的主要一步。

请尊重我们的辛苦付出，未经允许，请不要转载PG电子麻将胡了_PG电子娱乐的文章！

PG电子麻将胡了_PG电子娱乐

相关文章