• 正文
  • 相关推荐
申请入驻 产业图谱

具身智能新起点:ChatGPT 5.4如何理解并操控物理世界?

4小时前
253
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

依托国内直访的AI聚合镜像站 RskAiwww.rsk.cn),国内用户现在可以零门槛、低延迟地驾驭深度推理与多模态能力极强的 ChatGPT 5.4

在过去的很长一段时间里,我们对大语言模型(LLM)的认知一直停留在“最强大脑”的层面——它博览群书、学富五车,但你让它去按个开关、点个鼠标,它只能一脸无辜地告诉你:“我只是一个语言模型。”

“知行合一”始终是AI发展的终极浪漫。如果将大模型的“大脑”连接到能够感知环境并执行的“身体”上,会发生什么?

2026年3月,OpenAI 扔下了一颗重磅炸弹:GPT-5.4​ 正式发布。它不仅是第一个将前沿推理、编码和智能体能力整合到单一模型中的“全能王”,更是 OpenAI 首个具备原生计算机使用能力(Computer Use)的通用模型

这不仅仅是一次版本迭代,这是 AI 从“对话者”向“执行者”跨越的具身智能(Embodied AI)新起点。今天,我们就来深度解密,GPT-5.4 究竟是如何理解屏幕里的数字世界,并伸出“无形的手”去操控它的?

一、 核心揭秘:GPT-5.4 的“眼手脑”协同回路

传统的软件自动化(如RPA)依赖于严格的底层API接口,一旦软件更新或界面微调,整个流程就会崩溃。而 GPT-5.4 走的是一条更像人类的路:像素级模拟操纵

它的工作原理可以拆解为三个惊艳的步骤:

“眼睛”看世界(视觉感知)

GPT-5.4 具备极强的视觉理解能力。它能够接收你的电脑屏幕截图,瞬间分析出界面布局、可点击的按钮位置、文本框坐标以及当前的操作状态。在 Online-Mind2Web 测试中,它仅凭观察截图就达到了惊人的 92.8% 任务成功率。

“大脑”做决策(逻辑推理)

结合截图信息和你的自然语言指令(例如:“帮我在淘宝买一本《百年孤独》”),GPT-5.4 会在后台进行任务拆解:打开浏览器 -> 输入网址 -> 搜索商品 -> 点击购买。它不仅知道下一步该干嘛,还能应对突发状况(比如弹窗广告),动态调整策略。

“双手”去执行(动作操控)

这是最关键的一步。GPT-5.4 不再是只动嘴的“军师”,它可以直接输出模拟的鼠标轨迹和键盘敲击指令。它会计算出“购买按钮”在屏幕上的具体坐标 (x,y),然后下达点击命令,完成跨应用的复杂工作流

通过这种“截图 -> 思考 -> 输出指令 -> 再截图验证”的闭环,GPT-5.4 成功在数字世界里具象化成了一个不知疲倦的数字打工人。

二、 实战演练:召唤你的“数字分身”

理论说得再多,不如看它到底能干啥。依托国内直访的AI聚合镜像站 RskAi,国内开发者现在可以零门槛、低延迟地调用这款具备“具身智能”潜力的前沿模型。

下面,我们通过几个场景,看看如何向 GPT-5.4 下达执行指令:

场景 1:跨软件数据“搬运工”

痛点:每天上班第一件事,就是打开 Salesforce 导出数据,再苦哈哈地粘贴到 Excel 里做透视表。

GPT-5.4 解法:你只需对它说:“帮我登录 Salesforce,导出昨天的销售数据,将其整理成 Excel 表格并计算总和,最后通过 Outlook 发邮件给我的上司。”

执行过程:GPT-5.4 会接管你的鼠标,自动打开浏览器,输入账号密码,精准点击导出按钮,随后打开 Excel 进行纯熟的公式计算,最后唤出发邮件窗口。整个过程一气呵成,而你只需要喝着咖啡看着它忙活。

场景 2:全自动网页旅行管家

痛点:周末想去看演唱会,但抢票网站卡顿且流程繁琐,稍不留神票就没了。

GPT-5.4 解法:输入指令:“监控周杰伦演唱会的票务网站,一旦出现余票,立刻帮我完成下单支付流程。”

执行过程:它会以极快的速度不断刷新页面(甚至能帮你破解简单的图形验证码),一旦发现目标,迅速填入你预设的个人信息和信用卡号,点击提交。在 OSWorld-Verified 基准测试中,它的成功率高达 75.0%,甚至超越了人类平均水平(72.4%)。

三、 深度思考:从“数字身体”到真正的“物理实体”

看到这里,你可能会问:“它能在我的电脑里点来点去,那它能控制真实世界的机器人吗?”

这是一个非常敏锐的好问题。目前 GPT-5.4 原生释放的“计算机操控能力”,其身体还局限于数字屏幕(像素)操作系统(鼠标/键盘)之间。它通过理解二维画面的像素变化来指导动作,这属于“数字具身”

但是,这项研究有着极其深远的物理世界延伸意义。

一旦我们将 GPT-5.4 的“视觉-动作”闭环架构,迁移到搭载了摄像头执行器(机械臂、滚轮)的物理机器人身上,它就能实现真正的物理操控。比如:

看到桌上的杯子倒了,它不仅能描述“杯子倒了”,还能输出指令让机械臂去扶起来。

在杂乱的仓库里,根据视觉反馈灵活调整抓取姿态,而不是死板地执行预设轨迹。

从“操控电脑”到“操控机器”,中间的桥梁就是多模态大模型对物理规律的深刻理解高频率的实时视觉反馈

四、 进阶指南:如何驯服这只“野生 AI”?

虽然 GPT-5.4 能力逆天,但要让它乖乖听话,还是需要一些“驯兽技巧”的。以下是由前沿开发者总结的宝贵避坑经验:

指令要像“产品经理”一样精确

虽然它很聪明,但对模糊指令的容错率依然有限。不要说“帮我整理下表格”,而要说“请将 A 列大于 100 的单元格标红,并在底部插入求和公式”。明确的边界条件能大幅降低它的试错成本。

给它一个“安全沙箱”

绝对不要在有重要数据的生产环境直接让 AI 操控电脑!它的一个误操作可能会导致文件被误删或重要邮件被错发。请在虚拟机或专门的测试电脑上跑它的自动化脚本。

利用 RskAi 降低试错门槛

在开发初期,你需要不断地调整提示词(Prompt)来优化它的点击逻辑。通过 RskAi​ 的国内高速专线调用 GPT-5.4,不仅能避免海外网络的延迟卡顿,其透明的 Token 消耗统计还能帮你精准控制实验成本。

五、 总结与展望

GPT-5.4 的发布,标志着 AI 终于跨越了“动口不动手”的门槛。它将推理、编码和原生的计算机操控缝合进了一个统一的架构中,让我们真切地看到了通用具身智能(General-purpose Embodied AI)的曙光。

也许在不久的将来,“具身智能”将不再局限于屏幕里的光标,而是真的会以机器人的形态,走进我们的车间、厨房和病房。

准备好给你的 AI 接上一双眼睛和一把手了吗?

立刻访问 RskAi,零门槛接入 GPT-5.4,亲手写下你的第一行“具身智能”操控指令吧!下一个改变世界的应用,也许就从你今天的尝试开始。

【本文完】

相关推荐