OpenAI「视觉解析」翻车现场:我的工位照被AI扒出多少隐藏细节?

知道大模型接下来要卷视觉推理,但没想到这么卷——数学试卷都快要不够用了。


常看推理小说的朋友们都知道:推理也分不同的类型,有专注于逻辑的,也有演绎类的。


既然 GPT 都更新到 o3了,还加入了图片推理,那就都-得-有。


逻辑推理,但视觉版


视觉推理并不新鲜,各家都在做。这讲究得不仅仅是从图片中识别元素,还得理解这些元素,并且进一步沿用到与用户的交互、解决工作任务中。


在 o3 之前,Gemini 2.5 在视觉推理上有非常惊人的表现,我们之前也有过测评,速测了一下 o3 的识图能力。


不过凌晨刚发布的时候,o3 可能没睡醒,一个简单的武康大楼认不出来。等到下午再测,「智力」就恢复了。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


同时还引用了外链,保证了核查环节。这种识图能力还是很实用的,比如我们做了两个验证码识别。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


之前爆火的 Manus 以及同类型的通用型 Agent 产品,可以实现自主通过验证码,现在这是一个应用潜力比较大的能力。


不过,在大模型流行之前,传统搜索引擎也可以完成识图的工作。验证码、识图这种小 case,不太能准确反应 o3 的能力。


于是我们找了真-图形推理题:2021 年国家公务员考试模拟考题。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


建议想考公的朋友们,都别直接滑下去,先自己做一做。这样的图形题,考察的是归纳推理的能力,即根据已有的内容推断出下一步。


果然真题就是不一样,o3 的推理超过了六分钟,思维链长达 5 千字,不仅有图片推理,还结合了代码帮助它自己理解。



然后水灵灵地答错了——正确答案是 D,每个图形都有且只有一个封闭区域,故选 D。o3 想了一大堆,最终错选了 C


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


虽然题目答错了,不过能看出来 o3 的确如所承诺的那样,推理是基于图片素材进行的。


这种归纳推理的方式,有什么实用价值吗?——可大了,这下可以用 AI 对狙 AI。


这一阵在小红书上流行的「极其平庸的 AI 图」挑战,里面都是晃动的镜头、模糊的焦点,「仿佛从口袋中掏出手机时意外按下快门拍下的」。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


老实说就上面这些个图,也太难以怀疑了。AI 检测 AI 生成文本很常见了,现在也可以让它检测 AI 图片。


o3 说,它懂 GAN 生成对抗网络,它还懂分析 EXIF,它可以来总结归纳 AI 图片的特点。



有几分道理。可以看到它的推理分析方式是转换成代码语言——在面对纯逻辑推理的时候,几乎都会转换成代码语言。比如下面这个迷宫解题:


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


在这个迷宫问题中,o3 考虑使用 PIL、numpy 和 skimage 来进行形态学处理,并且编写了 python 来解决。


基本上,这等于是在 ChatGPT 的对话窗口里调用不同的工具来辅助。



迷宫对 o3 的挑战非常大,推理时间去到了 2 分钟,效果也比较一般:最后试图生成的路径解法,但是一条无法点击的空连接。


再给其它的迷宫题,o3 同样转化成代码语言来理解。不过,这题它也没有解出来,而且直接弃赛了。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


总结一下:在归纳推理方面,o3 通过识别视觉元素、总结图片特点,并且调用外部工具,进行比对识图,这些能力都覆盖了。


准确率和响应都有待提升,尤其是推理时间久、思维链条长,最后还是错误答案的话,换哪个用户都要不开心的。


基本演绎法,但 AI 版


除了归纳型推理,还有演绎推理。这需要 AI 综合上述所有的能力,并且有一点「发散思维」。


这是相当让人兴奋的部分,我们设计了一套「看工位,猜 MBTI」的挑战活动,交给 o3。


结果相当有意思,虽然到底是 I 人还是 P 人,工位未必能完全体现出来——但这不就是 o3 要挑战的吗?


接下来奉上内容部门同事们的桌面,以及 o3 对他们的「判定」。


【P人主编】


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


主编的 P 属性非常明显,还非常 P 得非常稳定,桌面两年没有变化,这点 o3 都发现了:不太花时间收拾。


【J人社媒编辑】


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


社媒编辑的桌面由于过于系统、技术含量过高,触发了 o3 调用代码工具——好可怕的 J 人。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


【P人实习生】


实习生的桌面东西不多但信息量不少,尤其是显示屏上贴了一串小纸条,原以为是便利贴,结果全是奶茶标……


这触发了 o3 的「逐 part 分解」,每一个细节都放大来看。不过,这样的触发并不是每次都能出现,暂时还没有看到明确的触发方式。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


【P人硬件及影像编辑】


工位主人表示 o3 判错了,他明明是 P 人——只是没有反映在工位布置上。只能说 GPT 有时比人更了解人自己。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


【J人汽车编辑】


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


添加图片注释,不超过 140 字(可选)



OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


在 prompt 中,我们没有规定 o3 的返送方式,不过每次它都会拉成表格,结合 MBTI 的不同维度,分点给出线索和相对应的推理。


总结一下:演绎推理是 o3 颇为让人兴奋的地方。尤其是思维链打开,可以看到针对不同的案例,调用不同的工具和方式。


明显可以看到「agent」思维,直接应用在了 ChatGPT 当中。这是是本次大版本更新中,除了模型的基础能力之外,最让人兴奋的地方。


整体上是一个可玩性非常高的版本,尤其是图片推理的潜力,相当值得期待。但是用图片推理来搞赛博开盒什么的,完全不可以啊喂!



发表评论