在科技界的聚光灯下,OpenAI 再次展现了其创新的无限动力。继3月底GPT-4o凭借原生图像生成功能惊艳全球后,仅仅相隔两周,北京时间4月15日凌晨,OpenAI宣布推出GPT-4.1系列模型,这一新系列迅速接替了原先的GPT-4模型,成为市场的新宠
而故事的精彩远未止步,4月17日凌晨,OpenAI如约而至,带来了两款全新的o系列推理模型——o3与o4-mini,这两款模型接替了之前的o1和o3-mini。o3与o4-mini不仅推理能力显著增强,更是首次实现了将图像直接融入“思考流程”的突破。尤为重要的是,它们能够独立使用ChatGPT的所有工具,这一特性让OpenAI官方自豪地宣称,这两款模型是“迄今为止最智能的模型,标志着ChatGPT能力的一次重大飞跃”
然而,在赞扬声此起彼伏的同时,也有一丝疑惑萦绕心头。早在今年2月,OpenAI的CEO山姆·奥尔特曼(Sam Altman)就在X平台上公开分享了内部的模型发展蓝图,透露GPT-4.5(Orion)将是OpenAI的最后一个非推理(思维链)模型,并预告GPT-5将融合GPT系列与o系列的优势,同时明确表示“不再将o3作为独立模型推出”
但现实似乎与奥尔特曼的承诺有所出入。OpenAI不仅发布了新的GPT-4.1系列非推理模型,还独立推出了o3推理模型。这不禁让人好奇,传说中的GPT-5,是否真能在今年夏天如期面世?
面对OpenAI这波模型发布潮,尤其是o3的登场,外界的反应褒贬不一。许多用户和开发者认为,OpenAI的模型阵容愈发庞大,让人在选择时感到困惑。不过,OpenAI也采取了一定的措施来缓解这一状况,随着GPT-4.1系列的推出,公司预告将在4月30日全面下线ChatGPT中的GPT-4模型,并在API中弃用GPT-4.5预览版
作为通用基座模型,GPT-4.1系列分为旗舰版、mini版和nano版,支持高达百万级的tokens上下文,在性能、成本和速度上全面超越了当前的GPT-4o系列模型。尽管目前仅面向开发者开放API,但GPT-4.1系列无疑代表了OpenAI的当前实力
相比之下,o3和o4-mini则可能预示着OpenAI的未来。作为OpenAI在推理模型技术领域的最新探索,o3和o4-mini首次在推理链中融入了图像理解能力。这意味着,它们不仅能识别信息,还能将视觉输入纳入思维过程,形成完整的逻辑链条。与GPT-4o这类多模态模型不同,o3和o4-mini的图像处理能力旨在解决问题,是推理过程的关键一环
在实际测试中,o3的表现令人印象深刻。它不仅在推理过程中展现出严谨和流畅的思考,还能在伦理推理题中准确抓住关键信息,推导出合理的解释。o3还能将视觉能力纳入思维链中,通过分析图像来规划空间动线或诊断问题。这种“图像作为推理变量”的设计,是过去o系列推理模型所不具备的
在另一项测试中,o3被要求分析一段关于短视频优化的后台数据,并结合视频分镜提出优化策略。它不仅覆盖了核心策略,还匹配了具体的视觉节奏建议,展现出了类似“专业创作者助手”的能力
通过这些测试,o3证明了其强大的推理能力、视觉理解能力以及工具调用能力。它不仅能够理解任务,还能在执行过程中主动思考、搜索、调用工具和总结。这种“主动思维+执行链条”的模式,正是当前大模型演进的重要方向
好文章,需要你的鼓励