面壁公司的CEO李大海:实现物理世界中的AGI必须依靠端侧智能技术 | 中国AIGC产业峰会纪要

未来物理世界要实现AGI,一定是通过端侧智能。


面壁智能CEO兼联合创始人李大海在第三届中国AIGC产业大会上分享了他们的经验认知。



作为当前端侧智能的领跑者,面壁智能在过去一段时间以来可谓是进展频频。


他们发布了端侧模型MiniCPM驱动的面壁小钢炮超级助手cpmGO,MiniCPM也逐步开拓了手机、具身智能、AIPC、智能可穿戴设备等几个主流落地方向。


未来他们的愿景是让每一个设备都具备智能。至于如何实现?李大海在会上分享了背后的方法论。


为了完整体现李大海的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。


中国AIGC产业峰会是由量子位主办的AI领域前沿峰会,20余位产业代表与会讨论。线下参会观众超千人,线上直播观众320万+,累计曝光2000万+。


话题要点


  • DeepSeek的成功,底层在于三个“密度”的极致:团队密度、组织密度、高资源密度。


  • 我们观察到大模型“知识密度”是智能的核心指标,而高知识密度模型在端上最有价值。


  • 大模型知识密度可以跟芯片制程做类比,我们知道芯片的制程,就是在每平方厘米下晶体管的数量,可反映出计算能力的强弱。


大模型知识密度越高,它的智能就越强


  • 未来物理世界实现AGI,一定是通过端侧智能。因为只有把大脑部署在设备的终端上,


把大脑部署在机器人的脑子里面,它才能够真的去做最灵敏的感知,去做最及时的决策,才能做出最完美的应对。


以下为李大海演讲全文


DeepSeek成功最底层因素是三个“密度”


朋友们,大家下午好。


我今天穿的T恤是我们公司面壁智能的文化衫,面壁这个名字就来源于《三体》,


我们公司的三体迷把公司企业文化都“三体化”了,我们员工手册的名字就叫“这是面壁计划的一部分”。


今天很高兴能够在这里跟大家汇报面壁过去一年多的工作,自从参与创立面壁,开始在大模型这个赛道里长跑,真的非常有意思。


因为才短短两年多,我们经历了许多的“非共识”,其中很多的“非共识”变成了共识,然后又涌现出更多的非共识。


整个公司的发展过程,我们不断地在更新自己的认知,进行迭代。两年的时间,像是过了十几年。


面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能


今年有一个绕不开的话题DeepSeek。DeepSeek的成功,有着天时地利人和的多重因素,


也有很多值得我们重点借鉴的先进经验,我们总结下来有三个方面的“高密度”:


第一,团队密度。能够在大模型领域突出重围的公司和组织,必须有足够高的人才密度,组建一支极客式的优秀团队,


聚焦在大模型的底层技术上,进行深入地钻研。


第二,组织密度。组织密度讲的是组织目标的一致性,我用另外一个词叫“组织熵”。


当一个组织里每个人的目标都不一样时,是熵最大的状态,那是最不理想的状态。最理想状态是上下一心,所有人目标一致,这样整个组织间协作非常高效。


这是“足够高的组织密度”。


第三,高资源密度。不仅要给创新留出充足的研发预算,并且要保障团队能够非常长时间地聚焦于技术的钻研,持续进行技术的积累。


维持三个密度都足够高,才有可能在大模型的底层技术上有所突破。


DeepSeek是在云侧,践行非常高效的大模型组织;而面壁在端侧,也在开展十分令人兴奋的高效故事。


我们对大模型“知识密度”的洞察


面壁团队是从2019年开始all in大模型,2022年8月份公司正式成立,


而后在2023年9月份就发布了第一个千亿级的GPT-3.5水平的模型,拿到了网信办第二批安全备案。


到了2023年年底的时候,看到大模型同质化越来越严重,我们开始思考面壁的核心竞争力是什么,差异点是什么。


面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能


因为从团队创立之初,高效就是我们骨子里的基因。早期还因为我们有很多大模型推理加速的工作一段时间被错归类为infra公司……


高效这件事,好像天然就是我们骨子里信奉的东西,也是更加比别人能做好的事情。


那么那段时间,我们做了“模型风洞”试验方面的创新性探索,发现我们的模型总是同等参数、性能更强。


大模型高效背后的核心指标,正是知识密度,并且我们把对大模型成长规律的观察总结为“密度定律”。


我们发现,大模型知识密度每3.3个月翻一番。


大模型知识密度可以跟芯片的制程做类比,我们知道芯片的制程,就是计算密度在每平方厘米下有多少个晶体电子管的数量,


它的电路有多少,可反映出就说明了它的计算能力的强弱有多少,这个密度越高,说明制程越高。而大模型的知识密度就越高,它的智能就越强。


当我们聚焦去做高知识密度模型,并且发现落在端侧具备格外的优势。


因为端侧的算力是有限的,内存也是有限的,功耗也是有限的,这三个限制条件下,天生是带着镣铐跳舞,知识密度高,效果才会好。


未来物理世界实现AGI,一定是通过端侧智能


过去一年我们发布了九个端侧模型,在今年1月份的时候发布了全球第一个端侧全模态的模型,大概是8B大小的模型,


这个模型能流畅运行在iPad上,可以实时流式的实时看,持续听,自然说,并且“看听说”的水平从多模态角度上达到了GPT-4o的水平,


虽然解决复杂的逻辑问题层面上,还是跟云端模型有区别,但是在多模态能力上已经非常强。


这里给大家播放一个视频,大家可以感受一下。



从这个简单的例子里面看到,全模态大模型可以同时接收语音跟视觉的信号,基于语音跟视觉去感知周围的环境,同时以声音或者文字输出自己的答案。


而将这样的全模态大模型部署在汽车、机器人等这样的设备上,就可以让汽车、机器人这样的设备成为一个能够同时去看、听、说的设备。


基于我们模型的工作,在今年3月份的时候,发布了纯端侧模型驱动的面壁小钢炮超级助手产品,首先在汽车上落地。


汽车是我们端侧模型落地的理想场景,因为汽车作为超级终端“智能体”来说是一种成熟的“具身智能”,我们认为在汽车上有非常好的发展空间。


面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能


面壁小钢炮超级助手可以在车上提供目前两种特别重要的能力。


第一个是端上不依赖网络的全天候指令助手,用户在车上所有的指令,都可以在端侧智能上做到及时响应。


第二是通过舱内舱外的摄像头、麦克风去感觉舱外环境和舱内车乘人员的指令和状态,根据这个感知去主动关怀他们。


这是一个感知、决策、执行三位一体的模型。几年以前智能驾驶就在提这个概念,端到端的模型给行业带来一些新的可能性。


通过摄像头感知舱外舱内的环境,在端侧有什么特别优势呢?


首先,汽车作为一个移动客厅,网络情况是不可能100%稳定可靠的。端侧方案可以不受网络的限制,随时随地做到感知。


第二,如果在云端,完成舱内舱外视觉信息视频流的感知回传,可能推理的成本不算高,但是高清视频流实时传输的带宽成本很高,


其次背后也有大量的隐私信息,因此不仅成本高,还有很多隐私暴露的风险。我们纯端侧能够在隐私和成本上有很好的优势。



这个视频可以看到,纯端侧的面壁小钢炮可以陪大家走遍天涯海角,因为它不受网络的束缚,它是全天候的。



这个是我们从执行层面上的GUI Agent产品。


我们既然已经有了端侧模型,我们就可以通过端侧去感知到屏幕上发生的行为,就能够帮助用户完成这些任务,


完成这些任务的基础是像用户一样理解这些屏幕,通过这些方式本质上就能够像人一样,所以能够有很强的泛化性。


同时因为是在端侧,所以用户屏幕上的信息是不会被上传到云端,隐私绝对有保证。


我也想借这个时间跟大家同步一下我们的认知。


为什么面壁过了两年,一直现在云端发展依然如火如荼的情况下,我们仍然非常聚焦于地做端侧。因为端侧是我们的信仰,我们相信未来端侧是有非常广阔的天地。


同时我们也相信未来在物理世界要去实现AGI,一定要通过端侧智能。


因为只有把大脑部署在设备的终端上,把大脑部署在机器人的指挥中枢,


它才能够有最灵敏的感知,去做最及时的决策,才能做出最完美的应对,这是一个非常基础的事情。


目前我们的端侧模型,已经在汽车、部分机器人的场景、手机,还有一些新的智能终端,比如说离线的翻译机等设备上落地。


我们的愿景是要让每一个设备都具备智能。


好的,我的分享就到这里,谢谢大家!



发表评论