在参加 COZE 开发者日后,我意识到 AI 工作流平台正逐渐成为下一代应用商店的新标准模式
PC 时代:Windows
"1985 年,Windows 1.0 的发布开创了个人计算的新纪元。
它解决了一个根本性问题:让普通人能够轻松使用计算机。
统一的图形界面、直观的操作方式、标准化的开发环境,
Windows 构建了第一个真正意义上的软件生态系统。
然而,这是一个相对封闭和单一的世界。
软件需要安装,更新要手动,使用场景局限于办公桌前。
它就像一座固定的城堡,坚固但缺乏灵活性。
移动时代:App Store
"2008 年,当乔布斯发布 App Store 时,你是否意识到这是一场革命?
还记得第一次用手机下载应用的感觉吗?
一键安装,即点即用。App Store 让软件走出城堡,变成了口袋里的百宝箱。
朋友圈、外卖、打车、支付...每个 App 都是一个精致的工具。
但是,你是否也经常为手机里塞满了各种 App 而困扰?
为什么要在不同 App 之间来回切换?
为什么它们不能像我们的大脑一样,自然地协同工作?"
近日,我参加了火山引擎 Force 冬季大会
在 COZE 1.5 的演讲,
我看到 AI 时代 AI 应用平台,
下一代 APP Store 新范式。
COZE AI 应用开发平台:
字节对扣子的描述是:新一代 AI 应用开发平台
但我觉得,字节的野心不止是应用开发平台,
因为,我倔强认为,
未来,人人都是 AI 创作者,
亦是 AI 的协作者。
包括,演讲者开篇举例几岁开始用
COZE 实现了自己的 AI 应用的封装。
所以,就有以下更新。
COZE 重点更新:
Project IDE 简介
扣子上现在可以开发和发布拥有完整前后端的 AI 应用,本期支持发布为 API、扣子商店、模板,未来开发 API、Web SDK 可以期待更多发布渠道的上线。
讲人话:
未来你可以把你设计 AI 工作流封装到你的应用,包括硬件终端。
以一个具体场景展现:
我打开笔记本,登入扣子平台。她的眼前是一个干净的开发界面。
# 前端界面:一个简单的AI写作助手
@app.route(/)
def index():
return render_template(index.html)
# 后端逻辑:处理用户输入并调用AI
@app.route(/generate, methods=[POST])
def generate_text():
user_input = request.json[prompt]
response = ai.generate(user_input)
return jsonify({result: response})
完成后,她看着部署选项:
- "发布为 API" - 让其他开发者能够调用
- "发布到扣子商店" - 直接面向终端用户
- "存为模板" - 供其他开发者参考和复用
点击部署,几秒钟后系统提示:"部署成功!"
我打开扣子商店,自己的应用已经安静地躺在那里,等待被发现和使用。
未来,接口进一步开拓。
【重点】UI Builder
扣子开发工具中增加了 UI Builder,一口气更新了 17 个 UI 组件,终于不再只有一来一回的对话式交互了!可以期待一波移动端适配的组件!
- 各种图生图、图文创作、文件总结,不再需要多轮的对话式交互,可以通过上传框/输入框+展示区实现
- 可以通过导航条切换功能页面,而无需依赖于自然语言指令切换功能场景
- 开关、下拉菜单、数值输入框,更好地规范用户的输入,避免模型执行不稳定,一次多个输入可以由表单完成
- 由按钮等组件直接触发事件,精准调用工作流,不再依赖模型调用函数
- 无限画布,像用 figma 做设计一样搭建应用
比如:
讲人话:
就是我们设计的 AI 工作流产品可以更可视化,人性化了
【重点】一键发布到小程序
可直接搭建 H5/小程序类移动端页面,并直接托管发布到微信小程序和抖音小程序
- ~20 种 UI 组件
- 十几种移动 UI 模板
- 对话式 UI 和交互式 UI 均提供
更灵活可控的数据读写
扣子工作流中增加了知识库写入能力、SQL 查询数据库能力、知识库查询时的查询改写和结果重排开关。
这些场景可以更好地实现了:
- 制作一个 AI 笔记本,每次将碎片化的思考输入,后续可以用自然语言来搜索/整理
- 制作一个知识库文件上传的页面,A 部门和 B 部门可以分别上传文件到各自的知识库里
- 制作一个客服质检管理页面,当质检人员对 AI 回复感到满意时,可以将该问答对存入知识库以备后续调用
- 建立一个健身打卡的应用,可以根据用户的需求准确查询调取特定日期、类型的打卡记录
- 建立一个学习语言的应用,可以记录用户的错题并调取用来复习
多模态能力升级
最新多模态模型抢先体验
丰富的多模态模型,今天新发布的豆包·视觉理解模型、豆包文生图 2.1 和 豆包音乐模型,在扣子都能通过插件的方式第一时间体验到,期待接下来会有一大批有意思的多模态 AI 应用在扣子诞生!
生图模型:一键生成可直接使用的海报;实现表情包、桌面壁纸、手机壳自由
语音 OpenAPI :低延时、定制化、随时打断和音色克隆
优势点:
- 精准的识别:使用大模型的 ASR 进行语音转文本,具备上下文理解能力(比如上文出现过的名词能在识别中复用,说话风格和代称也有更好理解),并对噪声、垂直领域、中英混说等复杂场景识别效果提升
- 强大的 AI Agent 能力:扣子作为 AI Agent 搭建平台,包含了 Agent 各项能力,如记忆(文件盒子、数据库、变量)、知识(文本、表格、照片)、技能(插件、触发器)、编排(工作流、图像流)等
- 低延迟:使用了 RTC(Real-Time Communication)方案,把链路中的延迟充分降低
- 自然的语音效果:使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;同时对中英文混说也有很好的支持。
讲人话:
信息输入输出增加了图片信息和声音信息,
声音可以是你的克隆声音
这时候,各种老师,家长们有福了
端硬件
💡
一个场景:未来 2025 年深圳某智能硬件展区。
小王正在演示他们的新产品:一个小巧的办公桌面音箱,顶部有个呼吸灯在柔和地闪烁。
"看这里,"他指着音箱背面的接口,"Type-C 供电,3.5mm 音频输出,还有这个..."
他手指点了点一个带有特殊标识的端口:"扣子硬件认证接口。任何通过认证的 AI 模块都能即插即用。"
展台上,几个不同形状的 AI 模块整齐排列:
离线语音识别模块
实时翻译模块
本地大语言模型模块
"插上去就能用,"他拿起一个模块,"不需要联网,也不用担心数据安全。企业可以根据需求随时更换。"
旁边的显示屏正播放着演示:一位员工对着音箱说:"帮我总结下午会议的要点。"呼吸灯闪了闪,音箱开始用自然的语气复述会议内容。
"未来这个端口会成为标准配置,"小王说,"就像 USB 一样普及。"
他打开手机里的扣子硬件开发平台,上面显示着最新的模块认证指南。
AI 应用平台 = 下一代 App Store
PC 时代
平台,用户,交互端,交互方式,创造方式,分发模式
智能手机
平台,用户,交互端,交互方式,创造方式,分发模式
AI 时代
不是软件吞噬硬件,
也不是硬件吞噬软件,
是一个
从软硬协同到 AI 流程,
从编码到提示工程,
从下载到即时使用。
早上醒来,你说:帮我规划今天的行程。
这个简单的请求会触发什么?
过去:
你需要打开日历 App 查看安排
打开地图 App 查看路线
打开天气 App 查看预报
打开邮件 App 确认会议...
现在:
AI 助手直接整合所有信息
理解你的习惯和偏好
主动提供完整的建议
随时根据变化调整方案
也许有一天:
我们不再区分什么是应用,什么是平台
不再关心某个功能在哪里,
只需要表达我们想要什么,
然后看着它自然地实现,
"这个愿景可能看起来很理想化,
但技术的发展往往比我们想象的更快。
这是正在发生的改变。
发表评论