1233资讯网

2025-06-08 14:43:15

自媒体工作者必备:利用行业热词批量提取小红书涨粉数据的全自动RPA工作流，并结合扣子(Coze)无缝导入飞书在线文档进行存储与分析

大家好！我是舰长🙏. 最近在舰长扣子Coze交流群中最新组织了一次快闪活动，邀请了影刀RPA晴岚老师，技术讲解如何搭建《通过关键词批量抓取小红书涨粉吸睛情报》的影刀RPA工作流.效果十分不错，这不舰长将RPA和Coze进行了一次结合，并撰写了这篇文章。　

咱们今天就来讲讲《通过行业热词,批量抓取小红书涨粉吸睛数据的RPA结合扣子全自动导入飞书在线文档》那咱话不多说，来我们直接看效果：　

整个流程消耗时间非常的可观，2分钟之内就完成全流程跑动。小红书内容都被抓取到飞书表格中了。　

那来看一下整个流程运行概括：　

本次流程可以分为两个板块：（影刀RPA获取内容以及Coze工作流进行内容提取的处理）　

Coze工作流搭建流程：　

1.借助文件处理插件读取Excel表格中的数据　

2.再用代码转换输出格式（为了循环批量处理使用，用超简单代码来处理输出）　

3.循环节点是重点：内置小红书内容提取插件→视频内容分析插件→飞书表格插件　

开始节点：　

设置一个变量名后修改变量类型为“File-Default”　

插件：读取Excel表格内容　

引用开始节点的变量“shuru”　

代码节点：　

输入需要引用前置插件节点的输出　

输出：变量名设置为“result”变量类型选择“Array”（一定！）　

import re  # 导入正则表达式模块

async def main(args: Args) -> Output:
    # 提取输入参数
    input_string = args.params.get(input, )  # 从 input 键获取用户输入，默认为空字符串
    
    # 定义一个用于匹配URL的正则表达式模式
    url_pattern = rhttps?://[^s]+

    # 使用正则表达式查找所有匹配的URL，保持原始大小写
    http_or_https_links = [
        match.group(0) for match in re.finditer(url_pattern, input_string)
    ]

    # 构建输出字典
    output = {
        "result": http_or_https_links  # 返回原始大小写的HTTP或HTTPS链接列表
    }

    return output

超简单的代码块复制粘贴即可　

循环节点的外部设置：　

选择使用数组循环，设置循环数组引用代码节点的输出即可，中间变量和输出需要把参数变量全部删除　

循环节点的内部设置　

插件节点：提取小红书内容插件引用循环的item（in input）　

选择器：目的是判读提取的的内容是视频还是图文类小红书作品　

只需要判断输出中“video”是否是空值；这个值就是视频的下载链接。当图文类作品是“video”是空值，所以这里我们只需要判断“video”是否为空值即可。　

空值走上面支线，也就是图文存储支线；不是控制走下面支线，也就是提取视频内容。

图文类分支流程搭建：

文本处理节点(图中名字为图文类)：这里是为了修改存储表格字段而准备的　

Srting1：这个是分类，手动填写一个图文即可　

Srting2：这个是作品URL，引用循环的item（in input）　

Srting3：作品的内容，引用前面小红书内容提取插件的“content”　

Srting4：图片的下载链接,引用前面小红书插件的输出“bannerList”　

字符串拼接内容：　

[["{{String1}}", "{{String2}}",  "{{String3}}", "{{String4}}"]]

插件：飞书表格插件（插件商店直接搜索即可，选择添加多行到表的最后）　

表格需要提取去飞书上创建好，并复制URL链接粘贴到对应的参数后面　

回到视频类分支；视频类分支多一个插件目的就是将视频的文案提取的插件　

输入：URL参数进行引用，引用小红书提取插件的“video”　

文本处理节点：舰长这里修改了名字为视频类　

Srting1：这个是作品URL，引用循环的item（in input）　

Srting2：作品的视频下载链接，这里引用小红书提取插件的“video”　

Srting3：作品的内容，引用前面小红书内容提取插件的“content”　

Srting4：视频的文案，引用前面视频文案提取插件的“content”　

Srting5：这个是分类，手动填写一个视频即可　

字符串拼接：　

[["{{String5}}", "{{String1}}", "{{String2}}",  "{{String3}}", "{{String4}}"]]

飞书表格插件　

引用一下视频类文本处理的输出即可　

循环的连线：　

结束节点（循环节点没有输入，内容和处理都已经到飞书表格中，所以不需要再设置什么内容）　

舰长这里使用文本返回，并将表格的URL粘贴，目的是提醒自己　

到这里工作流的搭建已经完成，试运行发布即可　

创建一个智能体并添加工作流，发布看个人情况就可以　

影刀RPA流程:　

1.打卡网页　

2.清楚数据表格　

3.使用For循环　

-批量抓取数据　

-鼠标滚动网页　

-等待2秒　

4.数据表格导出　

5.打开coze智能体的网页　

6.上传文件　

看似流程颇多，但是非常简单不需要去修改或记录一些内容，只需要和搭建Coze一样拖拽即可。未使用过的可以需要时间久一点。

另外，实操搭建前需要准备好好影刀RPA软件

可以先去官网下载电脑对应版本的影刀RPA（免费的）：https://www.yingdao.com/client-download/

下载完，根据操作说明安装对应的浏览器插件，推荐安装在谷歌或者edge浏览器，不要用360

插件操作文档：https://www.yingdao.com/yddoc/rpa/710819897938788352?

新建一个应用　

1.找到获取已打开网页，并添加到中间栏中　

设置内容，由于舰长插件是放在自带的Microsoft Edge浏览器，所以选择这个浏览器各位自行选择就行。再修改一下指令输出的名字，方便后续查找(小红书网页)　

2.清空数据表格：　

流程不是运行一次所以放置出错，将下面的数据表格（不是Excel）清空（只需要拖拽不需要设置）　

3.For次数循环：按图中进行设置　

批量数据抓取：下面将使用视频操作介绍　

鼠标滚动网页：　

等待　

4.数据表格导出到桌面　

5.打开Coze网页　

Coze网址就是文章上面的智能体搭建后编排页面上面的地址

6.上传文件　

需要捕捉元素，同视频操作一致：捕捉搭建好的智能体的编排页面的“+”　

本次搭建注意点：　

1.使用前需要将前一次使用的表格进行改名或者删除　

2.先去小红书网页设置好需要抓取的内容　

3.第一次使用智能体先自行跑一遍，需要授权飞书　

4.代码不难，但是要注意输入和输出，务必和舰长的保持一致　

5.表格抓取如果是空的，是因为小红书中的内容带有插件不能反应的内容，解决办法需要将内容是输入给删除/或者使用模型转换输出/用代码进行内容清洗（去除不能识别的内容）。