自媒体工作者必备:利用行业热词批量提取小红书涨粉数据的全自动RPA工作流,并结合扣子(Coze)无缝导入飞书在线文档进行存储与分析

 大家好!我是舰长🙏. 最近在舰长扣子Coze交流群中最新组织了一次快闪活动,邀请了影刀RPA晴岚老师,技术讲解如何搭建《通过关键词批量抓取小红书涨粉吸睛情报》的影刀RPA工作流.效果十分不错,这不舰长将RPA和Coze进行了一次结合,并撰写了这篇文章。 


咱们今天就来讲讲《通过行业热词,批量抓取小红书涨粉吸睛数据的RPA结合扣子全自动导入飞书在线文档》那咱话不多说,来我们直接看效果: 



整个流程消耗时间非常的可观,2分钟之内就完成全流程跑动。小红书内容都被抓取到飞书表格中了。 

 

那来看一下整个流程运行概括: 



本次流程可以分为两个板块:(影刀RPA获取内容以及Coze工作流进行内容提取的处理) 

 

Coze工作流搭建流程: 


1.借助文件处理插件读取Excel表格中的数据 


2.再用代码转换输出格式(为了循环批量处理使用,用超简单代码来处理输出) 


3.循环节点是重点:内置小红书内容提取插件→视频内容分析插件→飞书表格插件 


 

开始节点: 


设置一个变量名后修改变量类型为“File-Default” 


 

插件:读取Excel表格内容 


引用开始节点的变量“shuru” 



 

代码节点: 


输入需要引用前置插件节点的输出 


输出:变量名设置为“result”变量类型选择“Array”(一定!) 



import re  # 导入正则表达式模块

async def main(args: Args) -> Output:
    # 提取输入参数
    input_string = args.params.get(input, )  # 从 input 键获取用户输入,默认为空字符串
    
    # 定义一个用于匹配URL的正则表达式模式
    url_pattern = rhttps?://[^s]+

    # 使用正则表达式查找所有匹配的URL,保持原始大小写
    http_or_https_links = [
        match.group(0) for match in re.finditer(url_pattern, input_string)
    ]

    # 构建输出字典
    output = {
        "result": http_or_https_links  # 返回原始大小写的HTTP或HTTPS链接列表
    }

    return output


超简单的代码块复制粘贴即可 


循环节点的外部设置: 


选择使用数组循环,设置循环数组引用代码节点的输出即可,中间变量和输出需要把参数变量全部删除 


 

循环节点的内部设置 


插件节点:提取小红书内容插件引用循环的item(in input) 



选择器:目的是判读提取的的内容是视频还是图文类小红书作品 


 

只需要判断输出中“video”是否是空值;这个值就是视频的下载链接。当图文类作品是“video”是空值,所以这里我们只需要判断“video”是否为空值即可。 


空值走上面支线,也就是图文存储支线;不是控制走下面支线,也就是提取视频内容。


 

图文类分支流程搭建:

 

文本处理节点(图中名字为图文类):这里是为了修改存储表格字段而准备的 


Srting1:这个是分类,手动填写一个图文即可 

Srting2:这个是作品URL,引用循环的item(in input) 

Srting3:作品的内容,引用前面小红书内容提取插件的“content” 

Srting4:图片的下载链接,引用前面小红书插件的输出“bannerList” 


 

字符串拼接内容: 


[["{{String1}}", "{{String2}}",  "{{String3}}", "{{String4}}"]]

 

插件:飞书表格插件(插件商店直接搜索即可,选择添加多行到表的最后) 


表格需要提取去飞书上创建好,并复制URL链接粘贴到对应的参数后面 


 

回到视频类分支;视频类分支多一个插件目的就是将视频的文案提取的插件 


输入:URL参数进行引用,引用小红书提取插件的“video” 



 

文本处理节点:舰长这里修改了名字为视频类 


Srting1:这个是作品URL,引用循环的item(in input) 


Srting2:作品的视频下载链接,这里引用小红书提取插件的“video” 


Srting3:作品的内容,引用前面小红书内容提取插件的“content” 


Srting4:视频的文案,引用前面视频文案提取插件的“content” 


Srting5:这个是分类,手动填写一个视频即可 


 

字符串拼接: 


[["{{String5}}", "{{String1}}", "{{String2}}",  "{{String3}}", "{{String4}}"]]

 

飞书表格插件 


引用一下视频类文本处理的输出即可 


 

循环的连线: 


 

结束节点(循环节点没有输入,内容和处理都已经到飞书表格中,所以不需要再设置什么内容) 


舰长这里使用文本返回,并将表格的URL粘贴,目的是提醒自己 


 

到这里工作流的搭建已经完成,试运行发布即可 

 

创建一个智能体并添加工作流,发布看个人情况就可以 


 

影刀RPA流程: 


1.打卡网页 

2.清楚数据表格 

3.使用For循环 

-批量抓取数据 

-鼠标滚动网页 

-等待2秒 

4.数据表格导出 

5.打开coze智能体的网页 

6.上传文件 

 

 

看似流程颇多,但是非常简单不需要去修改或记录一些内容,只需要和搭建Coze一样拖拽即可。未使用过的可以需要时间久一点。


另外,实操搭建前需要准备好好影刀RPA软件


可以先去官网下载电脑对应版本的影刀RPA(免费的):https://www.yingdao.com/client-download/


下载完,根据操作说明安装对应的浏览器插件,推荐安装在谷歌或者edge浏览器,不要用360


插件操作文档:https://www.yingdao.com/yddoc/rpa/710819897938788352?

 

新建一个应用 


 

1.找到获取已打开网页,并添加到中间栏中 


 

设置内容,由于舰长插件是放在自带的Microsoft Edge浏览器,所以选择这个浏览器各位自行选择就行。再修改一下指令输出的名字,方便后续查找(小红书网页) 


 

2.清空数据表格: 


流程不是运行一次所以放置出错,将下面的数据表格(不是Excel)清空(只需要拖拽不需要设置) 


 

3.For次数循环:按图中进行设置 


 

批量数据抓取:下面将使用视频操作介绍 


 

鼠标滚动网页: 


 

等待 


 

4.数据表格导出到桌面 


 

5.打开Coze网页 


Coze网址就是文章上面的智能体搭建后编排页面上面的地址



 

6.上传文件 


需要捕捉元素,同视频操作一致:捕捉搭建好的智能体的编排页面的“+” 



 

本次搭建注意点: 


1.使用前需要将前一次使用的表格进行改名或者删除 


2.先去小红书网页设置好需要抓取的内容 


3.第一次使用智能体先自行跑一遍,需要授权飞书 


4.代码不难,但是要注意输入和输出,务必和舰长的保持一致 


5.表格抓取如果是空的,是因为小红书中的内容带有插件不能反应的内容,解决办法需要将内容是输入给删除/或者使用模型转换输出/用代码进行内容清洗(去除不能识别的内容)。



发表评论