西瓜视频上的多个视频可以在电脑同时采集吗?

我们公司一般会用媒体梦工厂去批量采集西瓜视频中的作品小视频,像封面图,视频都可采集下来,非常方便 可以使用ForeSpider数据采集系统,批量采集西瓜上的视频数据,具体操作如下所示: l 采集网站 【场景描述】采集西瓜视频中的所有直播视频及主播信息。 【使用工具】前嗅ForeS…

我们公司一般会用媒体梦工厂去批量采集西瓜视频中的作品小视频,像封面图,视频都可采集下来,非常方便

可以使用ForeSpider数据采集系统,批量采集西瓜上的视频数据,具体操作如下所示:

l 采集网站

【场景描述】采集西瓜视频中的所有直播视频及主播信息。

【使用工具】前嗅ForeSpider数据采集系统,点击下方链接即可免费下载。

免费下载ForeSpiderwww.forenose.com/view/forespider/view/download.html

【入口网址】

【采集内容】

采集西瓜视频中的所有直播视频及主播信息,包括主播昵称、房间号、视频地址、网站名称、直播网址、直播视频、采集时间、主播热度。

【采集效果】如下图所示:

l 思路分析

配置思路概览:

l 配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

选择普通翻页,点击完成按钮,即创建任务完成。

2. 直播分类链接获取

①在浏览器中点击不同分类的直播,将对应链接复制出来,观察链接规律。

发现不同分类直播的链接规律为:

分类id/

②点击页面右键【查看源文件】,在源码中查找分类id,发现分类id在源码的js中。

将该段源码复制进行js格式化在线转化,可更加清楚的看到结构。如下图所示能够看出,我们需要的分类名称和id是在【sideBarData】数组的第三个对象中的【childs】数组中。

③打开脚本窗口,新建脚本。

根据刚才发现的规律,用脚本来拼分类链接,编写好后点击右上角保存。

具体如下所示:

④采集预览,复制任意一条分类链接,在浏览器中打开,看是否为该页内容。

3.各主播直播链接

①新建模板02,在模板02下建一个链接抽取,具体操作如下图所示。

②在浏览器上打开任意一个分类,复制价格主播直播链接,观察其规律,具体如下:

③不难发现主播直播规律为: 主播id/

④点击F12,查看请求,发现主播id在下图所示请求中api/feed/category/1/74?_signature=iYkdqAAgEB7evlXzywm4yYmJHbAAOmK

(测试发现链接后半部分不加也可以打开该请求,故脚本中省略后半部分)

请求地址规律为:api/feed/category/1/分类id

⑤根据刚才发现的规律,用脚本来拼分类请求链接,获取到请求中的源码,从而拼出主播页面链接。

具体如下所示:

⑥保存脚本后,点击右上角【采集预览】按钮,双击任意一条链接,进入下一层,复制任意一条主播链接,在浏览器打开,看是否成功抽取主播链接。

3.抽取主播数据

①新建一个抽取模板,在其下新建一个数据抽取,具体操作如下所示:

②数据建表

点击图中加号,新建一个数据表,然后添加字段,各字段属性如下图所示:

③将新建好的数据表,关联到模板中去,如下图所示:

④字段抽取

字段抽取使用脚本抽取的方法,在数据抽取模板中新建一个脚本窗口。

⑤采集预览,复制一条翻页的链接,在浏览器中打开。

⑥鼠标单击右键,查看源文件,观察可发现直播视频链接在如下图所示位置。

将以上一段js格式化后,观察其位置,为【roomData】节点下的【playInfo】数组的第一个数组对象的FlvUrl。且本视频链接部分为unicode编码,需要转码一下。

⑦根据以上观察,编写数据抽取脚本,具体如下图所示:

⑧采集预览

点击右上角采集预览,如下图所示:

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【xigua】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

②高级设置,在高级配置中,设置采集视频的最大限制,如下图所示,这样爬虫采集15M就会停止采集,否则爬虫将一直采集一个直播视频直到直播结束。设置好后,点击右上角保存按钮。

③选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

④导出的文件打开如下图所示:

⑤导出视频步骤如下图所示:

l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

作者: 丹青植物网

为您推荐

返回顶部