91视频系列教程(二)火车头采集规则篇

前期准备

  • 能访问被GFW屏蔽网站软件一个(即:fan*墙软件)<必备>,如果你找不到或者没有,下面的教程就不用看了。
  • 火车头7.6企业破解版(百度搜索),相关教程:《火车头采集器7.6破解版闪退解决办法

规则编写

1、添加91视频网址

写教程时大概有4200页

多网址分析:

可以看出网址变化的是后面的数字,根据这个变化写出如下规则:

《91视频系列教程(二)火车头采集规则篇》

把“检测重复网址”前面的勾去掉

《91视频系列教程(二)火车头采集规则篇》

网址规则写好之后,点击“测试网址采集”《91视频系列教程(二)火车头采集规则篇》

这里能出现数据,说明火车头访问91网站没问题

2、采集视频相关数据

视频缩略图、视频标题、视频作者、视频访问网址(不是视频播放源地址)

采集视频访问网址后可以通过解析把视频源地址取出来,这个就可以解除网站对每个IP每天只能播放10个视频的限制

解析网站搭建:Tumblr/91porn/恋恋影视解析站搭建教程

随便打开一个91视频列表网址,查看源代码

每一页列表有20个视频,每个视频信息代码基本如下图所示,我们要采集的内容也是从这里提取。

《91视频系列教程(二)火车头采集规则篇》

采集内容,添加相关标签

《91视频系列教程(二)火车头采集规则篇》

网址规则

《91视频系列教程(二)火车头采集规则篇》《91视频系列教程(二)火车头采集规则篇》

添加网址是否唯一性判断,通过上面的源代码分析每个网址都有一个key值,可以利用这个key判断网址是否重复

《91视频系列教程(二)火车头采集规则篇》《91视频系列教程(二)火车头采集规则篇》

标题规则

源代码中有两处都有视频标题,这里采集的是img标签中的《91视频系列教程(二)火车头采集规则篇》

缩略图规则

91视频站的缩略图是小图,去掉图片网址的参数可以获取到大图,规则中做了处理。

因为后期要把数据导入Wordpress中,把图片改成Html源代码化

《91视频系列教程(二)火车头采集规则篇》《91视频系列教程(二)火车头采集规则篇》 《91视频系列教程(二)火车头采集规则篇》 《91视频系列教程(二)火车头采集规则篇》 《91视频系列教程(二)火车头采集规则篇》

视频时长规则

防止采集结果中有脏数据,这里把所有Html标签全部过滤

《91视频系列教程(二)火车头采集规则篇》

视频作者规则

是以前写的,这里的标签名没有改,你写规则的时候可以改成自己想要的。

数据处理中只勾选了“去首尾空白字符”,这里也可以改成和视频规则数据处理一样。

《91视频系列教程(二)火车头采集规则篇》

内容组合

把要在网站内容页显示的数据组合在一起,因为要导入到Wordpress中,所以把数据改成Html源代码化

《91视频系列教程(二)火车头采集规则篇》

之前还采集了视频添加时间,后来感觉没什么用,这里就不写了。

看一下采集结果

《91视频系列教程(二)火车头采集规则篇》

最后效果演示

PC端

《91视频系列教程(二)火车头采集规则篇》

手机端

《91视频系列教程(二)火车头采集规则篇》

后面还有两篇教程,现在时间太晚了,等有空再更新。

点赞
  1. 地方说道:

    多网址分析,那个是用什么分析的,求指导

    1. 六度说道:

      @地方: 火车头采集软件自带的

  2. 地方说道:

    :cry: 你怎么可以这么腻害。。我蟒不会用,怎么破。。。。。。

    1. 六度说道:

      @地方: 你不会用,我也没办法。

  3. 大神可以详细说明采集到的是真实视频地址吗?确定不会失效吗?可以给下规则参考一下吗

    1. 六度说道:

      @再见再见青春: 采集的不是真实地址,采集到视频链接然后通过解析得到真实地址。

  4. 感谢楼主的分享

  5. 哈哈说道:

    感觉还是不太明白。。。。

    1. 六度说道:

      @哈哈: 步骤这么详细了,你再不懂,我也没办法

  6. 哈哈说道:

    大神给跪了,感谢分享!

  7. 稳健说道:

    老哥wp 发布模块求一份

    1. 六度说道:

      @稳健: 不建议使用发布模块,速度太慢,有空的时候我写一篇wp数据导入教程

      1. 稳健说道:

        @六度: 好的 先谢过老哥了

      2. 低调说道:

        @六度: 大佬赶紧写数据库教程啊 :razz:

        1. 六度说道:

          @低调: 刚回来上班,还没有时间写。

发表评论

电子邮件地址不会被公开。 必填项已用*标注