91视频系列教程(二)火车头采集规则篇

2018年02月01日 8664点热度 9人点赞 16条评论

前期准备

  • 能访问被GFW屏蔽网站软件一个(即:fan*墙软件)<必备>,如果你找不到或者没有,下面的教程就不用看了。
  • 火车头7.6企业破解版(百度搜索),相关教程:《火车头采集器7.6破解版闪退解决办法

规则编写

1、添加91视频网址

写教程时大概有4200页

多网址分析:

可以看出网址变化的是后面的数字,根据这个变化写出如下规则:

把“检测重复网址”前面的勾去掉

网址规则写好之后,点击“测试网址采集”

这里能出现数据,说明火车头访问91网站没问题

2、采集视频相关数据

视频缩略图、视频标题、视频作者、视频访问网址(不是视频播放源地址)

采集视频访问网址后可以通过解析把视频源地址取出来,这个就可以解除网站对每个IP每天只能播放10个视频的限制

解析网站搭建:Tumblr/91porn/恋恋影视解析站搭建教程

随便打开一个91视频列表网址,查看源代码

每一页列表有20个视频,每个视频信息代码基本如下图所示,我们要采集的内容也是从这里提取。

采集内容,添加相关标签

网址规则

添加网址是否唯一性判断,通过上面的源代码分析每个网址都有一个key值,可以利用这个key判断网址是否重复

标题规则

源代码中有两处都有视频标题,这里采集的是img标签中的

缩略图规则

91视频站的缩略图是小图,去掉图片网址的参数可以获取到大图,规则中做了处理。

因为后期要把数据导入Wordpress中,把图片改成Html源代码化

视频时长规则

防止采集结果中有脏数据,这里把所有Html标签全部过滤

视频作者规则

是以前写的,这里的标签名没有改,你写规则的时候可以改成自己想要的。

数据处理中只勾选了“去首尾空白字符”,这里也可以改成和视频规则数据处理一样。

内容组合

把要在网站内容页显示的数据组合在一起,因为要导入到Wordpress中,所以把数据改成Html源代码化

之前还采集了视频添加时间,后来感觉没什么用,这里就不写了。

看一下采集结果

最后效果演示

PC端

手机端

后面还有两篇教程,现在时间太晚了,等有空再更新。

唯一度

上善若水,水利万物而不争。

文章评论

  • Jon

    支持博主 :biggrin:

    2018年06月28日
  • 地方

    多网址分析,那个是用什么分析的,求指导

    2018年04月10日
    • 六度

      @地方 火车头采集软件自带的

      2018年04月11日
  • 地方

    :cry: 你怎么可以这么腻害。。我蟒不会用,怎么破。。。。。。

    2018年04月10日
    • 六度

      @地方 你不会用,我也没办法。

      2018年04月11日
  • 再见再见青春

    大神可以详细说明采集到的是真实视频地址吗?确定不会失效吗?可以给下规则参考一下吗

    2018年02月16日
    • 六度

      @再见再见青春 采集的不是真实地址,采集到视频链接然后通过解析得到真实地址。

      2018年02月22日
  • essaypinglun.wordpress.com

    感谢楼主的分享

    2018年02月12日
  • 哈哈

    感觉还是不太明白。。。。

    2018年02月02日
    • 六度

      @哈哈 步骤这么详细了,你再不懂,我也没办法

      2018年02月03日
  • 哈哈

    大神给跪了,感谢分享!

    2018年02月02日
  • 稳健

    老哥wp 发布模块求一份

    2018年02月02日
    • 六度

      @稳健 不建议使用发布模块,速度太慢,有空的时候我写一篇wp数据导入教程

      2018年02月02日
      • 稳健

        @六度 好的 先谢过老哥了

        2018年02月02日
      • 低调

        @六度 大佬赶紧写数据库教程啊 :razz:

        2018年02月25日
        • 六度

          @低调 刚回来上班,还没有时间写。

          2018年02月27日