前期准备
- 能访问被GFW屏蔽网站软件一个(即:fan*墙软件)<必备>,如果你找不到或者没有,下面的教程就不用看了。
- 火车头7.6企业破解版(百度搜索),相关教程:《火车头采集器7.6破解版闪退解决办法》
规则编写
1、添加91视频网址
写教程时大概有4200页
多网址分析:
1 2 3 4 5 6 |
http://91porn.com/v.php?next=watch&page=1 http://91porn.com/v.php?next=watch&page=2 http://91porn.com/v.php?next=watch&page=3 http://91porn.com/v.php?next=watch&page=4 …………………… http://91porn.com/v.php?next=watch&page=4200 |
可以看出网址变化的是后面的数字,根据这个变化写出如下规则:
1 |
http://91porn.com/v.php?next=watch&page=(*) |
把“检测重复网址”前面的勾去掉
网址规则写好之后,点击“测试网址采集”
这里能出现数据,说明火车头访问91网站没问题
2、采集视频相关数据
视频缩略图、视频标题、视频作者、视频访问网址(不是视频播放源地址)
采集视频访问网址后可以通过解析把视频源地址取出来,这个就可以解除网站对每个IP每天只能播放10个视频的限制
解析网站搭建:Tumblr/91porn/恋恋影视解析站搭建教程
随便打开一个91视频列表网址,查看源代码
每一页列表有20个视频,每个视频信息代码基本如下图所示,我们要采集的内容也是从这里提取。
采集内容,添加相关标签
网址规则
添加网址是否唯一性判断,通过上面的源代码分析每个网址都有一个key值,可以利用这个key判断网址是否重复
标题规则
源代码中有两处都有视频标题,这里采集的是img标签中的
缩略图规则
91视频站的缩略图是小图,去掉图片网址的参数可以获取到大图,规则中做了处理。
因为后期要把数据导入Wordpress中,把图片改成Html源代码化
视频时长规则
防止采集结果中有脏数据,这里把所有Html标签全部过滤
视频作者规则
是以前写的,这里的标签名没有改,你写规则的时候可以改成自己想要的。
数据处理中只勾选了“去首尾空白字符”,这里也可以改成和视频规则数据处理一样。
内容组合
把要在网站内容页显示的数据组合在一起,因为要导入到Wordpress中,所以把数据改成Html源代码化
1 2 3 |
[标签:缩略图]<br/> <a href="https://这里填写你解析网站的网址/#[标签:网址]"target=_blank>点击播放</a><br/> [标签:时长] |
之前还采集了视频添加时间,后来感觉没什么用,这里就不写了。
看一下采集结果
最后效果演示
PC端
手机端
后面还有两篇教程,现在时间太晚了,等有空再更新。
文章评论
支持博主
多网址分析,那个是用什么分析的,求指导
@地方 火车头采集软件自带的
你怎么可以这么腻害。。我蟒不会用,怎么破。。。。。。
@地方 你不会用,我也没办法。
大神可以详细说明采集到的是真实视频地址吗?确定不会失效吗?可以给下规则参考一下吗
@再见再见青春 采集的不是真实地址,采集到视频链接然后通过解析得到真实地址。
感谢楼主的分享
感觉还是不太明白。。。。
@哈哈 步骤这么详细了,你再不懂,我也没办法
大神给跪了,感谢分享!
老哥wp 发布模块求一份
@稳健 不建议使用发布模块,速度太慢,有空的时候我写一篇wp数据导入教程
@六度 好的 先谢过老哥了
@六度 大佬赶紧写数据库教程啊
@低调 刚回来上班,还没有时间写。