网站采集神器:采集链接过滤方法_百业营销网

网站采集神器:采集链接过滤方法

网站模板开发 103℃ 0

网站采集神器:采集链接过滤方法

采集链接过滤解决方法:

1、尝试一下采集百度贴吧,css选择器只用 a,匹配了页面所有超链接,是猫是狗都出来了。

image.png

2、看一下正常需要采集链接的格式:

http://baiyeyingxiao.com/p/7014123237

http://baiyeyingxiao.com/p/7016345708

http://baiyeyingxiao.com/p/7016647608

3、每个链接都包含了 /p/,所以在“必须包含”中,输入这个内容,再次采集测试:

image.png

4、依旧有大量重复,重复的链接都包含的pid=****#****这些内容,所有在“不能包含”中可以填写个pid,因为正常的帖子链接不可能包含这个pid的,所有可以把它排除掉。再次测试:

image.png

5、采集成功,过滤掉了所有不相关的链接。


打乱链接

采集预览和正式采集入库时,采集到的链接都会被无序打乱


标签: 网站采集神器