网站采集神器_百业营销网
网站采集神器:采集不了列表页链接解决方法

网站采集神器:采集不了列表页链接解决方法

网站模板开发 111℃ 0

添加header请求头:1、如果你发现要采集的网站用浏览器打开是正常显示内容的,采集的规则也没有问题,但是就是采集不了列表页的链接,那么可能就是因为缺少某些“请求头”,常见的比如:“host”,“referer”,“cookie”,“user-agent”,具体添加方法如下:2、可以先添加这2个请求头,如果还不行如果还不行的话,就把上面所说的4个常见的请求头全部添加上吧!...

网站采集神器:采集内容发布方法

网站采集神器:采集内容发布方法

网站模板开发 111℃ 0

入库表本插件支持将采集的数据写入任意数据表,需要入库哪个表就选择哪个表1、zblog默认表前缀是 zbp_,以下都会以此为例,并以采集文章为例,系统默认数据表名称对照:2、文章入库调用接口,只有入库表选择zbp_post时,才会展示此配置。Filter_Plugin_PostArticle_CoreFilter_Plugin_PostArticle_SucceedFilter_Plugin_Post_Save文章入库模块发布是会调用系统的 PostArticle() 事件函数,当勾选这些接口时,挂载这些接口的其它插件或主题也会介入处理3、添加调用内容,将需要入库的内容,与表字段对应上,添加即可。4、Meta字段是表的附加内容,除了系...

网站采集神器:采集文章页评论方法

网站采集神器:采集文章页评论方法

网站模板开发 108℃ 0

【评论采集】1、添加标签,所采集的评论标签名必须为 评论数据格式:1、纯文本。2、带html代码。注意事项:在采集时,前者会删除html代码,而后者不会。一般情况下,如果是评论采集,采集“评论”选择 纯文本或者采集“评论”选择 带html代码都可以,根据实际情况看。评论内容匹配评论内容匹配支持三种方式:1、css选择器。2、前后截取。3、正则匹配。注意!这三种方式是三选一,并不是同时有效。css选择器在css选择器中基本表示用法:1、class值,用 . 表示,比如 .article-con,如下图:2、id值,用 # 表示,比如 #main3、元素标签直接用标签名表示,比如h1标签,就是 h1更多用法详见:css选择器参考手册定位...

网站采集神器:采集文章页内容方法

网站采集神器:采集文章页内容方法

网站模板开发 115℃ 0

添加标签:添加标签就是添加一种采集内容,在入库内容时,靠标签名来识别调用的内容,添加后不支持改名。数据格式:1、纯文本。2、带html代码。注意事项:在采集时,前者会删除html代码,而后者不会。一般情况下,如果是文章采集,采集“标题”选择 纯文本,采集“正文”选择 带html代码。内容匹配内容匹配支持三种方式:1、css选择器。2、前后截取。3、正则匹配。注意!这三种方式是三选一,并不是同时有效。css选择器在css选择器中基本表示用法:1、class值,用 . 表示,比如 .article-con,如下图:2、id值,用 # 表示,比如 #main3、元素标签直接用标签名表示,比如h1标签,就是 h1更多用法详见:css选择器参...

网站采集神器:采集链接过滤方法

网站采集神器:采集链接过滤方法

网站模板开发 100℃ 0

采集链接过滤解决方法:1、尝试一下采集百度贴吧,css选择器只用 a,匹配了页面所有超链接,是猫是狗都出来了。2、看一下正常需要采集链接的格式:http://baiyeyingxiao.com/p/7014123237http://baiyeyingxiao.com/p/7016345708http://baiyeyingxiao.com/p/70166476083、每个链接都包含了 /p/,所以在“必须包含”中,输入这个内容,再次采集测试:4、依旧有大量重复,重复的链接都包含的pid=****#****这些内容,所有在“不能包含”中可以填写个pid,因为正常的帖子链接不可能包含这个pid的,所有可以把它排除掉。再次测试:5、采集成...

网站采集神器:采集列表页链接方法

网站采集神器:采集列表页链接方法

网站模板开发 97℃ 0

采集链接方法1:css采集在css选择器中基本表示用法:class值,用 . 表示,比如 .post-titleid值,用 # 表示,比如 #main元素标签直接用标签名表示,比如h1标签,就是 h1更多用法详见:css选择器参考手册定位元素几种简单方法:父元素选择器+空格+子元素选择器 比如:#main .post-title,#main .entry h2 a,.entry .post-title父元素选择器+字元素名+子元素选择器 比如:#main a.post-title,.entry a.post-title这几种方式,都可以定位到上图中的链接。最终的元素必须得是a标签,在采集时会获取该标签的href值如果还是不了解如何使...