wordpress检测百度是否收录代码失效的原因

技术论点 439 阅读 0

今天闲来无事,打算优化一下我网站对于抓取百度搜索页面的代码进行优化,使其判断的更加精准。

做到一半,发现不是代码的问题,而是百度开启的中间抓取源的二次验证,我看了一下,百度采用的是旋转图片式的验证方式,以我目前的技术还是无法做到自动验证或者绕过的。

说到绕过,(我的想法是添加一个header头,在php代码执行抓取任务的时候发送这个头,让对方认为是浏览器人工执行的搜索,从而不用进行验证。但是仔细想想,百度肯定能筛查我的请求,从而判断是机器执行还是真实用户点击。。。鉴于此,我还是不浪费时间进行实践了。)

目前抓取到页面内容的问题出在下面这个验证中:

wordpress检测百度是否收录代码失效的原因

我目前的技术储备还真没办法搞定它。

手动验证之后,才正确展示出来我需要的内容:

wordpress检测百度是否收录代码失效的原因

源代码的运行逻辑很简单,就是在百度搜索中输入网址进行查询,之后用php内置方法进行筛查,没有触发特定的内容则代码这个网页百度已经收录了,所以就直接在页面输出“已收录”的信息即可。

问题就出在机器抓取触发了百度的验证,不验证不返回信息。

等我无聊的时候我想我也会实践一下我上面这个猜想的可行性。。。

 

*****************************

一直有问题,一直过不去。测试了很久一直都是需要验证,有的时候刷新能直接显示我要的页面,但是再次刷新又需要验证了。

哎,搞得很头疼。

点击查看完整内容

Tags:

版权声明:若无特殊注明,本文皆为《燕闻墨香博客》原创,转载务必保留文章来源。

本文链接:wordpress检测百度是否收录代码失效的原因 & https://www.mxooo.cn/817/

推荐阅读
发表评论 取消回复
表情 图片 链接 代码

分享