百度抓取网站出现异常,提示socket 读写错误怎么办?

54次阅读
没有评论

共计 404 个字符,预计需要花费 2 分钟才能阅读完成。

在使用百度站平台的【抓取诊断】功能时,发现百度抓取失败,提示为 socket 读写错误。

然后我也查看了网站的抓取频次,发现百度也没少来光顾网站,但无论是收录还是快照都更新很慢,所以,这一定跟 socket 读写错误脱不了干系,查找一番,博主了解一下 socket 通信原理,

百度官方对 socket 读写错误的解读

当百度 spider 访问服务器,进行 tcp 通信的时候,socket 读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

想来是服务器出现了问题,索性登录宝塔面板后台查看一番,然后去百度搜索寻找帮助,发现是宝塔面板设置了【强制 https】,只要将其关闭即可。

后来了解到由于 nginx 将 http 强制转换成 https,导致 http 无法直接访问,而百度抓取的是 http 站点,如此就会导致 socket 读写错误问题。当【强制 https】关闭后,再次使用百度抓取诊断功能发现抓取成功,如此问题解决。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-06-03发表,共计404字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)