共计 404 个字符,预计需要花费 2 分钟才能阅读完成。
在使用百度站平台的【抓取诊断】功能时,发现百度抓取失败,提示为 socket 读写错误。
然后我也查看了网站的抓取频次,发现百度也没少来光顾网站,但无论是收录还是快照都更新很慢,所以,这一定跟 socket 读写错误脱不了干系,查找一番,博主了解一下 socket 通信原理,
百度官方对 socket 读写错误的解读
当百度 spider 访问服务器,进行 tcp 通信的时候,socket 读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
想来是服务器出现了问题,索性登录宝塔面板后台查看一番,然后去百度搜索寻找帮助,发现是宝塔面板设置了【强制 https】,只要将其关闭即可。
后来了解到由于 nginx 将 http 强制转换成 https,导致 http 无法直接访问,而百度抓取的是 http 站点,如此就会导致 socket 读写错误问题。当【强制 https】关闭后,再次使用百度抓取诊断功能发现抓取成功,如此问题解决。
正文完