百度站长工具使用全攻略

204次阅读
没有评论

共计 7837 个字符,预计需要花费 20 分钟才能阅读完成。

作为一名 SEO 人员,就应该了解搜索引擎的游戏规则,运用好各类 seo 优化工具。面对市场上五花八门工具软件,究竟哪个是好用的,是真材实料的呢?这里跟大家详细介绍百度官方出品的产品——百度搜索资源平台(原百度站长工具),相信比任何一家优化公司的材料都要详细!

百度搜索资源平台 (原百度站长平台) 使用全攻略

百度搜索资源平台 (原百度站长平台) 是全球最大的面向中文互联网管理者、移动开发者、创业者的搜索流量管理的官方平台。提供有助于搜索引擎数据查询及优化的工具、SEO 建议、多端适配服务的能力等。

百度站长工具地址:http://ziyuan.baidu.com/

查询工具

1、索引量工具

网站的索引量指该网站在百度搜索上,可以被用户搜索到的链接总量。百度蜘蛛通过抓取发现网站内容,进行页面解析,对有价值内容建立索引库,最终使搜索用户可以搜索到网站内容。

网站被百度蜘蛛抓取后,经过一系列计算才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但关于索引量工具有一些误读,这里给到正确解答:

√ 索引量不等于网站流量:索引库分多个层级,进入上层索引库才有更多与搜索用户见面的机会; 进入下层库机会渺茫。所以,索引量总体的增加减少并不能说明流量会有什么变化

√ 索引量变化不直接影响流量变化:当流量发生巨大变化时,索引量数据可以作为排查原因的渠道之一,但不是唯一排查渠道,索引量变化并不直接影响流量变化

√ 索引量浮动情况,索引量上下浮动 10%(经验值),甚至更多,都可能属于正常。只要流量变化不大就不用紧张。

2、流量与关键词工具

流量与关键词工具,提供站点的热门关键词在百度搜索结果中的展现及点击量数据,通过对关键词表现情况的监控,帮助网站更好进行优化,流量与关键词工具可全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。

关于流量与关键词工具,还有一点需要强调,如果站长需要在反馈中心中提交关于网站流量异常的情况,请使用此工具的数据、及数据截图作为证据,便于工作人员分析网站问题。

3、抓取频次工具

3.1 什么是抓取频次

抓取频次是搜索引擎在单位时间内 (天级) 对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,百度蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

3.2 什么情况下可以进行抓取频次上限调整

首先,百度蜘蛛会根据网站服务器压力自动进行抓取频次调整。

其次,如果百度蜘蛛的抓取影响了网站稳定性,站长可以通过此工具调节百度蜘蛛每天抓取网站的频次上限。

强调 1:调整抓取频次上限不等于调高抓取频次。

强调 2:建议站长慎重调节抓取频次上限值,如果抓取频次过小则会影响百度蜘蛛对网站的及时抓取,从而影响索引。

4、抓取诊断工具

4.1 什么是抓取诊断

抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用 200 次,抓取结果只展现百度蜘蛛可见的前 200KB 内容。

4.2 抓取诊断工具能做什么

目前抓取诊断工具有如下作用:

√ 诊断抓取内容是否符合预期。譬如很多商品详情页面,价格信息是通过 JavaScript 输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。

√ 诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。

5、抓取异常工具

5.1 什么是抓取异常

百度蜘蛛无法正常抓取,就是抓取异常。通常网站出现抓取异常,都是网站自身原因造成,需要网站根据工具提示,尽快自查网站问题并解决。

5.2 抓取异常对网站有哪些影响

对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、搜索评价上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

5.3 抓取异常的原因有哪些

● 网站异常

√ DNS 异常:当百度蜘蛛无法解析网站的 IP 时,会出现 DNS 异常。可能是网站 IP 地址错误,或者域名服务商把百度蜘蛛封禁。请使用 whois 或者 host 查询自己网站 IP 地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新网站 IP 地址。

√ 连接超时:抓取请求连接超时,可能原因服务器过载,网络不稳定

√ 抓取超时:抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足

√ 连接错误:无法连接或者连接建立后对方服务器拒绝

● 链接异常

√ 访问被拒绝:爬虫发起抓取,httpcode 返回码是 403

√ 找不到页面:爬虫发起抓取,httpcode 返回码是 404

√ 服务器错误:爬虫发起抓取,httpcode 返回码是 5XX

√ 其他错误:爬虫发起抓取,httpcode 返回码是 4XX,不包括 403 和 404

提交工具

1、链接提交工具

目前一共有 4 种提交方式,分别是主动推送、Sitemap、手工提交和自动推送,这四种推送方式的区别,请看下图

建议有新闻属性站点,使用主动推送进行数据提交;

新验证平台站点,或内容无时效性要求站点,可以使用 Sitemap 将网站全部内容使用 Sitemap 提交;

技术能力弱,或网站内容较少的站点,可使用手工提交方式进行数据提交;

最后,还可以使用插件方式,自动推送方式给百度提交数据。

使用链接提交工具,还需要注意的是,部分网站会采用第三方插件推送数据,插件推送方式需要站长仔细检查推送逻辑,之前发生过站长使用第三方插件推送数据,而第三方插件采用域名 + 标题进行推送,这样导致推送给百度的 URL 中存在中文字符,带有中文字符的 URL 会 301 跳转到真实的 URL 上,出现此类情况,是无法享受快速抓取优待的。

链接提交工具可以快速帮助站点实现内容抓取,使用第三方插件可以快速帮助站长解决推送的问题,站长只需在选择插件时,仔细检查下插件数据逻辑,否则推送错误数据,网站数据无法享受快速抓取优待。

2、死链提交工具

2.1 为什么要使用死链工具

当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

注意事项:

√ 请推送协议死链数据,死链工具仅支持协议死链数据

√ 提交死链被删除后,网站可以删除已提交的死链文件,否则搜索仍会继续抓取死链文件,确认文件中内容

2.2 什么是死链规则提交?

死链规则是链接前缀,且匹配前缀的链接全部是死链。

目前支持两种死链规则:

√ 目录规则:以“/”结尾的前缀

√ CGI 规则:以“?”结尾的前缀

2.3 什么是死链文件提交?

√ 站长需要提交已被百度建索引的、且需要删除的链接,如链接在百度搜索不到,则可以不提交死链

√ 需要删除的链接需要全部设置为 404,如发现有链接非死链,会导致文件校验失败,从而无法删除死链

√ 如死链文件抓取失败,可以通过抓取诊断工具判断死链文件是否可以正常抓取。

√ 站长提交死链后,请不要在 robots 中封禁百度蜘蛛,封禁百度蜘蛛会影响链接的正常删除。

√ 如果需要删除的链接已经被删除,请及时的删除掉死链文件

√ 提交死链工具,最长需要 2 - 3 天生效死链。如站长发现链接未被删除,一周后可以重新提交。

规则提交:

√ 规则死链不支持通配符。

√ 规则死链必须是以? 或者 / 结尾的规则。

2.4 关于死链提交的常见问题

√ 网站死链数据,除了使用死链提交工具,还可以使用 robots 屏蔽百度抓取,百度将根据 robots 文件中的规则,不再抓取该内容,如果该内容线上已经展现,将会进行屏蔽;

√ 已经提交死链的文件,蜘蛛仍会继续抓取,检查文件中是否有更新的链接; 如抓到更新的链接,将再次校验网站; 如死链提交已生效,且此文件后续将不再更新,可以直接在工具中将文件删除;

√ 搜索资源平台中的链接分析工具,有死链分析功能,可以帮助网站发现站内死链。

3、移动适配工具

3.1 什么是移动适配,移动适配工具的作用

移动适配工具主要用于,如果网站同时拥有 PC 站和移动站,且二者能够在内容上对应,即主体内容完全相同,网站可以通过移动适配工具进行对应关系,便于百度来识别 PC 和移动站之间的关系。

站长通过移动适配工具提交 pattern 级别或者 URL 级别的 PC 页与手机页对应关系,若可以成功通过校验,将有助于百度移动搜索将移动用户直接送入对应的手机页结果。积极参与“移动适配”,将有助于的手机站在百度移动搜索获得更多流量,同时以更佳的浏览效果赢取用户口碑。

3.2 移动适配工具如何使用

当网站同时拥有移动站点和 PC 站点、且移动页面和 PC 页面的主体内容完全相同,就可以在通过百度搜索资源平台 (原百度站长平台) 提交正确的适配关系,获取更多移动流量。

第一步:注册并登录百度搜索资源平台(原百度站长平台)

第二步:提交 PC 网站并验证站点与 ID 的归属关系,具体验证网站归属方法可见帮助文档

第三步:站点验证后,进入“网站支持”――“数据引入”――“移动适配工具”,选择具体需要进行移动适配的 PC 站,然后“添加适配关系”

第四步:根据自己提交的适配数据特点,选择适合网站的提交方式。目前移动适配工具支持规则适配提交 URL 适配提交,无论使用哪种方式都需要先指定 PC 与移动站点,此举可以令平台更加快速地检验提交的数据、给出反馈,顺利生效。同时在之后步骤中提交的适配数据中必须包含指定的站点,否则会导致校验失败。

1)规则适配:当 PC 地址和移动地址存在规则 (pattern) 的匹配关系时(如 PC 页面 www.test.com/picture/12345.html,移动页面 m.test.com/picture/12345.html),可以使用规则适配,添加 PC 和移动的正则表达式,正则的书写方式详见工具页面《正则格式说明》。强烈建议使用规则适配,一次提交成功生效后,对于新增同规则的 URL 可持续生效,不必再进行多次提交。同时该方式处理周期相对 URL 适配更短,且易于维护和问题排查,是百度推荐使用的提交方式。

2)URL 适配:当规则适配不能满足适配关系的表达时,可以通过“URL 对文件上传”功能,将主体内容相同的 PC 链接和移动链接提交给百度:文件格式为每行前后两个 URL,分别是 PC 链接和移动链接,中间用空格分隔,一个文件最多可以提交 5 万对 URL,可以提交多个文件。另外网站还可以选择“URL 对批量提交”,在输入框中直接输入 URL 对,格式与文件相同,但此处一次性仅限提交 2000 对 URL。

第五步:提交适配数据后,关注移动适配工具会提供状态说明,若未适配成功,可根据说明文字和示例进行相应的调整后更新提交适配数据。

4、robots

4.1 什么是 robots 文件

robots 是站点与蜘蛛沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分。

请注意,仅当网站包含不希望被搜索引擎抓取的内容时,才需要使用 robots.txt 文件。如果希望搜索引擎抓取网站上所有内容,请勿建立 robots.txt 文件。之前发现很多流量下降的网站示例,最后追查都是因为技术人员通过 robots 对搜索引擎加了封禁。

为了避免站长在设置 robots 文件时出现错误,百度搜索资源平台 (原百度站长平台) 特别推出了 robots 工具,帮助站长正确设置 robots。

4.2 robots.txt 文件的格式

robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示:

“:”

在该文件中可以使用 #进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 和 Allow 行, 详细情况如下:

User-agent: 该项的值用于描述搜索引擎 robot 的名字。在 ”robots.txt” 文件中,如果有多条 User-agent 记录说明有多个 robot 会受到 ”robots.txt” 的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为 *,则对任何 robot 均有效,在 ”robots.txt” 文件中,”User-agent:*” 这样的记录只能有一条。如果在 ”robots.txt” 文件中,加入 ”User-agent:SomeBot” 和若干 Disallow、Allow 行,那么名为 ”SomeBot” 只受到 ”User-agent:SomeBot” 后面的 Disallow 和 Allow 行的限制。

Disallow: 该项的值用于描述不希望被访问的一组 URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的 URL 不会被 robot 访问。例如 ”Disallow:/help” 禁止 robot 访问 /help.html、/helpabc.html、/help/index.html,而 ”Disallow:/help/” 则允许 robot 访问 /help.html、/helpabc.html,不能访问 /help/index.html。”Disallow:” 说明允许 robot 访问该网站的所有 URL,在 ”/robots.txt” 文件中,至少要有一条 Disallow 记录。如果 ”/robots.txt” 不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。

Allow: 该项的值用于描述希望被访问的一组 URL,与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow 项的值开头的 URL 是允许 robot 访问的。例如 ”Allow:/hibaidu” 允许 robot 访问 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有 URL 默认是 Allow 的,所以 Allow 通常与 Disallow 搭配使用,实现允许访问一部分网页同时禁止访问其它所有 URL 的功能。

使用 ”*”and”$”:百度蜘蛛支持使用通配符 ”*” 和 ”$” 来模糊匹配 URL。

“*” 匹配 0 或多个任意字符

“$” 匹配行结束符。

最后需要说明的是:百度会严格遵守 robots 的相关协议,请注意区分网站不想被抓取或抓取的目录的大小写,百度会对 robots 中所写的文件和网站不想被抓取和抓取的目录做精确匹配,否则 robots 协议无法生效。

搜索展现工具

站点 logo 百度搜索资源平台推出的免费类工具,可以给到网站品牌曝光、展示。站点 logo 是百度搜索根据网站评价、用户需求度、用户浏览轨迹等系统分析产出的效果,因此这个工具并不是所有站点都享有权限。

1、站点 logo

站点申请百度搜索下的 logo 展示,可以通过搜索资源平台——站点属性——站点 logo 中进行提交,此工具为免费展示类工具。

上图为站点 logo 的截图示例

维护类工具

1、网站改版工具

当一个站点的域名或者目录发生变化时,如果想让百度快速收录变化之后的新链接、用以替换之前的旧链接,需要使用百度搜索资源平台的网站改版工具来提交网站的改版关系,加速百度对已收录链接的新旧替换。网站换域名对网站的影响,我们将在下篇文章更新。

使用改版工具提交改版规则的前提:

√ 站点的 URL 发生了变化,不论是域名还是站点的目录,或者结果页 URL 发生变化,改版工具都提供支持,这里单独说一点,页面内容发生变化的不在改版工具处理的范围内。

√ 如果站点 URL 的路径和参数部分都没有变化,仅仅是域名改变的,只需要知道每个改版前域名和改版后域名的对应关系,不要有整理遗漏,目前平台不支持主域级别的改版规则提交,需要每个域名都单独提交生效。

√ 如果站点 URL 的路径和参数部分发生变化,但是路径和参数都是有规律可寻的,可以通过规则表达式来整理改版前和改版后的 URL 对应关系。

√ 如果站点的 URL 改变没有任何规律的情况,需要准确整理出改版前 URL 和改版后 URL 的对应关系。

站长要准确的找到对应关系,这与改版规则的生效息息相关。有了准确的对应关系后,就可以设置 301 跳转了。

2、闭站保护工具

由网站自身原因 (改版、暂停服务等)、客观原因(服务器故障、政策影响等) 造成的网站较长一段时间都无法正常访问,百度搜索引擎会认为该站属于关闭状态。站长可以通过闭站保护工具进行提交申请,申请通过后,百度搜索引擎会暂时保留索引、暂停抓取站点、暂停其在搜索结果中的展现。待网站恢复正常后,站长可通过闭站保护工具申请恢复,申请审核通过后,百度搜索引擎会恢复对站点的抓取和展现,站点的评价得分不会受到影响

闭站保护工具的重要 tip 如下:

√ 申请闭站需要保证全站链接都是死链或直接关闭服务器,申请恢复是需要保证网站服务器已经启动并没有死链。为了尽快进行闭站保护 / 解除闭站保护,保障自身权益,请确保以上条件没问题之后再提交申请(校验很严格,抽样的内容基本需要是 100%);

√ 闭站保护申请、死链提交等工具,提到的设置死链,都必须是协议死链,即返回码是 404,否则会导致无法通过校验。

● 内容死链,比如单纯的在网页上写上 404,或一张图片上画着 404,是不行的

● 判断自己网页返回码是否是 404,浏览器里可以直接打开控制台,查看 network 的 doc,刷新页面

● 或者可以控制台使用命令:curl -i 网页地址

● 查返回的信息

闭站保护只能保证网站的索引量,不能保证网站的排名。之前有站点反馈闭站保护不好用,因为闭站恢复后网站排名没有了,这里再次强调一下,使用闭站工具只能保留网站的索引量,但不保证网站的排名不变。

关于闭站保护常见的问题:

√ 闭站保护的通过时间是从提交申请到生效一天内。

√ 闭站保护申请恢复,是站点没有任何 404 页面等情况下,2 天内恢复。

√ 闭站保护生效之后,首页不会屏蔽,如有网站首页屏蔽需求,可以在搜索资源平台反馈中心提交

√ 闭站保护最长保护时间是 180 天,过了 180 天之后的自动放出,如站点有 404 页面

√ 仍会正常屏蔽处理

√ 主站申请了闭站保护后,对应移动站也是需要申请闭站保护的; 即使存在适配关系,也只能屏蔽在适配关系中的移动链接,其余不在适配关系中的链接,比如直接被抓取的链接,仍无法屏蔽。

3、HTTTPS 认证工具

3.1 使用 HTTPS 认证工具的收益:

网站通过 HTTPS 认证后,站点在百度搜索的所有快照都会变成 HTTPS 格式,蜘蛛也会优先抓取 HTTPS 的链接,让用户在搜索中获得更安全的链接

3.2 网站使用 HTTPS 认证工具的注意事项:

√ 保证 HTTPS 站点正常访问,且页面内引入资源为 HTTPS 格式,包括引入的视频、图片、CSS、JS 等元素; 如果网站没有全站 HTTPS,申请百度搜索资源平台(原站长平台)HTTPS 认知是不会通过的,但是如果系统没有检测到这个情况而通过验证的话,会导致没改造的这部分页面产生死链,所以认证前一定要检测好

√ 如果站点存在 HTTP 和 HTTPS 两种协议的页面,必须将 HTTP 的 URL 301 到 HTTPS 的 URL 上,仅有 HTTPS 站点的可以直接认证;

√ 必须保证 HTTP 站点与 HTTPS 的链接一一对应,没有 HTTPS 对应的 HTTP 链接可能会被判断成死链接;

3.3 关于网站做 HTTPS 回退的注意事项:

√ 站点通过认证后,只需要点击退场按钮(在搜索资源平台验证的网站拥有者),就可以退回到 HTTP 站点了;

√ 需要强调的是,点击回退按钮后,要等到显示回退成功了再做其他操作,否则有可能导致网站产生死链接。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-06-05发表,共计7837字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)