当前位置: 主页 > SEO动态

谷歌seo:抓取预算优化终极指南(谷歌浏览器抓包分析)

1.谷歌浏览器抓包工具

万维网由数万亿页组成抓取它并从所有垃圾邮件中挑选出有价值的页面是搜索引擎面临的最大挑战这对网站所有者来说意味着谷歌不会抓取它可以访问的每个页面只有分配了足够高优先级的 URL 才会被 Googlebot 抓取。

2.谷歌抓取工具

为什么 Google 不只访问网络上的每个页面? 谷歌资源有限网络上有很多垃圾邮件,因此谷歌需要开发一些机制,让它避免访问低质量的页面谷歌优先抓取最重要的页面 Googlebot 旨在成为网络的好公民它限制了抓取以避免崩溃您的服务器。

3.谷歌抓包教程

对于 Google,最好跳过或延迟访问您的某些 URL,而不是使您的网站服务器崩溃有什么风险?如果 Googlebot 将资源用于抓取您域中的低质量网页,您可能会冒着无法经常抓取更有价值的网页的风险为了缓解这种情况,您可以

4.chrome浏览器抓包

优化爬网预算。

5.谷歌f12抓包分析问题

抓取和索引的工作原理要了解抓取预算,我们必须了解 Google 如何抓取特定网站这个过程由三个因素决定: 抓取速率限制- Google 可以抓取多少个 URL调度- 应抓取哪些 URL 以及何时抓取抓取需求

6.fiddler谷歌浏览器怎么抓包

——谷歌想要抓取多少个网址抓取速度限制抓取速度是 Googlebot 可能用于抓取网站的“并行连接数”,以及两次抓取之间必须等待的时间” 由于网站管理员中心博客声明“Googlebot 旨在成为网络的优秀公民”,因此 Googlebot 必须考虑您服务器的容量,确保在抓取您的网站时不会使其过载。

7.google search console 如何抓取网站

Google 会根据您服务器的响应调整抓取速度。它变得越慢,爬行速度就越低。

8.谷歌浏览器抓取图片插件

调度抓取过程的复杂性要求 Googlebot 创建一个它打算访问的地址列表然后对登记的 URL 的请求排队这个列表不是随机的整个过程称为调度,为了优先考虑有价值的 URL,Google 使用了一种称为抓取需求的复杂机制。

9.burpsuite抓包谷歌浏览器

根据“管理待处理 URL 爬取积压的方法和设备”专利,每个 URL 都被分配了一个爬取优先级 抓取需求这个因素决定了 Google 希望在一次抓取期间访问哪些页面(以及其中的多少)如果 Googlebot 认为某个 URL 足够重要,它会将其放在日程表中的较高位置。

10.谷歌浏览器抓包插件

给定 URL 的重要性取决于:受欢迎程度- 经常在互联网上共享和链接的 URL 将被认为更重要,因此将有更大的机会被 Googlebot 抓取根据 Google 的“最小化网络搜索中陈旧内容的可见性,包括修改文档的网络爬取间隔。

”专利,URL 的受欢迎程度是两个因素的组合:查看率和 PageRank陈旧——一般来说,新鲜内容比多年来变化不大的页面具有更高的优先级我们已经看到了许多关于新页面对 Google 的重要性以及添加它们如何直接影响抓取预算的示例。

例如,一个客户的网站出现了导致 URL 数量大量增加的错误。它在短短一秒钟内从大约 250K 上升到超过 450 万。很快,新页面的大量出现导致抓取需求大幅增加。

然而,值得注意的是,新内容对抓取预算的影响只是暂时的在访问完所有新 URL 之后,每天抓取的页面数量立即恢复到之前的状态,甚至比增长速度还要快 在这种特殊情况下可能发生的情况是,最初,Google 发现有大量新 URL 需要抓取,因此它增加了抓取需求。

然后,谷歌意识到这些新页面是低质量的页面,并决定停止访问它们。

为什么抓取 预算如此重要不久前,谷歌的约翰·穆勒在推特上进行了激烈的讨论,他说:“IMO 爬行预算被高估了大多数网站永远不需要担心这一点” 如果您阅读我之前提到的网站管理员中心博客文章,您可能会遇到以下声明:。

当然,作为一名 SEO 专家,我同意爬取率优化主要有利于大型网站(例如大型电子商务商店)根据我们在 Onely 的经验,如果一个网站包含超过 10 万个 URL,几乎可以肯定它会遇到严重的抓取问题,我们通常会在

针对此类网站的技术 SEO 服务中包含抓取预算优化如果您拥有一个大型网站,您当然应该注意您的抓取预算如果您有一个较小的网站...在许多情况下,您可以不关心抓取预算而侥幸逃脱问题是,除非您真正开始调查此事,否则您不会知道情况。

即使一个网站乍一看似乎很小,但实际上它可能包含数以万计的 URL使用分面导航可以轻松地将 100 个页面转换为 10000 个唯一 URL 内容管理系统中的错误也可能产生有趣的结果我最近遇到了一个网站,该网站主要包含主页副本和报价页面的副本。

这一切都是因为定制的 CMS 没有解决方案来处理不存在的 URL。

考虑到以上所有因素,您绝对应该评估您网站的抓取预算,以确保没有任何问题深入了解机器人如何抓取您的网站为了优化您网站的抓取预算,您需要确定影响它的问题您可以通过多种方式深入了解 Googlebot 在您的网站中实际抓取的内容。

谷歌搜索控制台GSC 是每个 SEO 专家的必备工具它为您提供了大量有关您的网站在 Google 中的状态的有用信息并且在 2019 年,新版 GSC 推出了 beta 版本更新后的工具提供了Tomek Rudzki 关于新 GSC 的文章。

中描述的许多有用功能 以下是一些 GSC 功能,可以为您提供有关抓取预算的宝贵信息:Overview 中的 Coverage 部分将以图表的形式显示许多索引页面看到下面屏幕截图中的巨大增长了吗?被编入索引的 URL 数量如此迅速的增长应该会让您产生怀疑。

索引覆盖率报告将告诉您 Googlebot 访问了网站的哪些部分。这包括编入索引的 URL 和从索引中排除的页面(由于规范、noindex 元标记或其他原因)。

Crawl > Crawl stats (要访问此功能,您需要导航到旧版本的 GSC)将显示每天抓取的页面数量如何随时间变化爬取的URL异常增加可能是由于爬取需求的突然增加(例如,突然出现了数千个新的URL)。

服务器日志分析服务器日志文件包含有关您网站的每位访问者的条目,包括 Googlebot通过分析您的服务器日志,您可以找到有关 Google 实际抓取的内容的确切信息(包括所有 JS、CSS、图像和其他资源)。

如果 Googlebot 没有抓取您有价值的内容,而是误入歧途,日志文件分析会告诉您相关信息,以便您做出相应的反应要获得具有代表性的样本,您需要提取至少三周的日志数据(最好更多)日志文件可能会变得非常大,因此您应该使用适当的工具来处理它们。

幸运的是,存在这样的专用软件:Screaming Frog 的SEO 日志文件分析器许多 SEO 爬虫,例如 Deepcrawl、Botify、JetOctopus 都有专门的模块用于服务器日志分析 另一种选择是使用

Splunk它很贵,但您可以免费下载试用版,不受文件大小或条目数量的限制对于单个 SEO 项目,试用版应该足够了如果您决定选择此工具,您绝对应该查看我们关于如何在 Splunk 中执行服务器日志分析的文章,并学习像专业人士一样进行操作。

如何识别正确的用户代理?由于日志文件包含每个访问者的条目,因此您只需要能够提取有关 Googlebot 的数据。但是怎么做? 如果您的想法是根据其用户代理字符串来决定,恐怕这是错误的答案。

由于每个人都可以伪装成 Googlebot(只需更改 Chrome 开发者工具中的 UA 字符串),因此最好的方法是通过 IP 过滤 Googlebot我们写了一篇关于识别不同爬虫的文章但是,长话短说,Googlebot 的 IP 通常以:“66.249”开头。

在服务器日志分析期间您应该注意什么?在执行服务器日志分析时,您应该调查多个方面:状态码健康日志应主要包含状态 200 和 301(如果您使用缓存策略,也可能出现 304)如果任何其他状态代码大量出现,就该担心了。

您应该查找 404 页面以及 5xx 错误后者可能表明您的服务器存在严重的性能相关问题大量 5xx 错误向 Google 明确表明您的服务器无法处理 Googlebot 的抓取请求因此,抓取过程将受到限制,。

Googlebot 可能无法抓取您网站的所有页面您网站中最常被抓取的部分您应该检查哪些目录和页面的访问次数最多理想情况下,机器人应该主要抓取您最有价值的内容所在的部分例如,如果您有一个电子商务网站,您希望它访问产品和类别页面。

Googlebot 访问许多低质量 URL 的情况很常见,这些 URL 对您的域几乎没有任何价值网址参数通过调查服务器日志,您可以轻松识别网站上正在使用的所有 URL 参数这将允许您在 GSC 中配置机器人行为。

不会更改页面内容的参数(例如按价格排序、受欢迎程度等)可以在您的 Google Search Console 中被阻止抓取如何优化抓取预算机器人.TXT优化机器人预算的最简单方法是使用 robots.txt 文件将您网站的某些部分排除在 Google 抓取之外。

如果您不确定 robots.txt 是什么,我强烈建议您查看有关 robots.txt 的 Google 官方文档您还可以阅读此主题的终极指南例如,在对我们的一位客户进行日志分析期间,我们发现该机器人没有抓取服务报价,而是急切地花时间访问不相关的日历页面。

robots.txt 中的“ Disallow: /profile-calendar ”解决了这个问题要记住的事情:robots.txt 中的 Disallow:指令不会阻止页面被索引它只会阻止从内部链接访问某个页面。

但是,如果机器人抓取从外部来源访问它的 URL(在它可以检查机器人指令之前),该页面仍然可能被编入索引如果您希望某个页面不出现在 Google 索引中,您应该使用meta robots 标签您永远不应禁止页面正确呈现所必需。

的资源路径(例如 CSS 和 JS)该机器人必须能够查看您页面的全部内容创建 robots.txt 文件后,请记住通过 Google Search Console 将其提交给 Google虽然禁止和允许

某些目录和路径,但很容易搞砸并意外阻止必要的 URL因此,您应该使用专用工具来检查您的指令集站点地图.XML根据 Google 的 Gary Illyes 的说法,站点地图 XML 是 Google 发现页面的第二个最佳方式。

(显然,第一个是链接)这不是一个巨大的发现,因为我们都知道正确创建的sitemap.xml 文件将作为 Googlebot 的反馈它可以在那里找到您网站的所有重要页面,并注意到最近的变化因此,让您的站点地图保持新鲜且没有错误至关重要。

单个站点地图文件不应包含超过 50000 个 URL如果您网站上的唯一、可索引页面的数量较大,您应该创建一个站点地图索引,其中包含指向多个站点地图文件的链接正如您在以下示例中看到的:www.iloveonely.com/sitemap_index.xml。

www.iloveonely.com/sitemap_1.xmlwww.iloveonely.com/sitemap_2.xmlwww.iloveonely.com/sitemap_3.xml正确的站点地图应包含:

返回HTTP 状态代码200的 URL ;具有元机器人标签的 URL:索引、关注;(或其他可索引的 URL,由于某种原因,没有指定这些标签)规范页面(换句话说,未规范化到不同的页面)根据 Google 专利,在您的站点地图中使用其他参数也可能是有益的,例如:

更改频率优先 最后修改日期您可以使用 Google Search Console 将 Google 指向您的站点地图在 robots.txt 文件中放置站点地图的链接也是一种很好的做法,如下所示:“站点地图:http://www.iloveonely.com/sitemap_index.xml”

影响抓取预算的常见问题以及如何解决它们JS 和 CSS 文件Googlebot 需要获取以呈现您的页面的每个资源都计入您的抓取预算为了缓解这种情况,请确保这些资源可以被 Google 缓存避免使用缓存破坏 URL(那些经常更改的 URL)。

您还可以使用高级技术来减少脚本的负面影响,例如代码拆分这样,您可以只向 Google 发送必要的代码,从而减少资源消耗的渲染过程服务器性能不佳如前所述,抓取速度会根据您的服务器功能进行调整糟糕的网站性能可能会导致服务器很容易过载,从而导致从 Googlebot 收到的访问次数减少。

我们观察到每天抓取的页面数量与下载页面所花费的时间之间存在直接相关性内部重定向每次机器人遇到重定向的 URL 时,它都必须发送一个额外的请求才能到达最终 URL乍一看,这似乎没什么大不了的,但请这样想:如果您有 500 个重定向,那么实际上需要抓取 1000 个页面。

而5313623个重定向其实就是10627246个页面要爬取这仅适用于单一重定向的情况。有时我们会发现更长的重定向链,如下所示:

如您所见,涉及六个(!)重定向,最终结果是 404 错误页面有趣的是,谷歌可能不会访问这个 404 页面,因为它在一个 URL 上最多会跟踪五个重定向您无法避免从外部来源指向您网站的重定向 URL(事实上,如果链接不是最新的,您应该使用 301 以确保您的内容仍然可以访问),但您必须确保之后进入您的网站,机器人不会遇到任何重定向的内部 URL。

如何处理内部重定向使用 Ryte、DeepCrawl、SiteBulb 或 Screaming Frog 等众多工具之一对您的网站进行全面爬网以前没用过爬虫?那么您绝对应该访问我们的爬虫初学者指南(如果您正在为选择哪种爬虫而苦苦挣扎,请阅读。

SEO 爬虫终极指南)爬网后,识别工具遇到的重定向 URL,以及放置给定链接的源页面在 Screaming Frog 中,您可以使用 Bulk Export > Response Codes > Redirections (3XX) Inlinks 进行重定向,并使用 Redirect & 。

Canonical Chains 报告来查找重定向链(如果您想了解如何在 Sitebulb 中导出此类数据,请查看此链接) :

更新在源页面上找到的链接,使它们都直接指向目标 URL(HTTP 状态代码 200)糟糕的信息架构一个经过深思熟虑的、有逻辑的网站结构是搜索引擎优化的一个非常重要的元素这是一个相当常见的 IA 问题列表,这些问题可能会对爬网预算产生巨大影响。

重复页面将内容复制到多个页面不仅会导致内容重复问题,而且还会对爬网产生负面影响,因为重复页面会占用爬网计划中的空间有几类重复内容值得解决:使用规范链接的不必要的非规范链接本身并不是一件坏事事实上,谷歌推荐它作为处理重复内容的一种方式。

但是,您必须记住,每个规范化页面都是有问题的(当机器人可能会花费这段时间访问更有价值的页面时,为什么要抓取重复项?)此外,在访问重复内容时,机器人需要将其与规范页面进行比较,并确保它实际上是重复内容这导致向服务器发送另一组不必要的请求。

哪个约翰马尔科维奇是规范的?因此,您应该始终问自己以下问题,看看是否真的需要重复页面:它会改善导航吗?它有什么实际用途吗?用规范页面替换它会产生任何问题吗?如果所有答案都不是,那么也许您应该考虑删除重复页面并将所有内部链接替换为指向规范页面的链接。

在这种情况下,您还应该记住将已删除页面的 URL 重定向(通过使用HTTP状态代码 301)到原始 URL如果绝对必要,您应该只在您的网站架构中保留重复的非规范页面类似的原则适用于无索引页面,因为它们中的大量也会影响爬网预算。

然后是随机重复有时您甚至可能不知道您的网站包含许多重复页面这可能是错误、错误实现的结果,或者可能只是由 CMS 处理 URL 的方式引起的这可以通过在 Google 搜索中键入 site:yourdomainname.com 并在索引中挖掘来轻松识别。

或者只是转到您的 GSC>Coverage>Excluded 并查找重复的内容 如果您发现的页面数量让您感到惊讶,您首先需要弄清楚它们为什么存在然后,必须采取几项措施:通过放置noindex来对重复项进行索引,遵循

代码中的元标记不要在 robots.txt 中阻止它们,因为这会阻止机器人重新访问和取消索引页面只有在所有有问题的页面都被取消索引后,您才应该阻止 robots.txt 中的相应路径之后,您应该从网站中删除有问题的页面

,并将已删除的 URL 重定向到规范版本如果您有从未被索引或没有从外部来源获得任何链接的重复项,您可以简单地删除它们并使用状态代码 410,而不是重定向无限空间还记得我之前提到的日历问题吗?该日历每个月都有一个唯一的 URL。

在每个月的页面上,只有两个链接:第一个指向上个月的页面,另一个指向下一个您可以回到黑暗时代(如果您有耐心的话),或者预订 2100 年 4 月 1 日的服务结果,Googlebot 可能会陷入无限的爬行过程,只需点击下个月的链接。

这是无限空间的完美例子。

预订我们 2682 年 8 月的服务!最好现在就做,趁你还可以的时候如果您的网站当前包含无限空间,您应该首先考虑您是否真的需要这样的页面如果没有,在删除它们后,让它们返回 HTTP 状态代码 410如果需要这些无限空间,您必须确保机器人无法抓取或索引页面:。

在 HTML 代码中放置 noindex 标签;如果没有任何页面被索引,您可以阻止 robots.txt 中的无限空间如果某些页面已编入索引,则首先您必须等待 Google 从索引中删除这些页面只有这样,您才应该阻止 robots.txt 中的路径。

内部连接不良内部链接会创建 Googlebot 用来导航您的网站的路径,而完善的链接结构将确保有效抓取您的有价值的内容另一方面,缺乏内部链接可能导致谷歌不愿意抓取网站的某些部分在设计内部链接结构时,您应该避免这些常见的陷阱:。

链接到 404 错误页面- 您不想将 Googlebot 发送到不存在的页面孤立页面- 存在于站点地图中但尚未在内部链接到的页面Googlebot 可能决定不那么频繁地访问它们具有长点击路径的页面- 确保您最重要的内容在您最强大的页面(在大多数情况下,将是主页)的点击中不超过 3 次。

我们已经知道,对于谷歌来说,给定页面在网站架构中的位置远没有点击路径重要垃圾链接——通常放置在页脚部分或页面底部,数十个链接的关键字填充在锚文本中Googlebot 将在很大程度上忽略此类链接,并且不会为您的网页增加任何价值。

可视化内部链接的结构可以帮助您确定可以改进的领域您可以学习如何使用 Gephi 进行操作但是,一些流行的 SEO 爬虫,例如 Screaming Frog、SiteBulb 和网站审核员也启用了此类功能。

在改进内部链接结构时,您应该遵循以下最佳实践:您最重要的页面应该获得最多的内部链接链接到相关主题(在文章的情况下)或相关产品/类别(在电子商务商店中)让您的内容被发现;确保这些链接真正连接相关内容——以满足用户和 Googlebot 的需求。

文章中的上下文链接为用户和搜索引擎增加了价值(Googlebot 将使用锚文本来更好地理解网站的结构);不要过度优化——锚文本应该是自然的和信息丰富的,不要用不必要的关键字填充它不要只是用链接填充页面。

——确保它们为用户增加了实际价值您还可以从阅读我们关于在您的网站上开发导航的文章中受益站点地图中的错误/缺少 XML 站点地图如果您的网站目前没有 XML 站点地图,那么您绝对应该根据我在本文前面描述的指南构建一个,并通过 GSC 将其发送给 Google。

由于它将帮助 Googlebot 发现新内容并安排抓取时间,因此您必须确保文件中列出了所有唯一的、可编入索引的页面此外,您应该始终保持站点地图的新鲜度查看您的站点地图结构是否正确的最佳方法是使用 SEO 爬虫。

大多数可用的工具(包括 Screaming Frog、SiteBulb、Ryte、Deepcrawl)都会让您选择在执行完整爬网时分析站点地图总结:经过漫长的旅程,我们终于到达了终点希望到此,你对爬取过程有了一个很好的了解。

您从本文中获得的所有信息都可以在您的网站上工作时使用。如果您遵循最佳做法,无论您的网站有多少个 URL,您都将确保有效的抓取。请记住,您的网站越大,抓取预算就越重要。举报/反馈

  • 关注微信

猜你喜欢

微信公众号