Google只对页面HTML的前15 MB进行爬网和索引

2022-10-19
13:10

首页
>
谷歌SEO知识
>
Google只对页面HTML的前15 MB进行爬网和索引

几天前，谷歌搜索中心的文档中出现了新信息。显然，Google 在确定 SERP 位置时仅使用页面 HTML 文件的前 15 MB。这到底是什么意思？你需要担心吗？继续阅读以找出答案！

关于 Googlebots Work 的最新信息

最近的文档更新带来了有关 Googlebot 工作的新信息，特别是它们有限的操作。谷歌报告说：

Googlebot 可以抓取 HTML 文件或受支持的基于文本的文件的前 15MB。HTML 中引用的任何资源（例如图像、视频、CSS 和 JavaScript）都是单独获取的。在文件的前 15MB 之后，Googlebot 会停止抓取，并且只考虑将文件的前 15MB 编入索引。文件大小限制适用于未压缩的数据。其他爬虫可能有不同的限制。– https://developers.google.com/search/docs/advanced/crawling/googlebot

这意味着任何超出 15 MB 文件限制的内容都不会包含在排名计算中，因此不会被编入索引。

这些信息引起了一些混乱，但约翰·穆勒在推特上打消了一些疑虑。

他说，首先，这个限制并不新鲜——据他说，它存在得更早，但直到现在用户才被告知——其次，它适用于 HTML 文件本身。该限制不包括嵌入 IMG 标签的任何资源或内容。