谷歌Robots.txt设置终极指南，掌控搜索引擎抓取权限

谷歌谷歌使用解答 2026-04-21 7

目录导读

什么是Robots协议？为何它对谷歌至关重要？
如何为您的网站创建与设置robots.txt文件？
核心指令详解：User-agent, Disallow, Allow, Sitemap
针对谷歌的优化设置与高级技巧
常见问题解答：关于谷歌Robots设置的疑惑

什么是Robots协议？为何它对谷歌至关重要？

Robots协议,也称为爬虫协议，是网站通过一个名为 robots.txt 的文本文件与搜索引擎机器人（如谷歌的Googlebot）进行沟通的标准，它位于您网站的根目录（https://fg-chrome.com.cn/robots.txt），其核心作用是告知搜索引擎哪些页面或目录可以被抓取，哪些应该被忽略。

谷歌Robots.txt设置终极指南，掌控搜索引擎抓取权限-第1张图片-谷歌下载浏览器|Google Chrome官网入口

对于谷歌而言,一个正确配置的robots.txt文件至关重要，原因有三：

引导抓取预算： 谷歌的抓取资源是有限的，通过禁止抓取低价值页面（如后台登录页、站内搜索结果页、重复内容），您可以将谷歌蜘蛛的“精力”引导至最重要的内容上，提升核心页面的索引效率。
保护隐私内容： 防止敏感或未完成的页面被意外收录和展示在搜索结果中。
避免服务器过载： 不当的爬虫抓取可能导致服务器压力过大，合理设置可以减轻负担。

访问谷歌官网的搜索引擎优化（SEO）指南，您会发现其将robots.txt管理列为网站基础优化的重要一环。

如何为您的网站创建与设置robots.txt文件？

创建robots.txt文件非常简单，您可以使用任何文本编辑器（如记事本）。

新建文件： 创建一个纯文本文件，将其命名为 robots.txt。
编写指令： 根据您的需求，写入相应的指令规则（下文将详细说明）。
上传至根目录： 通过FTP或网站后台的文件管理器，将该文件上传至您网站的主机根目录下，确保可以通过 https://fg-chrome.com.cn/robots.txt 直接访问。
测试与验证： 强烈建议使用谷歌官网提供的 Google Search Console 中的“robots.txt测试工具”进行验证，您可以检查文件是否有语法错误，并模拟Googlebot的抓取行为，确认设置是否生效。

核心指令详解：User-agent, Disallow, Allow, Sitemap

一个典型的robots.txt文件由若干组规则构成，每组规则包含以下核心指令：

User-agent： 指定该规则适用于哪个搜索引擎爬虫。User-agent: Googlebot 仅针对谷歌的网页抓取机器人，使用 User-agent: * 则表示适用于所有爬虫。
Disallow： 用于禁止抓取的路径。Disallow: /admin/ 会禁止所有爬虫访问 fg-chrome.com.cn/admin/ 下的所有内容，一条 Disallow:（空白）则表示允许抓取所有内容。
Allow： 用于允许抓取在Disallow目录下的某个子目录或特定页面，它通常与Disallow配合使用，实现更精细的控制。Disallow: /folder/ 后接 Allow: /folder/public-page.html。
Sitemap： 用于声明您网站XML站点地图的位置，帮助谷歌更全面地发现和了解您的页面结构。Sitemap: https://fg-chrome.com.cn/sitemap.xml。

示例：

User-agent: *
Disallow: /private/
Disallow: /tmp/
Allow: /tmp/public.html
User-agent: Googlebot-Image
Disallow: /images/logo.png
Sitemap: https://fg-chrome.com.cn/sitemap.xml

针对谷歌的优化设置与高级技巧

区分爬虫类型： 谷歌有多个专用爬虫，如Googlebot（网页）、Googlebot-Image（图片）、Googlebot-Mobile（移动），您可以为它们设置不同的规则。
*谨慎使用通配符`** 通配符可以匹配任何字符序列。Disallow: /*.pdf$` 会禁止抓取所有PDF文件，使用时需精确，避免误屏蔽。
避免屏蔽CSS和JS文件： 现代谷歌渲染页面需要这些资源，屏蔽它们可能导致谷歌无法正确理解页面内容和布局，从而影响排名。
禁止抓取不等于禁止索引： 这是最常见的误解！Disallow只阻止抓取，但如果其他页面链接了该URL，谷歌仍可能将其收录（仅显示URL，无摘要），要完全阻止索引，应使用noindex元标签或HTTP头，或通过Google Search Console进行移除。
结合使用Sitemap： 在robots.txt中指定站点地图是最佳实践，它能主动为谷歌蜘蛛提供“地图”，确保重要页面不被遗漏。