Robots.txt 生成器
可视化生成 robots.txt 文件,支持用户代理规则、路径控制、AI 爬虫屏蔽和 URL 测试。
关于 Robots.txt 生成器
robots.txt 文件告诉网络爬虫可以或不可以访问您网站的哪些页面或区域。它使用机器人排除协议,包含 User-agent、Disallow、Allow、Crawl-delay 和 Sitemap 指令。正确配置的 robots.txt 文件有助于管理爬取预算、保护私密页面和控制 AI 数据收集。
如何使用
选择快速模板或构建自定义规则。添加用户代理规则(特定爬虫或使用 * 代表所有爬虫)。为每个爬虫添加 Disallow 路径以阻止访问,以及 Allow 路径以允许访问。添加您的站点地图 URL。使用 URL 测试器验证特定 URL 是否被允许或阻止。复制或下载生成的 robots.txt 并上传到网站根目录。
常见用例
- 阻止 AI 网络爬虫(GPTBot、CCBot)在您的内容上训练
- 保护管理后台、登录和私密页面不被搜索引擎索引
- 通过阻止重复/低质量内容页面来配置爬取预算
- 为 WordPress、电商或自定义网站设置 robots.txt
- 测试和验证现有 robots.txt 规则是否对特定 URL 生效