如何禁止 AI 抓取网站内容用于其训练

2024-10-15 1896 6

目前各大 AI 公司都通过抓取网站内容用于其 AI 训练。搜索引擎抓取内容后会给网站流量，AI 抓取内容用于训练后，像 ChatGPT 和 Google Gemini 基本不给出处，所以网站得不到流量。因此，我们要让网站禁止 AI 蜘蛛抓取。

怎样禁止 AI 抓取网站内容？目前看，还是用 robots 文件禁止访问最方便。

8月份，OpenAI 发布了他们的抓取蜘蛛的新名字：GPTBot，9月28号，Google 也发布了用于 AI 训练的专用蜘蛛名字：Google-Extended。网站可以像禁止其他蜘蛛一样，用 robots 文件禁止它们抓取：

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

OpenAI 的方法公布后，已经有不少大网站禁了 GPTBot 。

据 Originality.ai 统计，前1000名大网站，已经有242个禁了GPTBot，占了能检查到robots文件的933个网站的26%。其中包括 amazon，pinterest，quora，纽约时报，CNN，华盛顿邮报，路透社等。

图里的 CCBot 是 Common Crawl 的蜘蛛，一个非赢利组织，是个大型网站数据库，很多 AI 是用 CC 数据库训练的，所以也被不少网站给禁了。

Google 的禁止方法才发布，还不知道成效。

标签：Google · OpenAI · 人工智能 · 使用教程

相关推荐

技术 2023-11-21

AI 与水印

今天看到一则科技新闻：Google 在 AI 生成音乐中嵌入了听不见的水印，说： Google DeepMind 最近发布的 AI 音乐生成模型 Lyria 会使用 SynthID 在生成的音乐中嵌入人耳听不见的水印。此举便于跟踪 AI 音乐的来源。DeepMind 称，人耳应该听不到，也不会影响聆听体验。即使音轨压缩、加速或减速，或者加入噪音，水印仍然能 ...

基于 SageMaker Notebook 快速搭建托管的 Stable Diffusion – AI 作画可视化环境

技术 2023-05-13

基于 SageMaker Notebook 快速搭建托管的 Stable Diffusion – AI 作画可视化环境

本文主要介绍如何使用 Amazon SageMaker Notebook 机器学习服务轻松托管 Stable Diffusion WebUI，一键部署开箱即用的 AIGC 图片方向轻量级应用。通过 Amazon CloudFormation 基础设施即代码的服务，实现底层环境、AI 模型和前端 Stable Diffusion WebUI 的快速部署，帮助用户在 15~20 分钟部署一套文生图、图生图的 AI ...

AI 聊天机器人 ChatGPT 火爆全网，国内用户如何注册？

技术 2022-12-09

AI 聊天机器人 ChatGPT 火爆全网，国内用户如何注册？

最近的一周，你一定听说过 ChatGPT 的大名，这款被捧为史上最强 AI 聊天机器人，已经成为网红，上线仅一周，注册用户已破百万。现在，国内外各大社交平台上到处可见网友晒出的自己与 ChatGPT 的聊天截图，内容从最简单的知识问答，到写小说、写诗歌、做试题，甚至编写代码，几乎涵盖了任何你能想象到的文字沟通形式。像 ...

DeepSeek 月访问量超越 ChatGPT，成为增长最快的 AI 工具

资讯 2025-04-02

DeepSeek 月访问量超越 ChatGPT，成为增长最快的 AI 工具

据人工智能分析平台 aitools.xyz 最新数据显示，DeepSeek 已成为全球增长最快的 AI 工具，每月新增网站访问量超过 OpenAI 的 ChatGPT。该数据基于对 171 个类别的 10,500 多种 AI 工具的追踪。aitools.xyz 称，DeepSeek 在 2 月份占据了聊天机器人市场的 12.12%，仅次于 ChatGPT。报告补充称，DeepSeek 在 2025 年 2 ...

6 条评论

秋风于渭水

2024年10月15日 14:52 回复

我选择了在WAF里拉黑他们的UA

maqingxi

2024年10月16日 08:57 回复

@秋风于渭水你提供了另一种思路，赞。

dujun

2024年10月15日 17:15 回复

这个提醒了我，我处理了搜索引擎爬虫，AI 爬虫倒是没想过，现在去看一下。

maqingxi

2024年10月16日 08:56 回复

@dujun 这样可以过滤无效访问，减轻服务器压力，提升网站访问体验。

明月登楼

2024年10月23日 20:31 回复

这些AI爬虫现在非常嚣张，来访的频率那是相当的高，我CloudFlare里直接都给过滤掉了！

maqingxi

2024年10月27日 18:09 回复

@明月登楼非常有必要禁止其访问。

发表评论取消回复