如何禁止 AI 抓取网站内容用于其训练

目前各大 AI 公司都通过抓取网站内容用于其 AI 训练。搜索引擎抓取内容后会给网站流量,AI 抓取内容用于训练后,像 ChatGPT 和 Google Gemini 基本不给出处,所以网站得不到流量。因此,我们要让网站禁止 AI 蜘蛛抓取。

怎样禁止 AI 抓取网站内容?目前看,还是用 robots 文件禁止访问最方便。

8月份,OpenAI 发布了他们的抓取蜘蛛的新名字:GPTBot,9月28号,Google 也发布了用于 AI 训练的专用蜘蛛名字:Google-Extended。网站可以像禁止其他蜘蛛一样,用 robots 文件禁止它们抓取:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

OpenAI 的方法公布后,已经有不少大网站禁了 GPTBot 。

据 Originality.ai 统计,前1000名大网站,已经有242个禁了GPTBot,占了能检查到robots文件的933个网站的26%。其中包括 amazon,pinterest,quora,纽约时报,CNN,华盛顿邮报,路透社等。

图里的 CCBot 是 Common Crawl 的蜘蛛,一个非赢利组织,是个大型网站数据库,很多 AI 是用 CC 数据库训练的,所以也被不少网站给禁了。

Google 的禁止方法才发布,还不知道成效。


历史上的今天:

相关推荐

AI 与 水印

今天看到一则科技新闻:Google 在 AI 生成音乐中嵌入了听不见的水印,说: Google DeepMind 最近发布的 AI 音乐生成模型 Lyria 会使用 SynthID 在生成的音乐中嵌入人耳听不见的水印。此举便于跟踪 AI 音乐的来源。DeepMind 称,人耳应该听不到,也不会影响聆听体验。即使音轨压缩、加速或减速,或者加入噪音,水印仍然能 ...

基于 SageMaker Notebook 快速搭建托管的 Stable Diffusion – AI 作画可视化环境

本文主要介绍如何使用 Amazon SageMaker Notebook 机器学习服务轻松托管 Stable Diffusion WebUI,一键部署开箱即用的 AIGC 图片方向轻量级应用。通过 Amazon CloudFormation 基础设施即代码的服务,实现底层环境、AI 模型和前端 Stable Diffusion WebUI 的快速部署,帮助用户在 15~20 分钟部署一套文生图、图生图的 AI ...

AI 聊天机器人 ChatGPT 火爆全网,国内用户如何注册?

最近的一周,你一定听说过 ChatGPT 的大名,这款被捧为史上最强 AI 聊天机器人,已经成为网红,上线仅一周,注册用户已破百万。现在,国内外各大社交平台上到处可见网友晒出的自己与 ChatGPT 的聊天截图,内容从最简单的知识问答,到写小说、写诗歌、做试题,甚至编写代码,几乎涵盖了任何你能想象到的文字沟通形式。 像 ...

家庭作业是不是都可以交给 AI 智能助手了?

缘起单位组织的一次线上法律知识测试,试题包涵单项选择、多项选择和判断题,题目是从题库中随机抽取的,所以每个人的试题都不一样,关键是题目不是机械的知识点阵列,是灵活应用型的,所以难度还是挺大的。 第一次,我采取了常规的用搜索引擎查找答案的方式,用了 Google 和百度,因为是单位的试题,网上也没有现成范例 ...

6 条评论

  1. 我选择了在WAF里拉黑他们的UA

  2. 这个提醒了我,我处理了搜索引擎爬虫,AI 爬虫倒是没想过,现在去看一下。

    • @dujun 这样可以过滤无效访问,减轻服务器压力,提升网站访问体验。

  3. 这些AI爬虫现在非常嚣张,来访的频率那是相当的高,我CloudFlare里直接都给过滤掉了!

发表评论

您的电子邮件地址不会被公开,必填项已用*标注。