+ 我要发布
我发布的 我的标签 发现
浏览器扩展
斑点象@Edge

OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭

OpenAI 推出了 GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。 得到的这些数据则会被用来训练像 GPT-4 和 GPT-5 这样的 AI 模型! 前段时间,抓取平台用户数据风波,Reddit 网友吵翻了天。 今天,OpenAI 推出了一个网络爬虫工具 GPTBot,能够自动抓取网站的数据。 如何使用? OpenAI 在发布的文档中表示,网络爬虫将过滤删除需要付费强访问的来源,同时也会删除个人身份信息(PII)或违反其政策的文本。 GPTBot 抓取的数据,被用来训练 GPT-4 或 GPT-5,能够提升未来人工智能系统的准确性和能力。 可通过以下代码识别该工具: User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot 访问 另一方面,你也可以通过将 GPTBot 添加到站点 robots. txt,来禁止其访问网站。 这意味着,网站所有者必须自愿采取措施,禁止 OpenAI 对自己的网站访问,不将自己的数据用来训练。 User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 你还可以通过以下代码,来控制 GPTBot 对网站部分内容的访问。 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口 对于 OpenAI 的爬虫,将从 OpenAI 网站上记录的 IP 地址块调用网站。 网友热议 OpenAI 此举引发了网友对用于训练 AI 模型的网络爬虫的道德问题的讨论。 「OpenAI 甚至没有适度引用。它是在制作衍生作品,却没有引用,从而掩盖了它的事实。」 网友表示,终于有机会阻止 OpenAI 抓取你的网络数据,来训练模型。 还有人表示,ChatGPT 浏览器插件已被移除一段时间,部分原因是它可以访问付费墙后面的内容。 前段时间,OpenAI 于 7 月 18 日向美国专利局提交了 GPT-5 的商标申请,暗示着公司正在训练更高级的 AI 系统。 GPTBot 显然将帮助该 OpenAI 从互联网上收集更多数据来训练这个模型。 参考资料: https://platform.openai.com/docs/gptbot
你可能想看的