生活网 9月2日消息:《卫报》已经阻止 OpenAI 从其内容中获取数据。该出版商是最新一家阻止人工智能公司使用其内容来创建 ChatGPT 等产品的新闻机构。
担心 OpenAI 正在使用未经许可的内容来创建其人工智能工具,已导致作家对该公司提起诉讼,并呼吁创意产业采取措施保护知识产权。
《卫报》确认已禁止 OpenAI 部署软件以收集其内容。生成式人工智能技术——指可以从简单的人类提示中生成令人信服的文本、图像和音频等产品——自去年推出 ChatGPT 聊天机器人版本以来就受到公众瞩目。然而,有关虚假信息大规模生产和此类工具建立方式的担忧也随之而来。
ChatGPT 及类似工具背后的技术是通过向其中输入大量来源于开放互联网(包括新闻文章)的数据进行「训练」的,使得这些工具可以预测用户提示后最可能出现哪个单词或句子。
OpenAI 并没有透露帮助构建 ChatGPT 模型背后所用数据,但在 8 月份宣布将允许网站运营者阻止其网络爬虫程序获取他们的内容,尽管此举并不允许从现有的训练数据集中删除材料。目前,一些出版商和网站正在阻止 GPTBot 爬虫程序。
《卫报》及其子公司 Guardian News & Media 的发言人表示:「出于商业目的从卫报网站上窃取知识产权的行为一直以来都违反了我们的服务条款。这一点始终如一。《卫报》商业授权团队与全球开发者之间有着多种互惠互利的商业关系,并期待未来建立更多这样的关系。」
根据 Originality.ai 检测到 AI 生成内容显示,现在阻止 GPTBot 爬虫程序(该程序从网页中提取数据以供其 AI 模型使用)的新闻网站包括 CNN、路透社、华盛顿邮报、彭博社、纽约时报及其体育网站 The Athletic 等。其他已经阻止 GPTBot 爬虫程序的网站还包括 Lonely Planet、亚马逊 (Amazon)、Indeed,、问答平台 Quora 和 dictionary.com。
本周,英国图书出版商敦促其首相 Rishi Sunak 通过在 11 月主持英国安全峰会议程上加入保护创意产业知识产权来保护创意产业知识产权。代表数字和印刷书籍、研究期刊和教育内容的出版商协会的一封信要求首相明确表示,在构建 AI 系统时必须尊重知识产权法。
今年 7 月,埃隆·马斯克对其 Twitter 平台(现已更名为 X)施加了限制,以解决他所声称的人工智能公司构建模型的「极端程度的数据抓取」问题。他在 Twitter 上表示,「几乎每家从事人工智能的公司」都从 Twitter 获取「大量数据」,马斯克表示,这迫使该公司付出一定代价部署更多服务器来满足需求。
然而,马斯克也确认将使用公共推文来训练其新宣布的 AI 初创企业 xAI 开发的模型。
谷歌的隐私政策现在规定,该公司使用网络爬虫帮助用户查找搜索结果,可能会收集公开信息来训练谷歌人工智能产品的模型,其中包括 Bard 聊天机器人。本周,Facebook 和 Instagram 的所有者以及主要人工智能开发商 meta 推出了一项新政策,允许用户表示是否不希望自己的个人信息用于训练人工智能模型。