栏目分类

热点资讯

期货投资

你的位置：股票配资网站排名 > 期货投资 >

OpenAI倏得“糟跶”了10万多本书，到底发生了什么？

发布日期：2024-05-12 03:46 点击次数：71

科技公司不思被动为数据付费。这一争捏照旧激励了多起讼事。

OpenAI堕入典籍版权纠纷

网科技讯北京时分5月8日，最新解封的法庭文献炫耀，OpenAI删除了两个名为“典籍1”(books1)和“典籍2”(books2)的精深数据集，这些数据集曾用于磨练其GPT-3东说念主工智能(AI)模子。

这些文献来自好意思国作者协会对OpenAI拿起的集体诉讼。好意思国作者协会的讼师在法庭文献中示意，这些数据集很可能包含“10万多本已出书竹帛”，是该协会指控OpenAI使用受版权保护的材料来磨练AI模子的要道。

几个月来，好意思国作者协会一直寻求从OpenAI取得磋磨这些数据集的信息。法律文献炫耀，OpenAI启航点以守密为由拒却提供这些数据集的着落，但最终败露已删除所额外据副本。

高质料的磨练数据是强盛AI模子的紧迫构成部分。当今，这些AI模子正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模子，其中包括很多竹帛。很多创造这些数据的公司以为，他们为新的AI居品提供了磨练数据，需要取得报酬。关联词，科技公司不思被动付费。这一争捏照旧激励了多起讼事。

500亿个单词

OpenAI曾在2020年发布过一份白皮书，将典籍1和典籍2数据集形色为“基于互联网的典籍语料库”，并示意它们占据创建GPT-3磨练数据的16%。白皮书还示意，典籍1和典籍2总计包含670亿个数据词元(token)，大要相配于500亿个单词。四肢相比，股民《钦定圣经》有783，137个单词。

最新解封的法庭文献是OpenAI讼师的信函，它被美艳为“高度好意思妙-仅限讼师稽察”。信中说，OpenAI已在2021年底罢手使用典籍1和典籍2进行模子磨练。由于这些数据集不再使用，它们在2022年年中被删除。信中还说，用于磨练GPT-3的其他数据皆莫得被删除，并允许好意思国作者协会的讼师探询其他数据集。

该文献还炫耀，创建典籍1和典籍2的两名商讨东说念主员已不再受雇于OpenAI。OpenAI启航点拒却深入这两名职工的身份，随后向好意思国作者协会的讼师证据了这些职工的身份，但莫得公开败露他们的姓名。OpenAI照旧恳求法院对这两名职工的姓名以及磋磨数据集的信息守密。好意思国作者协会对此示意反对，以为公众有知情权。当今，争议仍在陆续。

OpenAI周二在一份声明中示意：“运转瞬前ChatGPT和期骗圭表接口的模子不是使用这些数据集设备的。这些数据集是由OpenAI前职工创建的，终末一次使用是在2021年，并在2022年因未使用而被删除。”(作者/箫雨)

更多一手新闻，接待下载新闻客户端订阅网科技。思看深度报说念，请微信搜索“网科技”

上一篇：电投动力(002128.SZ)：瞻望2025年电投动力电解铝产能将达到121万吨

下一篇：5月10日基金净值：中原可转债增强债券A最新净值1.2143，跌0.59%

股票杠杆

热点资讯

期货投资

OpenAI倏得“糟跶”了10万多本书，到底发生了什么？