OpenAI и обучение GPT на пиратских книгах

Судья Она Ванг обязала OpenAI раскрыть переписки с юристами о данных из LibGen. Это дело противоречит авторским правам на книги для обучения моделей GPT.

Число просмотров: 10

Федеральный судья Она Ванг вынесла решение против OpenAI

Федеральный судья Она Ванг в Нью-Йорке вынесла решение, которое заставляет OpenAI раскрыть внутренние переписки с юристами, касающиеся удаления двух наборов данных, собранных из пиратской библиотеки LibGen. Это решение стало частью масштабного судебного разбирательства, в котором OpenAI обвиняют в использовании книг без разрешения авторов для обучения своих моделей серии GPT.

Суть дела

Истцами выступили объединение Authors Guild и группа известных писателей, включая Джорджа Мартина и Джона Гришэма. Они утверждают, что еще в 2018 году сотрудник OpenAI скачал массив книг из LibGen и создал два набора данных — Books1 и Books2. В этих наборах могло быть более 100 000 книг, которые затем использовались для обучения GPT-3 и GPT-3.5. По мнению истцов, это нарушает авторские права, поскольку книги были взяты без согласия авторов и правообладателей.

Почему удаление данных стало ключевым вопросом

Судья Ванг подчеркнула, что OpenAI одновременно настаивает на добросовестности своих действий и отказывается предоставлять документы, которые могут подтвердить или опровергнуть эту добросовестность. Такой подход, по ее мнению, создает двойные стандарты и лишает компанию возможности ссылаться на адвокатскую тайну. В результате суд обязал OpenAI предоставить широкий спектр внутренней документации, включая письма и сообщения с юристами, а также любые упоминания LibGen, которые ранее скрывались.

Что именно должно быть раскрыто

Все письменные коммуникации с внутренними юристами о причинах удаления Books1 и Books2.
Любые внутренние упоминания LibGen, которые ранее не были раскрыты.
Переписка в Slack-канале excise-libgen / project-clear, где сотрудники обсуждали процесс удаления данных LibGen из инфраструктуры OpenAI.

Последствия для OpenAI

Если суд установит, что данные сначала умышленно использовались, а затем специально удалялись, размер ущерба может значительно увеличиться. Вместо стандартной компенсации в 750 долларов за книгу, сумма может вырасти до 150 000 долларов за каждую книгу. Это может привести к многомиллиардным выплатам, если будет доказано умышленное сокрытие улик.

Реакция OpenAI

OpenAI пока не комментировала решение суда, но ранее заявляла, что намерена оспаривать судебное решение. Компания также подчеркивает, что конфиденциальность пользователей будет защищена с помощью специальных мер, хотя пользователи и эксперты выражают обеспокоенность по поводу возможных нарушений приватности.

Заключение

Решение судьи Ванг стало важным шагом в борьбе за защиту авторских прав в эпоху искусственного интеллекта. Оно показывает, что компании, использующие большие объемы данных для обучения своих моделей, не могут просто скрывать свои действия за адвокатской тайной. Это также подчеркивает необходимость четкого правового регулирования в области использования данных для ИИ, чтобы защитить как права авторов, так и приватность пользователей.