Anthropic знищив мільйони друкованих книг для розробки своїх моделей штучного інтелекту

Однак, якщо ви не глибоко обізнані з індустрією штучного інтелекту та авторським правом, ви можете запитати: чому компанія витрачає мільйони доларів на книги, щоб їх знищити? За цими незвичними юридичними маневрами стоїть більш фундаментальна причина: ненаситна потреба індустрії ШІ в якісному тексті.

Гонка за якісними даними для навчання

Щоб зрозуміти, чому Anthropic прагне охопити мільйони книг, важливо усвідомити, що дослідники ШІ створюють великі мовні моделі (LLM), подаючи мільярди слів у нейронну мережу. Під час навчання система ШІ неодноразово обробляє текст, встановлюючи статистичні зв’язки між словами та концепціями.

Якість навчальних даних, що подаються в нейронну мережу, безпосередньо впливає на можливості отриманої моделі ШІ. Моделі, навчені на добре відредагованих книгах та статтях, зазвичай генерують більш узгоджені та точні відповіді, ніж ті, що навчені на матеріалах нижчої якості, таких як випадкові коментарі з YouTube.

Видавці законно контролюють контент, який компанії ШІ прагнуть отримати, але AI-компанії не завжди бажають вести переговори щодо ліцензії. Доктрина першого продажу пропонувала обхідний шлях: як тільки ви купуєте фізичну книгу, ви можете робити з нею все, що забажаєте, включаючи її знищення. Це означало, що покупка фізичних книг надавала законний обхідний варіант.

Втім, купувати речі дорого, навіть якщо це законно. Тож, подібно до багатьох AI-компаній раніше, Anthropic спочатку обрала швидкий та зручний шлях. У прагненні до якісних даних для навчання судовий документ вказує, що Anthropic спочатку вирішила зібрати цифрові версії піратських книг, щоб уникнути того, що генеральний директор Деріо Амодей назвав “юридичним/практичним/діловим важким процесом” — складними ліцензійними переговорами з видавцями. Але до 2024 року Anthropic стала “менше зацікавлена” у використанні піратських електронних книг “з юридичних причин” і потребувала надійнішого джерела.