DeepSeek випробовує "рідкісну увагу" для зменшення витрат на обробку штучного інтелекту

Утворення контексту за допомогою уваги

У штучному інтелекті термін “увага” описує програмну техніку, яка визначає, які слова в тексті є найбільш важливими для взаєморозуміння. Ці зв’язки допомагають формувати контекст, а контекст, у свою чергу, створює значення в мові. Наприклад, у реченні “Банк підвищив процентні ставки” механізм уваги дозволяє моделі встановити, що “банк” стосується “процентних ставок” у фінансовому контексті, а не в контексті річки. Завдяки увазі концептуальні зв’язки стають кількісно представленими у вигляді чисел, які зберігаються в нейронній мережі. Увага також визначає, яку інформацію штучні мовні моделі вважають “найважливішою” під час генерації кожного слова у своїй відповіді.

Обчислення контексту машиною є складним завданням, яке стало практично можливим лише після появи мікросхем, таких як GPU, здатних паралельно обчислювати ці відносини на достатньому рівні продуктивності. Однак оригінальна архітектура Transformer, створена в 2017 році, перевіряла відносини кожного слова у запиті з усіма іншими словами в брутальний спосіб. Якщо ви вводили 1,000 слів у модель ШІ, це призводило до 1,000 x 1,000 порівнянь, або 1 мільйона відносин, які потрібно було обчислити. При 10,000 словах кількість порівнянь зростає до 100 мільйонів. Вартість зростає квадратично, що створює базову вузьку ланку у обробці довгих розмов.

Хоча, ймовірно, що OpenAI використовує деякі техніки розрідженої уваги в GPT-5, довгі розмови все ще страждають від зниження продуктивності. Кожного разу, коли ви подаєте нову відповідь ChatGPT, модель штучного інтелекту в своїй основі обробляє контекстні порівняння для всієї історії розмови знову.

Звичайно, дослідники, які стояли за оригінальною моделлю Transformer, проектували її для машинного перекладу з відносно короткими послідовностями (можливо, кілька сотень токенів, які є частинами даних, що представляють слова), де квадратична увага була керованою. Проблеми почали виникати, коли люди почали масштабувати до тисяч або десятків тисяч токенів, коли квадратичні витрати стали непосильними.