Компанія OpenAI у вівторок оголосила про випуск двох відкритих штучних інтелектуальних моделей. Це перший внесок фірми з Сан-Франциско в відкриту спільноту з 2019 року, коли була опублікована модель GPT-2. Нові моделі, які отримали назви gpt-oss-120b та gpt-oss-20b, демонструють подібні результати в порівнянні з моделями o3 та o3-mini. Вони побудовані на архітектурі з множинними експертами (MoE) та пройшли ретельне навчання з безпеки та оцінювання. Відкриті ваги цих моделей доступні для завантаження через платформу Hugging Face.
Відкриті моделі ШІ від OpenAI підтримують рідне розуміння
У пості на X (раніше Twitter) генеральний директор OpenAI Сем Альтман повідомив про випуск цих моделей, зазначивши, що “gpt-oss-120b демонструє результати, які в цілому такі ж, як у o3 щодо складних медичних запитів.” Обидві моделі наразі доступні на платформі Hugging Face від OpenAI, і зацікавлені особи можуть завантажити та запустити їх локально.
На своєму вебсайті OpenAI повідомляє, що ці моделі сумісні з API додатку компанії Responses та можуть працювати з агентними потоками даних. Моделі також підтримують використання інструментів, таких як веб-пошук або виконання Python-коду. Завдяки вродженому розумінню, моделі демонструють прозору логіку міркування, яку можна налаштовувати для фокусування або на високоякісних відповідях, або на швидкості обробки.
Щодо архітектури, ці моделі реалізовані на основі MoE, що дозволяє зменшити кількість активних параметрів для підвищення ефективності обробки. gpt-oss-120b активує 5,1 мільярда параметрів на токен, а gpt-oss-20b – 3,6 мільярда параметрів. Перша модель має загалом 117 мільярдів параметрів, тоді як друга — 21 мільярд. Обидві моделі підтримують довжину вмісту до 128 000 токенів.
Ці відкриті моделі ШІ були натреновані в основному на текстових базах даних англійською мовою. Компанія зосередилася на галузях науки, технологій, інженерії та математики (STEM), кодуванні та загальних знаннях. На етапі навчання після тренування OpenAI застосувала методи уточнення на основі підкріпленого навчання (RL).
Бенчмаркове виконання відкритих моделей OpenAI
Фото: OpenAI
Згідно з внутрішніми тестуваннями компанії, gpt-oss-120b перевершує o3-mini у змагальному кодуванні (Codeforces), загальному вирішенні проблем (MMLU та Humanity’s Last Exam) і викликах інструментів (TauBench). Проте, в цілому, ці моделі трохи поступаються o3 та o3-mini за іншими бенчмарками, такими як GPQA Diamond.
OpenAI підкреслює, що ці моделі пройшли інтенсивне навчання з безпеки. На етапі підготовки компанія фільтрувала шкідливі дані, пов’язані з хімічними, біологічними, радіологічними та ядерними загрозами. Компанія також зазначила, що використовувала специфічні методи, щоб забезпечити відмову моделі від небезпечних запитів і захистити її від ін’єкцій запитів.
Незважаючи на те, що моделі є відкритими, OpenAI стверджує, що їх навчання було проведено таким чином, щоб їх не можна було налаштувати злочинними особами для отримання шкідливих результатів.