У минулому, покращення роботи великих мовних моделей (LLMs) у математичних задачах передбачало використання підкріплювального навчання з фінальними відповідями. Лунг пояснив, що моделі, натреновані таким чином, можуть досягати правильних рішень, але мають «недостатнє міркування», оскільки частина оцінювання на міжнародній олімпіаді з математики (IMO) ґрунтується на демонстрації власної роботи. Для підготовки Deep Think до IMO компанія Google застосувала нові техніки підкріплювального навчання з покращеними «довгими відповідями» на математичні задачі, що надало моделі кращу базу для вирішення кожного кроку на шляху до відповіді. «З таким навчанням ви дійсно отримуєте надійне, детальне міркування», — зазначив Лунг.
Як можна було очікувати, Deep Think потребує більше часу для генерації результатів в порівнянні зі спрощеними версіями, доступними в додатку Gemini. Проте штучний інтелект дотримувався тих же правил, що й людські учасники, що стало можливим завдяки здатності сприймати задачі як природну мову. Gemini було надано описи задач, і він дав свої відповіді в межах 4.5-годинного часу на виконання завдання під час конкурсу.
Складні докази
Компанії, що займаються штучним інтелектом, такі як DeepMind, приділяють увагу IMO в останні роки, оскільки цей змагання представляє унікальний виклик. Хоча конкурс є орієнтованим на майбутніх математиків, питання вимагають критичного мислення та розуміння кількох математичних дисциплін, включаючи алгебру, комбінаторику, геометрію і теорію чисел. Лише найбільш просунуті моделі штучного інтелекту мають шанси точно відповідати на ці багатошарові задачі.
Команда DeepMind зазначила деякі цікаві аспекти роботи Deep Think, які, на їхню думку, є результатом її просунутого навчання. Наприклад, у третій задачі (нижче) багато людських учасників використали концепцію вищого рівня, відому як теорема Діріхле, застосовуючи математичні засоби поза межами конкурсу. Проте Deep Think визнала, що задачу можна вирішити, використовуючи простіші математичні підходи. «Наша модель насправді зробила чудове спостереження і використала лише елементарну теорію чисел, щоб створити самодостатній доказ даної задачі», — поділився дослідник DeepMind і професор університету Брауна Джунхюк Чунг.