Перейти до вмісту

techterritory.net

Меню
  • Статті
  • Штучний інтелект
  • Наука і космос
  • Ігри
  • Крипто
  • Авто
  • Гаджети
  • Бізнес
  • Кібербезпека
Меню
Нове дослідження Apple ставить під сумнів, чи насправді штучні інтелекти "логічно міркують" при вирішенні завдань

Нове дослідження Apple ставить під сумнів, чи насправді штучні інтелекти “логічно міркують” при вирішенні завдань

Оприлюднено 16 Червня, 2025

На початку червня дослідники з Apple опублікували дослідження, в якому йдеться про те, що моделі симульованого мислення (SR), такі як моделі OpenAI – o1 та o3, а також DeepSeek-R1 і Claude 3.7 Sonnet Thinking, генерують результати, які відповідають шаблонному відповідності з навчальними даними, коли стикаються з новими проблемами, що вимагають системного мислення. У ході дослідження було встановлено, що результати були подібними до нещодавнього дослідження Американської математичної олімпіади (USAMO) у квітні, яке виявило, що ці моделі показали низькі результати при розв’язанні нових математичних доказів.

Нове дослідження під назвою “Ілюзія мислення: розуміння сильних і слабких сторін моделей мислення через призму складності задач” було проведено командою з Apple на чолі з Паршином Шоджае і Іманом Мірзадехом, до яких також долучилися Кейван Алізаде, Максвелл Хортон, Сами Бенгіо та Мехрдад Фараджтабар.

Дослідники вивчали те, що вони називають “великими моделями мислення” (LRMs), які намагаються симулювати логічний процес мислення, генеруючи текстовий вихід, який іноді називають “ланцюговим мисленням” (chain-of-thought reasoning) та який, як вважається, допомагає розв’язувати проблеми поетапно.

Щоб це з’ясувати, вони протестували AI-моделі на чотирьох класичних головоломках: Вежа Ханой (переміщення дисків між стійками), шашки (вибивання фігур), переправа через річку (транспортування предметів з обмеженнями) та блоки (укладання блоків), варіюючи їх від тривіально легких (наприклад, однодискової Ханой) до вкрай складних (20-дискової Ханой, що вимагає більше мільйона ходів).

Малюнок 1 з дослідження “Ілюзія мислення” від Apple.

Автори:
Apple

Дослідники зазначають, що “сучасні оцінки в основному зосереджені на певних математичних і програмних критерії, акцентуючи увагу на точності кінцевої відповіді”. Іншими словами, сьогоднішні тести лише звіряють, чи модель отримала правильну відповідь на математичні чи програмні задачі, які можуть вже бути у її навчальних даних, не перевіряючи, чи дійсно модель розмірковувала, чи просто знайшла відповідність у відомих прикладах.

У кінцевому підсумку дослідники виявили результати, що відповідають вже згаданому дослідженню USAMO, показуючи, що ці моделі в основному набрали менше 5 відсотків на нових математичних доказах, причому лише одна модель досягла 25 відсотків, і жоден з близько 200 спроб не дав ідеального доказу. Обидві дослідницькі групи зафіксували значне зниження продуктивності при розв’язанні задач, що вимагали розгорнутого системного мислення.

Останні дописи

  • Зображення Galaxy Z Fold 7 в дії натякають на ймовірний дизайн пристрою
  • Новий настільний світильник-колонка від Ikea відмовився від Sonos на користь Spotify та доступного Bluetooth
  • Samsung та Epic Games домовилися про примирення у судовій справі щодо магазину додатків
  • Ось якою може бути вартість Vivo X Fold 5 та Vivo X200 FE в Індії
  • Nvidia Досягає Оцінки $4 Трилйони Завдяки Новому Етапу Зростання

Останні коментарі

Немає коментарів до показу.
    ©2025 techterritory.net | Дизайн: Тема Newspaperly WordPress