Перейти до вмісту

techterritory.net

Меню
  • Статті
  • Штучний інтелект
  • Наука і космос
  • Ігри
  • Крипто
  • Авто
  • Гаджети
  • Бізнес
  • Кібербезпека
Меню
Figure 1 from Apple's "The Illusion of Thinking" research paper.

Нове дослідження Apple ставить під сумнів, чи насправді штучні інтелекти “логічно міркують” при вирішенні завдань

Оприлюднено 16 Червня, 2025

На початку червня дослідники з Apple опублікували дослідження, в якому йдеться про те, що моделі симульованого мислення (SR), такі як моделі OpenAI – o1 та o3, а також DeepSeek-R1 і Claude 3.7 Sonnet Thinking, генерують результати, які відповідають шаблонному відповідності з навчальними даними, коли стикаються з новими проблемами, що вимагають системного мислення. У ході дослідження було встановлено, що результати були подібними до нещодавнього дослідження Американської математичної олімпіади (USAMO) у квітні, яке виявило, що ці моделі показали низькі результати при розв’язанні нових математичних доказів.

Нове дослідження під назвою “Ілюзія мислення: розуміння сильних і слабких сторін моделей мислення через призму складності задач” було проведено командою з Apple на чолі з Паршином Шоджае і Іманом Мірзадехом, до яких також долучилися Кейван Алізаде, Максвелл Хортон, Сами Бенгіо та Мехрдад Фараджтабар.

Дослідники вивчали те, що вони називають “великими моделями мислення” (LRMs), які намагаються симулювати логічний процес мислення, генеруючи текстовий вихід, який іноді називають “ланцюговим мисленням” (chain-of-thought reasoning) та який, як вважається, допомагає розв’язувати проблеми поетапно.

Щоб це з’ясувати, вони протестували AI-моделі на чотирьох класичних головоломках: Вежа Ханой (переміщення дисків між стійками), шашки (вибивання фігур), переправа через річку (транспортування предметів з обмеженнями) та блоки (укладання блоків), варіюючи їх від тривіально легких (наприклад, однодискової Ханой) до вкрай складних (20-дискової Ханой, що вимагає більше мільйона ходів).

Малюнок 1 з дослідження “Ілюзія мислення” від Apple.

Автори:
Apple

Дослідники зазначають, що “сучасні оцінки в основному зосереджені на певних математичних і програмних критерії, акцентуючи увагу на точності кінцевої відповіді”. Іншими словами, сьогоднішні тести лише звіряють, чи модель отримала правильну відповідь на математичні чи програмні задачі, які можуть вже бути у її навчальних даних, не перевіряючи, чи дійсно модель розмірковувала, чи просто знайшла відповідність у відомих прикладах.

У кінцевому підсумку дослідники виявили результати, що відповідають вже згаданому дослідженню USAMO, показуючи, що ці моделі в основному набрали менше 5 відсотків на нових математичних доказах, причому лише одна модель досягла 25 відсотків, і жоден з близько 200 спроб не дав ідеального доказу. Обидві дослідницькі групи зафіксували значне зниження продуктивності при розв’язанні задач, що вимагали розгорнутого системного мислення.

Останні дописи

  • Rivian прагне зробити зарядку електромобілів швидшою, розумнішою та зручнішою
  • WWDC 2025: Apple Зіштовхується з Викликами Штучного Інтелекту та Регулювання, Залучаючи Розробників
  • Фу, як це неприємно”: Вікіпедія зупиняє резюме на основі ШІ після протесту редакторів
  • Google Wallet втрачає можливість користуватися PayPal
  • Apple Intelligence Тепер Надасть Живі Переклади на Вашому iPhone

Останні коментарі

Немає коментарів до показу.
    ©2025 techterritory.net | Дизайн: Тема Newspaperly WordPress