OpenAI потрапила в пастку візуалізації настроїв

Під час великого трансляції GPT-5 у четвер, OpenAI продемонструвала кілька графіків, які виглядали вражаюче — проте, якщо придивитися уважніше, деякі з них виявилися трохи неточними.

Один з графіків, іронічно показуючи, як добре GPT-5 виконує «оцінки на обман» між моделями, мав неточну шкалу. Наприклад, на графіку щодо «обману в програмуванні» вказано, що GPT-5, який використовує мислення, демонструє 50.0 відсотків обману, але це в порівнянні з меншим показником o3 з 47.4 відсотків, який чомусь має більший стовпець. Однак у блозі OpenAI, присвяченому GPT-5, наведені точні дані, де показник обману для GPT-5 зазначено як 16.5 відсотків.

На цьому графіку OpenAI продемонструвала, що один з оцінок GPT-5 нижчий за o3, але його показано з більшим стовпцем. У цьому ж графіку оцінки o3 і GPT-4o різні, але представлені стовпцями однакового розміру. Це стало таким серйозним недоликом, що генеральний директор Сем Альтман прокоментував це, назвавши це «великою помилкою з графіком», хоча він зазначив, що правильна версія міститься в блозі OpenAI.

Співробітник маркетингового відділу OpenAI також вибачився, сказавши:

«Ми виправили графік у блозі, вибачте за ненавмисну помилку з графіком.»

У п’ятницю, відповідаючи на запитання користувача Reddit щодо графіків, Альтман зазначив:

«Цифри тут були точними, але ми помилилися у графіках під час трансляції; на іншому слайді ми також допустили помилку з числами».

Він також наголосив, що блог та система даних «точні» і додав, що «люди працювали до пізньої ночі і були дуже втомлені, і людська помилка зіграла свою роль. Багато чого збігається разом для трансляції за останні години.»

Це все ще не найкраще враження для компанії в день великого запуску — особливо коли вона хвалиться «значними досягненнями у зменшенні ілюзій» із новою моделлю.