Китайська лабораторія штучного інтелекту Z.ai оголосила про випуск двох нових відкритих загальних мовних моделей (GLM) у понеділок. Моделі отримали назви GLM-4.5 та GLM-4.5-Air, і компанія вважає їх своїми останніми флагманськими розробками. Обидві моделі є гібридними моделями, які пропонують режим мислення для складних розумових задач і використання інструментів, а також режим без мислення для миттєвих відповідей. Крім того, компанія стверджує, що ці моделі підтримують агентські можливості. Важливо зауважити, що Z.ai стверджує, що її останні моделі перевершують всі інші відкриті моделі в усьому світі.
Z.ai представляє відкриті моделі GLM-4.5
У блозі китайська компанія анонсувала випуск цих моделей. Ідея моделей GLM полягає в створенні великої мовної моделі (LLM), яка має бути дійсно універсальною і здатною виконувати різні види завдань однаково добре. Компанія стверджує, що незважаючи на чималий прогрес у генеративному ШІ, моделі, розроблені такими компаніями, як Google, OpenAI та Anthropic, не є достатньо загальними, оскільки вони демонструють сильну продуктивність в одних сферах, але відстають в інших. “GLM-4.5 прагне об’єднати всі різні можливості,” – зазначили в компанії.
Модель GLM-4.5 має загалом 355 мільярдів параметрів, з яких 32 мільярди активні. У свою чергу, варіант Air має 106 мільярдів загальних параметрів, з 12 мільярдами активних. Обидві моделі об’єднують можливості розуміння, програмування та агентські можливості в єдиній архітектурі. Модель має контекстне вікно на 128 000 токенів і вбудовану здатність до виклику функцій.
Щодо архітектури моделі, Z.ai обрала змішану архітектуру експертів (MoE), щоб підвищити обчислювальну ефективність навчання та інференції. Замість того, щоби збільшувати ширину (приховані виміри та кількість експертів) шарів MoE, як це робить DeepSeek-V3, серія GLM-4.5 зменшує ширину, водночас збільшуючи висоту (кількість шарів). Це було зроблено, оскільки компанія вважала, що глибші моделі демонструють покращену здатність до розуміння.
Крім того, китайська компанія вказала нові методи, які використовувалися під час процесу переднавчання та постнавчання, у блозі, щоб допомогти розробникам зрозуміти, як моделі були створені з нуля.
Z.ai повідомили, що протестували продуктивність моделі GLM-4.5 на 12 бенчмарках у сферах агентських, розуміння та програмування. Потім було проведено порівняння загальних оцінок моделі з різними LLM від OpenAI, Anthropic, Google, xAI, Alibaba та інших. Згідно з цим внутрішнім оцінюванням, китайська компанія заявила, що GLM-4.5 займає 3-є місце, поступаючись лише моделям o3 від OpenAI та Grok 4 від xAI.
Зацікавлені особи можуть отримати відкриті ваги цих моделей на GitHub компанії Z.ai і у списках Hugging Face. Також ці LLM можна знайти на вебсайті компанії та через інтерфейс програмування додатків (API).