Firefox 130 впроваджує автоматичну генерацію текстових описів для зображень

Mozilla оголосила про новий крок у покращенні доступності браузера Firefox. У майбутній версії Firefox 130, яка вже доступна в бета-версії Nightly, з’явиться функція, яка автоматично створюватиме текстові описи для зображень. Це особливо корисно для користувачів, які використовують скринрідери та мають проблеми зі зором.

Mozilla інтегрувала у Firefox локальну модель машинного навчання, яка генерує описи зображень без відправки даних на зовнішні сервери. Модель базується на архітектурі трансформаторів, що дозволяє їй точно обробляти зображення. Вона включає 182 мільйони параметрів та займає близько 200 МБ дискового простору.

Для аналізу зображень використовується декодер, побудований на основі моделі Vision Transformer (ViT). Щоб забезпечити ефективну роботу моделі, Firefox використовує ONNX Runtime (компільований у форматі WASM) та бібліотеку Transformers.js. Модель завантажується лише при першому використанні, що дозволяє оптимізувати витрати ресурсів.

Наразі функція генерує описи лише для зображень у файлах PDF, але Mozilla планує розширити її функціональність, щоб зробити доступними описи зображень на всіх веб-сторінках. Це важливий крок у забезпеченні більшої доступності та зручності для всіх користувачів.