Google 15 травня 2025 року оголосила про впровадження низки покращень доступності на базі штучного інтелекту для Android і Chrome, значно покращивши цифровий досвід для користувачів із порушеннями зору.
Найбільш помітне оновлення отримав TalkBack — екранний диктор Android, який тепер використовує Gemini AI для надання інтерактивної допомоги. Якщо раніше TalkBack пропонував AI-генеровані описи зображень за відсутності альтернативного тексту, то тепер користувачі можуть ставити конкретні запитання щодо зображень і отримувати детальні відповіді. Наприклад, отримавши фото гітари, можна дізнатися її бренд, колір чи інші характеристики. Ця функція поширюється не лише на окремі зображення, а й на цілі екрани — користувачі можуть запитувати про матеріали товарів чи наявні знижки під час онлайн-шопінгу.
Google також удосконалила функцію Expressive Captions, яка тепер розпізнає не лише зміст сказаного, а й спосіб вимови. Нова функція тривалості враховує подовжені слова на кшталт "аааааах" чи "нууууу", щоб точніше передавати емоції та акценти. Додаткові звукові мітки для дій, як-от свист чи відкашлювання, ще більше збагачують досвід субтитрування. Оновлення вже впроваджується англійською мовою у США, Великій Британії, Канаді та Австралії для пристроїв з Android 15 і новіших версій.
Для користувачів Chrome Google представила технологію оптичного розпізнавання символів (OCR), яка автоматично обробляє відскановані PDF-файли. Завдяки цьому екранні диктори можуть працювати з раніше недоступними документами, дозволяючи виділяти, копіювати та шукати текст так само, як на звичайних веб-сторінках. Крім того, у Chrome для Android з’явилася функція Page Zoom, яка збільшує розмір тексту без порушення структури сторінки.
Ці нововведення демонструють, як штучний інтелект може сприяти створенню більш інклюзивних технологій. Інтегруючи можливості Gemini безпосередньо у засоби доступності, Google долає суттєві бар’єри для користувачів із порушеннями зору, які, за даними досліджень компанії, щодня стикаються в середньому з 90 неописаними зображеннями. Компанія продовжує розширювати свої ініціативи у сфері доступності, зокрема відкриваючи ресурси Project Euphonia для допомоги розробникам у створенні інструментів розпізнавання мовлення для різних мовних моделей.