menu
close

Google通过集成Gemini AI提升Android无障碍功能

Google为Android和Chrome推出了重要的AI驱动无障碍功能升级,其中TalkBack与Gemini的集成成为亮点。此次更新不仅让视障用户能够获得AI生成的图片描述,还能就图片及屏幕内容提出后续问题。这一进步已在部分英语国家的Android 15设备上上线,标志着打造更具包容性技术的重要一步。
Google通过集成Gemini AI提升Android无障碍功能

2025年5月15日(周四),Google宣布为Android和Chrome带来一系列AI驱动的无障碍功能升级,大幅提升了视障用户的数字体验。

最引人注目的更新来自Android屏幕阅读器TalkBack。TalkBack现已集成Gemini AI,能够提供更具互动性的辅助服务。此前,TalkBack在缺少alt文本时可生成AI图片描述,如今用户还可针对图片提出具体问题并获得详细回答。例如,用户收到一张吉他照片时,可以询问其品牌、颜色或其他细节。这一功能不仅适用于单张图片,还可扩展至整个屏幕内容,用户在购物时可询问商品材质或是否有优惠等。

Google还升级了Expressive Captions(富表达字幕)功能,现在不仅能捕捉人们说了什么,还能识别说话方式。新增的时长识别功能可捕捉如“amaaazing”或“nooooo”等拉长的词语,更好地传达情感和强调。对于如吹口哨、清嗓子等动作,也新增了声音标签,进一步丰富了字幕体验。该更新已在美国、英国、加拿大和澳大利亚的Android 15及以上设备上以英语推送。

在Chrome方面,Google引入了光学字符识别(OCR)技术,可自动处理扫描版PDF文档。这一进步让屏幕阅读器能够访问此前无法读取的文档,用户可像在普通网页上一样高亮、复制和搜索文本。此外,Android版Chrome现已支持页面缩放(Page Zoom),可在不破坏网页布局的情况下放大文本。

这些进展展示了AI在打造更具包容性技术方面的潜力。通过将Gemini能力直接集成到无障碍工具中,Google正在解决视障用户面临的重要障碍。根据Google的研究,视障用户每天平均会遇到90张未标注的图片。公司还在持续拓展无障碍举措,包括开放Project Euphonia资源,帮助开发者为多样化的语音模式构建语音识别工具。

Source:

Latest News