科技 2025-05-16

Google通过集成Gemini AI提升Android无障碍功能

Google为Android和Chrome推出了重要的AI驱动无障碍功能升级，其中TalkBack与Gemini的集成成为亮点。此次更新不仅让视障用户能够获得AI生成的图片描述，还能就图片及屏幕内容提出后续问题。这一进步已在部分英语国家的Android 15设备上上线，标志着打造更具包容性技术的重要一步。

2025年5月15日（周四），Google宣布为Android和Chrome带来一系列AI驱动的无障碍功能升级，大幅提升了视障用户的数字体验。

最引人注目的更新来自Android屏幕阅读器TalkBack。TalkBack现已集成Gemini AI，能够提供更具互动性的辅助服务。此前，TalkBack在缺少alt文本时可生成AI图片描述，如今用户还可针对图片提出具体问题并获得详细回答。例如，用户收到一张吉他照片时，可以询问其品牌、颜色或其他细节。这一功能不仅适用于单张图片，还可扩展至整个屏幕内容，用户在购物时可询问商品材质或是否有优惠等。

Google还升级了Expressive Captions（富表达字幕）功能，现在不仅能捕捉人们说了什么，还能识别说话方式。新增的时长识别功能可捕捉如“amaaazing”或“nooooo”等拉长的词语，更好地传达情感和强调。对于如吹口哨、清嗓子等动作，也新增了声音标签，进一步丰富了字幕体验。该更新已在美国、英国、加拿大和澳大利亚的Android 15及以上设备上以英语推送。

在Chrome方面，Google引入了光学字符识别（OCR）技术，可自动处理扫描版PDF文档。这一进步让屏幕阅读器能够访问此前无法读取的文档，用户可像在普通网页上一样高亮、复制和搜索文本。此外，Android版Chrome现已支持页面缩放（Page Zoom），可在不破坏网页布局的情况下放大文本。

这些进展展示了AI在打造更具包容性技术方面的潜力。通过将Gemini能力直接集成到无障碍工具中，Google正在解决视障用户面临的重要障碍。根据Google的研究，视障用户每天平均会遇到90张未标注的图片。公司还在持续拓展无障碍举措，包括开放Project Euphonia资源，帮助开发者为多样化的语音模式构建语音识别工具。

Source:

Latest News

AI Technology 2025-05-28

Google通过集成Gemini AI提升Android无障碍功能

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

Google通过集成Gemini AI提升Android无障碍功能

Related Articles

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能