字节跳动(TikTok母公司)于2025年5月24日通过豆包App官方微信账号宣布,对豆包聊天机器人进行了重大升级,推出了开创性的实时互动视频通话功能。
这一新功能将豆包从传统聊天机器人转变为先进的数字助手,能够提供实时视觉指导。用户在与AI进行语音通话时,只需打开手机摄像头,即可轻松启用该功能。启用后,豆包可以胜任多种角色:在参观博物馆时担任知识讲解员,观察植物时充当园艺专家,购物时成为烹饪顾问,或在审阅图表、视频时作为分析助手。
据字节跳动介绍,这项增强功能基于公司先进的视觉推理AI模型,能够高效整合视觉与语言输入,支持内容创作及对多种主题的深入分析。该技术还集成了在线搜索能力,可获取来自互联网的最新信息。
此次升级是字节跳动在生成式AI领域的最新成果,凸显了公司在打造多模态系统方面日益增强的专业能力。早在5月初,豆包已上线照片转像素画功能;而在2月,字节跳动发布了OmniHuman-1模型,凭借将照片和音频转换为逼真视频的能力引发关注。
截至2025年初,豆包月活跃用户约7500万,已成为中国最受欢迎的面向消费者AI应用之一。平台的快速迭代反映出字节跳动在人工智能领域的巨大投入,据悉公司2025年资本支出超过200亿美元,其中很大一部分用于AI研发。
随着AI领域竞争日益激烈,字节跳动不断为豆包注入创新,彰显了其在多模态AI应用领域保持领先地位的决心,致力于让数字助手在现实、实时场景中变得更加实用。