ByteDance, moderbolaget till TikTok, har gjort en betydande uppgradering av sin Doubao-chattbot genom att lansera en banbrytande funktion för interaktiva videosamtal i realtid, vilket tillkännagavs den 24 maj 2025 via appens officiella WeChat-konto.
Den nya funktionen förvandlar Doubao från en traditionell chattbot till en avancerad digital assistent som kan ge visuell vägledning i realtid. Användare kan enkelt aktivera denna möjlighet genom att slå på mobilkameran under ett röstsamtal med AI:n. När funktionen är aktiverad kan Doubao anta flera roller: kunnig guide under museibesök, trädgårdsexpert vid undersökning av växter, kulinarisk rådgivare vid matinköp eller analytisk assistent vid granskning av diagram, grafer och videor.
Enligt ByteDance bygger denna förbättring på företagets avancerade AI-modell för visuell slutledning, som effektivt integrerar visuella och språkliga indata för att stödja innehållsskapande och djupgående analys av olika ämnen. Tekniken inkluderar även möjligheter till onlinesökning för att hämta aktuell information från internet.
Denna utveckling utgör ByteDances senaste framsteg inom generativ AI och understryker företagets växande expertis i att skapa multimodala system som kombinerar olika typer av indata. Tidigare i maj introducerade Doubao en funktion som låter användare omvandla foton till pixelkonst, och i februari presenterade ByteDance sin OmniHuman-1-modell, som väckte uppmärksamhet för sin förmåga att omvandla foton och ljud till realistiska videor.
Med cirka 75 miljoner månatliga aktiva användare i början av 2025 har Doubao etablerat sig som en av Kinas mest populära AI-applikationer för konsumenter. Plattformens snabba utveckling speglar ByteDances stora investeringar i artificiell intelligens, där företaget enligt uppgift avsätter över 20 miljarder dollar i kapitalutgifter för 2025, varav en stor del är inriktad på AI-utveckling.
I takt med att konkurrensen inom AI-området hårdnar visar ByteDances kontinuerliga innovation med Doubao företagets ambition att behålla en ledande position inom det snabbt utvecklande området för multimodala AI-applikationer, som lovar att göra digitala assistenter mer användbara i verkliga och realtidsbaserade sammanhang.