Trots att AI har gjort anmärkningsvärda framsteg i att generera kodsnuttar visar en ny MIT-studie på betydande hinder för att uppnå verkligt autonom programvaruutveckling.
Forskningen, med titeln "Challenges and Paths Towards AI for Software Engineering", genomfördes av ett team lett av MIT-professorn Armando Solar-Lezama och förstaförfattaren Alex Gu. Studien publicerades den 16 juli 2025 och kommer att presenteras vid International Conference on Machine Learning (ICML 2025) i Vancouver.
"Alla pratar om att vi inte längre behöver programmerare och att det nu finns all denna automatisering", säger Solar-Lezama. "Å ena sidan har området gjort enorma framsteg. Vi har verktyg som är mycket kraftfullare än något vi sett tidigare. Men det är också en lång väg kvar innan vi verkligen kan uppnå den fulla potentialen av automatisering som vi förväntar oss."
Forskarna menar att dagens AI-system är skickliga på att generera små kodfunktioner, men har svårt för bredare programvaruingenjörsuppgifter som storskalig omstrukturering, kodmigrering och felsökning av komplexa system. Populära riktmärken som SWE-Bench testar endast patchar för GitHub-ärenden som omfattar några hundra rader kod och fångar därmed inte verkliga scenarier där miljontals rader kan behöva optimeras eller migreras från äldre system.
Kommunikationen mellan människa och maskin utgör ytterligare en betydande utmaning. Gu beskriver dagens interaktion som "en tunn kommunikationslinje", där AI-verktyg ofta producerar stora, ostrukturerade filer med ytliga tester och saknar förmågan att effektivt använda felsökningsverktyg och statiska analysverktyg som mänskliga utvecklare förlitar sig på.
Istället för att föreslå en enskild lösning efterlyser forskarna gemensamma insatser: att utveckla rikare datamängder som fångar hur utvecklare skriver och omstrukturerar kod över tid; att skapa gemensamma utvärderingssviter som mäter kvaliteten på omstruktureringar och hållbarheten hos buggfixar; samt att bygga transparenta verktyg som visar modellernas osäkerhet och bjuder in till mänsklig vägledning.
"Programvara ligger redan till grund för finans, transport, sjukvård och otaliga andra kritiska system", påpekar Solar-Lezama. Forskargruppen ser en framtid där AI hanterar rutinuppgifter inom utveckling, vilket gör att mänskliga ingenjörer kan fokusera på övergripande designbeslut och komplexa avvägningar som kräver mänskligt omdöme.