Hoewel AI opmerkelijke vooruitgang heeft geboekt in het genereren van codefragmenten, onthult een nieuwe MIT-studie aanzienlijke barrières op weg naar volledig autonome software engineering.
Het onderzoek, getiteld "Challenges and Paths Towards AI for Software Engineering", werd uitgevoerd door een team onder leiding van MIT-professor Armando Solar-Lezama en eerste auteur Alex Gu. Het werd gepubliceerd op 16 juli 2025 en zal worden gepresenteerd op de International Conference on Machine Learning (ICML 2025) in Vancouver.
"Iedereen heeft het erover dat we geen programmeurs meer nodig hebben en dat er nu allerlei automatisering beschikbaar is," zegt Solar-Lezama. "Enerzijds heeft het vakgebied enorme vooruitgang geboekt. We beschikken over tools die veel krachtiger zijn dan we ooit eerder hebben gezien. Maar er is ook nog een lange weg te gaan voordat we echt de volledige belofte van automatisering kunnen waarmaken."
De onderzoekers stellen dat huidige AI-systemen uitblinken in het genereren van kleine codefuncties, maar moeite hebben met bredere software engineering-taken zoals grootschalige refactoring, code-migratie en het debuggen van complexe systemen. Populaire benchmarks zoals SWE-Bench testen alleen patches voor GitHub-issues die enkele honderden regels code omvatten, en slagen er niet in om realistische scenario's te vangen waarin miljoenen regels geoptimaliseerd of gemigreerd moeten worden vanuit legacy-systemen.
Mens-machinecommunicatie vormt een andere grote uitdaging. Gu beschrijft de huidige interactie als "een dunne communicatielijn", waarbij AI-tools vaak grote, ongestructureerde bestanden produceren met oppervlakkige tests, zonder effectief gebruik te maken van debuggingtools en statische analyzers waar menselijke ontwikkelaars op vertrouwen.
In plaats van één enkele oplossing te bieden, roepen de onderzoekers op tot gezamenlijke inspanningen van de gemeenschap: het ontwikkelen van rijkere datasets die vastleggen hoe ontwikkelaars in de loop van de tijd code schrijven en refactoren; het creëren van gedeelde evaluatiesuites die de kwaliteit van refactoren en de duurzaamheid van bugfixes meten; en het bouwen van transparante tools die modelonzekerheid blootleggen en menselijke sturing uitnodigen.
"Software vormt nu al de basis van financiën, transport, gezondheidszorg en talloze andere kritieke systemen," merkt Solar-Lezama op. Het onderzoeksteam voorziet een toekomst waarin AI routinematige ontwikkeltaken op zich neemt, zodat menselijke ingenieurs zich kunnen richten op hoogwaardig ontwerpwerk en complexe afwegingen die menselijk beoordelingsvermogen vereisen.