I et stort gennembrud for beregningsbiologi har Google DeepMind offentliggjort AlphaGenome, et kunstigt intelligens-system designet til at afkode de mystiske ikke-kodende områder, som udgør 98% af menneskets DNA.
Selvom kun 2% af vores genom direkte koder for proteiner, spiller den resterende ‘mørke materie’ en afgørende rolle i reguleringen af genaktivitet og forbindes ofte med sygdomme. AlphaGenome repræsenterer den første omfattende AI-model, der kan analysere disse komplekse regulatoriske områder i hidtil uset skala og opløsning.
“Dette er et af de mest grundlæggende problemer, ikke kun i biologi – men i hele videnskaben,” sagde Pushmeet Kohli, DeepMinds leder af AI til videnskab, under et pressemøde. Modellen bygger videre på DeepMinds tidligere succes med AlphaFold, som revolutionerede forudsigelsen af proteinstruktur og sidste år delte Nobelprisen i kemi.
AlphaGenomes tekniske evner er imponerende. Den kan behandle DNA-sekvenser på op til en million basepar med enkelt-nukleotid-opløsning, hvilket gør det muligt at forudsige tusindvis af molekylære egenskaber, der karakteriserer genregulering. I benchmark-tests overgik den specialiserede modeller i 22 ud af 24 sekvensforudsigelsesopgaver og matchede eller overgik andre i 24 ud af 26 evalueringer af variant-effekt-forudsigelser.
Modellen har allerede vist praktiske anvendelser i sygdomsforskning. Ved analyse af mutationer fundet hos leukæmipatienter forudsagde AlphaGenome præcist, hvordan ikke-kodende varianter aktiverede et kræftfremkaldende gen ved at skabe et nyt bindingssted for et regulatorisk protein. “At bestemme relevansen af forskellige ikke-kodende varianter kan være ekstremt udfordrende, især i stor skala. Dette værktøj leverer et afgørende stykke af puslespillet,” forklarede professor Marc Mansour fra University College London.
DeepMind har gjort AlphaGenome tilgængelig via API til ikke-kommerciel forskning og planlægger en fuld offentliggørelse senere. Selvom modellen har begrænsninger – den har svært ved meget fjerne DNA-interaktioner og er ikke valideret til klinisk brug – markerer den et vigtigt skridt mod at forstå, hvordan vores genom fungerer, og kan accelerere opdagelser inden for sygdomsforskning, syntetisk biologi og personlig medicin.