In een grote doorbraak voor de computationele biologie heeft Google DeepMind AlphaGenome uitgebracht, een kunstmatig intelligentiesysteem dat is ontworpen om de mysterieuze niet-coderende regio’s te ontcijferen die 98% van het menselijk DNA uitmaken.
Hoewel slechts 2% van ons genoom direct codeert voor eiwitten, speelt de resterende ‘donkere materie’ een cruciale rol bij het reguleren van genactiviteit en wordt deze vaak in verband gebracht met ziekten. AlphaGenome is het eerste allesomvattende AI-model dat deze complexe regulerende regio’s op ongekende schaal en resolutie kan analyseren.
“Dit is een van de meest fundamentele problemen, niet alleen in de biologie — maar in de hele wetenschap,” zei Pushmeet Kohli, hoofd AI voor wetenschap bij DeepMind, tijdens een persbriefing. Het model bouwt voort op het eerdere succes van DeepMind met AlphaFold, dat de voorspelling van eiwitstructuren revolutioneerde en vorig jaar de Nobelprijs voor Scheikunde deelde.
De technische mogelijkheden van AlphaGenome zijn indrukwekkend. Het kan DNA-sequenties tot een miljoen basenparen verwerken met behoud van enkel-nucleotide resolutie, waardoor het duizenden moleculaire eigenschappen kan voorspellen die genregulatie kenmerken. In benchmarktests presteerde het model beter dan gespecialiseerde modellen bij 22 van de 24 sequentievoorspellingstaken en evenaarde of overtrof het andere modellen bij 24 van de 26 evaluaties voor variant-effectvoorspellingen.
Het model heeft al praktische toepassingen in ziekteonderzoek laten zien. Bij het analyseren van mutaties gevonden bij leukemiepatiënten, voorspelde AlphaGenome nauwkeurig hoe niet-coderende varianten een kankerveroorzakend gen activeerden door een nieuwe bindingsplaats voor een regulerend eiwit te creëren. “Het bepalen van de relevantie van verschillende niet-coderende varianten kan bijzonder uitdagend zijn, vooral op grote schaal. Dit hulpmiddel biedt een cruciaal stukje van de puzzel,” legt professor Marc Mansour van University College London uit.
DeepMind heeft AlphaGenome via een API beschikbaar gesteld voor niet-commercieel onderzoek, met plannen voor een volledige release in de toekomst. Hoewel het model beperkingen kent — het heeft moeite met zeer verre DNA-interacties en is niet gevalideerd voor klinisch gebruik — betekent het een belangrijke stap richting het begrijpen van de werking van ons genoom en kan het ontdekkingen in ziekteonderzoek, synthetische biologie en gepersonaliseerde geneeskunde versnellen.