Wielki przełom w biologii obliczeniowej – Google DeepMind udostępnił AlphaGenome, system sztucznej inteligencji zaprojektowany do rozszyfrowania tajemniczych, niekodujących fragmentów, które stanowią aż 98% ludzkiego DNA.
Choć tylko 2% naszego genomu bezpośrednio koduje białka, pozostała „ciemna materia” odgrywa kluczową rolę w regulacji aktywności genów i często jest powiązana z chorobami. AlphaGenome to pierwszy tak kompleksowy model AI, zdolny do analizy tych złożonych regionów regulatorowych w niespotykanej dotąd skali i rozdzielczości.
„To jeden z najbardziej fundamentalnych problemów nie tylko w biologii, ale w całej nauce” – powiedział Pushmeet Kohli, szef działu AI dla nauki w DeepMind, podczas konferencji prasowej. Model bazuje na wcześniejszych sukcesach DeepMind, w tym AlphaFold, który zrewolucjonizował przewidywanie struktury białek i zdobył Nagrodę Nobla w dziedzinie chemii w ubiegłym roku.
Możliwości techniczne AlphaGenome są imponujące. Model przetwarza sekwencje DNA o długości do miliona par zasad, zachowując jednocześnie rozdzielczość na poziomie pojedynczego nukleotydu, co pozwala przewidywać tysiące właściwości molekularnych związanych z regulacją genów. W testach porównawczych przewyższył wyspecjalizowane modele w 22 z 24 zadań predykcji sekwencji oraz dorównał lub przewyższył inne w 24 z 26 ocen wpływu wariantów genetycznych.
Model już teraz znajduje praktyczne zastosowania w badaniach nad chorobami. Analizując mutacje występujące u pacjentów z białaczką, AlphaGenome trafnie przewidział, w jaki sposób niekodujące warianty aktywowały gen napędzający rozwój nowotworu poprzez utworzenie nowego miejsca wiązania dla białka regulatorowego. „Określenie znaczenia różnych niekodujących wariantów może być niezwykle trudne, zwłaszcza na dużą skalę. To narzędzie dostarcza kluczowego elementu układanki” – wyjaśnia profesor Marc Mansour z University College London.
DeepMind udostępnił AlphaGenome poprzez API do niekomercyjnych badań naukowych, a w przyszłości planuje pełną publikację. Choć model ma swoje ograniczenia – słabo radzi sobie z bardzo odległymi interakcjami DNA i nie jest jeszcze zwalidowany do zastosowań klinicznych – stanowi istotny krok w kierunku zrozumienia funkcjonowania naszego genomu i może przyspieszyć odkrycia w badaniach nad chorobami, biologii syntetycznej oraz medycynie spersonalizowanej.