Představte si slovník, ve kterém by každé slovo mohlo být definováno pouze samostatně, bez ohledu na věty, ve kterých se vyskytuje. Takto až dosud věda studovala geny: jeden po druhém, funkce za funkcí, experiment za experimentem. Buněčný život se však podobá spíše živému textu, kde geny mění své role podle kontextu, seskupují se nečekanými způsoby a zapojují se současně do mnoha různých procesů.
Model inspirovaný zpracováním jazyka
Vědci pod vedením Aviho Ma’ayana představili v časopise Patterns nástroj umělé inteligence nazvaný GSFM, což je zkratka pro Gene Set Foundation Model. Platforma, která je volně dostupná online, převádí myšlenku, která způsobila revoluci ve zpracování přirozeného jazyka, do genetické oblasti. Stejně jako modely jako ChatGPT chápou slova na základě vět, které je obklopují, „banka“ neznamená totéž, když se mluví o financích, tak i když se popisuje park, GSFM se učí funkci každého genu tím, že sleduje, s jakými dalšími geny se obvykle objevuje.
Geny málokdy fungují samostatně,“ vysvětluje Ma’ayan. Podílejí se na více biologických procesech a vytvářejí odlišné shluky podle toho, kde a kdy jsou aktivní. Stejný gen může hrát různé role v závislosti na kontextu, podobně jako slovo mění význam v závislosti na větě.
Miliony genetických snímků jako surový materiál
Tým Mount Sinai sestavil miliony genových souborů z vědeckých publikací a úložišť genové exprese. Každá sada funguje jako momentka: zachycuje, které geny odpovídají určitému onemocnění, biologickému procesu nebo experimentálnímu stavu. Na rozdíl od klasického přístupu, který měří, jak silně je gen aktivován, GSFM upřednostňuje něco jiného: asociace, tj. s jakými dalšími geny se objevuje.
Trénink funguje jako rozsáhlý proces odhadování Systému je předložen neúplný soubor genů a je požádán, aby předpověděl chybějící geny. Po milionech opakování tohoto procesu objeví umělá inteligence vzory, které jsou lidskému oku neviditelné: časté aliance mezi geny, společné souvislosti a biologicky významné kombinace.
Nejedná se o obraz buňky, ale o referenční rámec.
Tato „mapa“ není fyzickou reprezentací buněčného nitra. To, co model konstruuje, je dynamická síť asociací, která uvádí každý gen do vztahu s ostatními a umožňuje nám pochopit, jakou funkci může za různých okolností plnit. Je to zkrátka bezprecedentní funkční referenční rámec.
Když se málo prozkoumaný gen znovu a znovu objevuje vedle jiných genů spojených se zánětem nebo růstem buněk, model odvodí jeho možnou roli, aniž by bylo nutné začínat v laboratoři od nuly. Nenahrazuje experimentování, ale přesně ukazuje, kam směřovat úsilí.
Kromě toho tento nástroj otevírá dveře k identifikaci genů, které se podílejí na vzniku nemocí, navrhuje nové cíle pro léčbu pomocí léků a nově interpretuje obrovské objemy biologických dat, které byly dříve nezvládnutelné. V oboru, kde je složitost normou, může mít systém, který organizuje informace, rozhodující význam.
Schopnost předvídat vědecké poznatky
Snad nejpřekvapivějším výsledkem provedených testů je prediktivní schopnost modelu. GSFM byl vycvičen výhradně na údajích publikovaných do určitého data a poté testován, zda je schopen předvídat genetické vztahy, které se potvrdily v následujících studiích. V mnoha případech se mu to podařilo.
Nejde o to, že by stroj „znal“ odpověď předem, ale o to, že si osvojil pravidla biologického systému dostatečně hluboko na to, aby ji vytušil. Analytici upozorňují, že tento typ umělé inteligence neformuluje nové zákony v pravém slova smyslu, ale vynáší na světlo zákonitosti, které byly pohřbeny pod horami dat. Jedná se o znalosti, které se vynořují díky rozsahu dat.
Změna zaměření v počítačové biologii
Dosud se velká část výpočetního modelování v biologii opírala o údaje o genové expresi, tedy o měření, jak moc je gen za určitých podmínek aktivován. GSFM přináší novou perspektivu tím, že pracuje přímo se soubory genů, což je méně využívaný, ale mimořádně bohatý zdroj informací, protože odráží přímo funkční vztahy.
Do budoucna plánuje Ma’ayanova skupina integrovat GSFM s dalšími umělými inteligencemi. Její kombinace s jazykovými modely by mohla generovat srozumitelná vysvětlení funkcí genů, zatímco propojení s farmakologickými modely by mohlo předpovídat, jak léky interagují s buňkami. Dlouhodobá vize ukazuje ekosystém umělých inteligencí, které budou spolupracovat, aby porozuměly biologickým systémům a případně s nimi manipulovaly.
Výchozí bod, ne konečný cíl
Autoři sami uznávají omezení projektu. Jedná se o první přiblížení, podmíněné dostupnými údaji, a jeho skutečná hodnota bude záviset na tom, jak bude doplněno experimentální prací. Přesto i jako výchozí bod vytyčuje jednoznačnou cestu.
Biologie po desetiletí postupovala vpřed tím, že rozkládala složité systémy na menší a menší části. Nyní se začíná ubírat opačným směrem: skládá celek zpět dohromady. Pokud jsou geny slova, tento model začíná číst věty. A v tomto skoku od izolovaného k propojenému může spočívat jeden z klíčů k pochopení toho, jak život skutečně funguje a jak do něj zasahovat s přesností, kterou dnes teprve začínáme nahlížet.
