Google našel klíč k 98 % vaší DNA. Některé části jsme doteď zcela ignorovali

Google našel klíč k 98 % vaší DNA. Některé části jsme doteď zcela ignorovali

Zdroj obrázku: agsandrew / Depositphotos

DeepMind představuje AlphaGenome – umělou inteligenci, která čte genetický kód se stejnou zručností, s jakou jazykové modely chápou text. Místo slov však analyzuje miliony písmen DNA a odhaluje skryté souvislosti, které by mohly zásadně proměnit diagnostiku, vývoj léků i personalizovanou medicínu.


Mít přístup k celému internetu, „Alexandrijské knihovně“ digitálního vesmíru, má své výhody. A Google má hlavní klíč. Důkazem toho je rodina umělé inteligence „Alpha“, zastřešující znalosti, které spojují různé vědecké disciplíny a cíle, od šachů a hry Go až po předpovídání molekulární struktury.

Projekt AlphaGenome je součástí řady modelů „Alpha“ společnosti DeepMind, stejné rodiny, která dala světu AlphaFold, umělou inteligenci, jež předpovídá struktury proteinů na základě sekvence jejich aminokyselin. Tento úspěch byl tak významný, že za něj v roce 2024 několik jeho vedoucích pracovníků, včetně Demise Hassabise a Johna Jumpera, obdrželo Nobelovu cenu za chemii. AlphaGenome dělá pro genetiku to, co AlphaFold dělal (nebo dělá) pro strukturní chemii: nepoužívá umělou inteligenci k okamžitému „řešení“ problémů, ale k překladu a mapování vztahů, kterým nerozumíme. Nebo těm, které jsme ještě neviděli.

Až dosud bylo porozumění lidskému genomu jako mít knihu napsanou v jazyce, který sotva známe: umíme číst písmena, ale nerozumíme gramatice ani souvislostem. AlphaGenome se pokouší právě o to: naučit se gramatiku DNA, tj. pravidla, která určují, které fragmenty sekvence aktivují nebo umlčují geny, jak jsou uspořádány ve 3D v jádře a co se stane, když se změní jedno „písmeno“.

Související článek

Velká chyba v aktualizaci Windows: Počítače se místo vypnutí znovu spouštějí
Velká chyba v aktualizaci Windows: Počítače se místo vypnutí znovu spouštějí

Lednová bezpečnostní aktualizace Windows způsobila zásadní problém – místo vypnutí se počítače restartují. Problém zasahuje široké spektrum verzí systému a nejvíce trápí podnikové uživatele s pokročilým zabezpečením.

Kromě genů: Význam regulačních oblastí

To je důležité, protože většina genetických variací spojených s lidskými nemocemi se nenachází v několika málo úsecích kódujících proteiny, ale v regulačních oblastech. Pouze asi 1-2 % lidského genomu kóduje proteiny; zbytek, 98 %, kterému se po léta zjednodušeně říkalo „nevyžádaná DNA“, obsahuje přepínače, zesilovače, izolátory a další sekvence, které řídí, kdy, kde a jak moc se jednotlivé geny projevují.

Jinými slovy: před příchodem AlphaGenome bylo velké množství genetických změn, které studie spojovaly s rakovinou, srdečními chorobami nebo autoimunitními onemocněními, obtížně interpretovatelné nebo neviditelné. Věděli jsme, že jsou spojeny s onemocněním z celogenomových asociačních studií (GWAS), ale nerozuměli jsme mechanismu: který gen je ovlivněn, v jaké tkáni, v jakém období života? Nyní poprvé může umělá inteligence nabídnout podrobné předpovědi o jejich potenciálním vlivu a navrhnout konkrétní hypotézy, které lze následně testovat v laboratoři.

Tento druh interpretace je klíčový pro přechod ke skutečně personalizované medicíně. Dva lidé mohou mít různé varianty v regulačních oblastech, které zdánlivě „nic nedělají“, ale ve skutečnosti mění způsob, jakým se zapínají geny zapojené do zánětu, metabolismu nebo oprav DNA. AlphaGenome pomáhá převést tyto neviditelné rozdíly do srozumitelných biologických důsledků.

Co je AlphaGenome a jak funguje

Ve studii zveřejněné v časopise Nature tým vedený samotným Hassabisem vysvětluje, jak AlphaGenome funguje a jaký má dopad. Jedná se o model hlubokého učení (pokročilá forma umělé inteligence, která se dokáže učit složité vzorce z gigantických dat) schopný analyzovat sekvence až jednoho milionu písmen DNA (párů bází), což je u tohoto typu modelu něco nevídaného.

Dosud si modely, které se snažily předpovídat funkce genomu, musely vybírat mezi zkoumáním krátkých sekvencí s velkým detailem nebo dlouhých sekvencí s nízkým rozlišením. AlphaGenome tuto bariéru překonává: kombinuje široký kontext a přesnost zároveň. Je to jako pořizovat makroobrázek naší DNA, ale ze vzdálenosti několika kilometrů. To, co tento systém umělé inteligence dělá, je v podstatě předpověď „funkce“ jakéhokoli daného úseku DNA. Devadesát osm procent našeho genomu nekóduje proteiny, ale řídí, kdy, kde a jak moc se jednotlivé geny projevují, což je oblast hovorově nazývaná „temná hmota“ DNA.

AlphaGenome k tomu využívá architektury podobné těm, které se používají v jazykových modelech (například těch, které generují text), ale přizpůsobené pro DNA. Místo slov model „čte“ genetická písmena (A, C, G, T) a učí se vzory, které se opakují v oblastech se známými funkcemi: promotory, enhancery, vazebná místa regulačních proteinů atd. Postupem času se systém naučí spojovat kombinace písmen s měřitelnými biologickými důsledky, jako je úroveň exprese genu v určité tkáni nebo přístupnost oblasti genomu. Jednou z klíčových inovací je, že AlphaGenome integruje více typů experimentálních dat najednou:

  • Údaje o genové expresi (které geny jsou aktivní a v jakém množství).
  • Údaje o dostupnosti chromatinu (které oblasti DNA jsou „otevřené“ a mohou být čteny buněčnými stroji).
  • Údaje o chemických modifikacích v DNA a v proteinech, které ji obalují (epigenetické značky).
  • Informace o trojrozměrné struktuře genomu (jak se skládá a které vzdálené oblasti se fyzicky dotýkají).

Při kombinaci model nevidí jen lineární posloupnost písmen, ale kompletní funkční krajinu. Je to jako přejít z 2D mapy na interaktivní 3D model s informacemi o počasí, dopravě a reliéfu.

Co dokáže AlphaGenome předpovědět o naší DNA

Výkon systému AlphaGenome umožňuje přesně určit, zda odchylka (i změna v sekvenci o jedno písmeno) mění regulaci genů, jak se mění exprese genu, které oblasti DNA jsou přístupné buněčnému stroji, nebo zda změna ovlivňuje trojrozměrnou strukturu genomu. A co je nejdůležitější pro budoucnost, jsou možné důsledky této změny z hlediska rizika onemocnění nebo odpovědi na léčbu. Mezi možnosti, na které autoři studie upozorňují, patří např:

  • Předpověď genové exprese: model dokáže na základě zadaného fragmentu DNA odhadnout, které geny budou aktivovány a s jakou intenzitou v různých typech buněk.
  • Vliv genetických variant: porovnáním původní sekvence se sekvencí obsahující mutaci vypočítá AlphaGenome, jak se změní regulační aktivita, a tedy funkce blízkých genů (nebo i vzdálených, pokud jsou propojeny ve 3D).
  • Identifikace regulačních prvků: systém dokáže odhalit enhancery, promotory a další dosud nepozorované funkční prvky, zejména v málo prozkoumaných oblastech genomu.
  • Modelování 3D struktury genomu: předpovídá, jak je DNA v jádře prostorově uspořádána, což je klíčové pro pochopení toho, které oblasti spolu komunikují.

Při srovnávacích testech AlphaGenome překonává většinu stávajících specializovaných modelů v předpovídání účinků genetických variant a v mnoha případech tak činí s větší přesností a rozlišením. V některých souborech dat se mu daří duplikovat schopnost jiných modelů rozlišit benigní varianty od potenciálně patogenních variant, což je užitečné zejména v klinické genetice a při analýze exomů a celých genomů pacientů.

Od dat k medicíně: Praktické aplikace

To vše zní velmi teoreticky, ale důsledky jsou velmi konkrétní. Mezi nejslibnější aplikace AlphaGenome patří:

1. Interpretace variant u pacientů

V klinické praxi se při sekvenování genomu člověka zjistí tisíce variant oproti „standardní“ referenci. Většina z nich je neškodná, ale několik z nich může souviset s nemocemi. Velkým úskalím není nalezení variant, ale jejich interpretace.

AlphaGenome může pomoci tyto varianty klasifikovat podle pravděpodobnosti, že mění regulaci klíčových genů. Pokud má například osoba variantu v oblasti, která řídí gen podílející se na tvorbě cholesterolu, může model naznačit, že tato varianta zvyšuje nebo snižuje expresi genu v játrech, a nasměrovat tak lékaře k jejímu klinickému významu.

2. Objevování nových terapeutických cílů

Mnoho komplexních onemocnění, jako je diabetes 2. typu, deprese nebo Alzheimerova choroba, je spojeno s desítkami nebo stovkami genetických variant, většinou v nekódujících oblastech. AlphaGenome může pomoci rekonstruovat mapu toho, které geny a které biologické dráhy jsou těmito variantami skutečně ovlivněny.

To umožňuje identifikovat nové terapeutické cíle: geny, jejichž modulace (léky, protilátkami nebo genovou terapií) by mohla kompenzovat účinek rizikových variant. Namísto slepého hledání mohou vědci upřednostnit geny a biologické dráhy, u nichž je největší pravděpodobnost, že se jich to týká.

3. Návrh genové terapie a editace genomu

Nástroje pro úpravu genů, jako je CRISPR, otevřely možnost opravovat mutace přímo v DNA. Aby to však bylo možné provést bezpečně a efektivně, je nezbytné vědět, kde zasáhnout a jaké budou následky.

AlphaGenome dokáže navrhnout, které regulační oblasti upravit, aby se zvýšila nebo snížila exprese genu, aniž by se zasahovalo do jeho kódující sekvence. Může také pomoci předpovědět účinky mimo cíl, tj. nežádoucí změny v jiných částech genomu. To je důležité zejména u genových terapií vzácných onemocnění, kde každý pacient může mít jedinečnou kombinaci variant.

4. Porozumění odpovědi na léčivo

Ne všichni lidé reagují na stejný lék stejným způsobem. Část této variability je způsobena genetickými rozdíly v enzymech metabolizujících léčiva nebo cílových receptorech. AlphaGenome může pomoci zmapovat, jak varianty v regulačních oblastech mění expresi těchto genů, a pomoci tak vysvětlit, proč někteří pacienti reagují lépe nebo trpí více vedlejšími účinky.

Školení AlphaGenome: Data, data a ještě jednou data

Aby toho všeho systém dosáhl, byl vyškolen na obrovských veřejných genomických databázích (více než 6 000 u lidí a přes tisíc u myší) a učí se spojovat sekvenční vzorce s biologickými důsledky. Tato data pocházejí z velkých mezinárodních konsorcií, jako jsou ENCODE, Roadmap Epigenomics nebo GTEx, která již více než deset let vytvářejí podrobné mapy aktivity genomu v různých tkáních a podmínkách. AlphaGenome se neomezuje pouze na jeden typ experimentu, ale integruje informace z více zdrojů:

  • Experimenty, které měří, které oblasti DNA jsou otevřené (ATAC-seq, DNase-seq).
  • Mapy vazeb regulačních proteinů (ChIP-seq).
  • Profily genové exprese (RNA-seq).
  • Data o 3D interakcích genomu (Hi-C a příbuzné techniky).

Tento multimodální přístup umožňuje modelu poznat vztahy, které by byly obtížně zjistitelné i pro vysoce specializované lidské týmy. Umělá inteligence nenahrazuje experimentální data, ale maximálně je využívá a nachází společné vzorce napříč tisíci experimenty, které by jinak byly roztroušeny v různých dokumentech a databázích.

Společnost DeepMind navíc zpřístupnila kód a API vědecké komunitě k nekomerčnímu využití, což vědcům po celém světě usnadňuje integraci nástroje do vlastních studií a rychlejší postup v projektech, aniž by museli začínat od nuly. To je v souladu s tím, co udělali s nástrojem AlphaFold, jehož model a předpovědi byly zveřejněny otevřeně, což spustilo vlnu objevů v oblasti strukturní biologie.

Genotyp, fenotyp a role prostředí

Navzdory pokrokům v genetice dnes moderní věda čelí zásadní výzvě: propojení genotypu s fenotypem. Rozdíl je zřejmý, ale není snadné ho převést. Genotyp je tvořen geny zděděnými po našich rodičích. Tyto geny obsahují informace pro tvorbu proteinů a regulaci procesů v organismu. Geny však nepůsobí ve vakuu.

Jejich projev závisí na prostředí: na potravě, teplotě, světle, stresu, hormonech, dokonce i na zkušenostech. To je fenotyp: soubor pozorovatelných vlastností organismu, od výšky přes krevní tlak až po náchylnost k infekcím. Velmi zjednodušeně řečeno, gen poskytuje jídelníček a prostředí (fenotyp) vybírá pokrm.

AlphaGenome tuto složitost neodstraňuje, ale poskytuje nám nástroj, který nám umožní lépe pochopit, jak genotyp podmiňuje škálu možných fenotypů. Může například pomoci vysvětlit, proč stejná genetická varianta zvyšuje riziko onemocnění pouze za určitých podmínek prostředí (jako je strava s vysokým obsahem tuku nebo vystavení tabáku). Modelováním genové regulace v různých typech buněk a kontextech umožňuje umělá inteligence zkoumat scénáře, které by nebylo možné testovat individuálně v laboratoři.

Omezení, rizika a etické otázky

Stejně jako všechny výkonné nástroje není ani AlphaGenome „všelékem“. Stále vyžaduje experimentální ověření a nemůže zcela nahradit laboratorní biologii. Jeho předpovědi jsou pravděpodobnostní: ukazují, co s největší pravděpodobností nastane, nikoliv co nastane s jistotou u každého jedince. Mezi současná omezení patří:

  • Zkreslení dat: většina dostupných genomických dat pochází z populací evropského původu. To může způsobit, že předpovědi pro jiné populace budou méně přesné, a pokud nebudou korigovány, prohloubí se nerovnosti.
  • Neúplný biologický kontext: mnoho typů buněk, vývojových stadií a podmínek prostředí je stále nedostatečně prozkoumáno. Model se může učit pouze z toho, co vidí.
  • Složitost interakcí: ačkoli AlphaGenome integruje mnoho typů dat, skutečná biologie zahrnuje další vrstvy (metabolismus, mikrobiom, sociální prostředí), které ještě nejsou plně modelovány.

Existují také důležité etické otázky. Nástroj, který je schopen velmi přesně předpovídat dopad genetických variant, lze využít k dobrým účelům – včasná diagnostika, personalizovaná terapie – ale představuje také rizika:

  • Genetické soukromí: kombinace výkonných modelů a rozsáhlých databází DNA ještě naléhavěji vyžaduje ochranu genetických informací lidí.
  • Diskriminace: zneužití genetických předpovědí by mohlo podpořit diskriminační praktiky v oblasti pojištění, zaměstnávání nebo přístupu ke službám.
  • Editace zárodečných genů: lepší pochopení regulace genomu by mohlo některé svádět k úvahám o dědičných modifikacích, což by mělo hluboké etické důsledky.

Proto mnoho odborníků trvá na tom, že vývoj těchto nástrojů musí být doprovázen jasnými regulačními rámci, etickým dohledem a společenskou účastí, aby bylo zajištěno spravedlivé sdílení přínosů a minimalizace rizik.

Nová éra genomiky řízené umělou inteligencí

V jistém smyslu vstupujeme do nové éry genomické vědy, kde umělá inteligence nejen urychluje statistickou analýzu, ale interpretuje biologii do hloubky, která by dříve vyžadovala desítky let lidské práce. A jestliže nás AlphaFold naučil „vidět“ tvar proteinů, AlphaGenome nás učí „rozumět“ složitému scénáři, který reguluje, kdy a jak se zapínají životní instrukce.

V příštích letech se pravděpodobně dočkáme toho, že modely jako AlphaGenome budou integrovány do nemocnic, výzkumných laboratoří a biotechnologických společností. Nenahradí genetiky, biology ani lékaře, ale stanou se nepostradatelnými pracovními společníky, kteří budou schopni prosít hory dat a určit nejslibnější hypotézy.

Velkou otázkou již není, zda umělá inteligence změní genetiku, ale jak se rozhodneme tuto novou schopnost číst a zapisovat DNA využít. AlphaGenome je jedním z prvních střípků této budoucnosti a jeho skutečný dopad bude záviset stejně tak na technologii jako na kolektivních rozhodnutích, která o ní učiníme.

Zdroje článku

nature.com
#