Polako se otkriva skriveni jezik DNK
DNK sadrži temeljne informacije potrebne za održavanje života. Razumijevanje načina na koji se te informacije pohranjuju i organizuju bio je jedan od najvećih naučnih izazova prošlog stoljeća. Uz GROVER, novi veliki jezični model uvježban na ljudskoj DNK, istraživači sada mogu pokušati dekodirati složene informacije skrivene u našem genomu.
Geni
Razvijen u Biotehnološkom centru (BIOTEC) Tehnološkog univerziteta u Dresdenu, GROVER tretira ljudski DNK kao tekst, uči njegova pravila i kontekst kako bi izvukao funkcionalne informacije o sekvencama DNK. Ovaj novi alat, objavljen u časopisu Nature Machine Intelligence, ima potencijal transformirati genomiku i ubrzati personaliziranu medicinu.
Od otkrića dvostruke spirale, naučnici su nastojali razumjeti informacije kodirane u DNK. 70 godina kasnije jasno je da su informacije skrivene u DNK višeslojne. Samo 1-2 posto genoma sastoji se od gena, sekvenci koje kodiraju proteine.
- DNK ima mnogo funkcija osim kodiranja proteina. Neke sekvence regulišu gene, druge služe u strukturne svrhe, većina sekvenci služi više funkcija odjednom. Trenutno ne razumijemo značenje većine DNK. Kada je riječ o razumijevanju nekodirajućih regija DNK, čini se da smo tek počeli grebati po površini. Ovdje AI i veliki jezični modeli mogu pomoći, kaže dr. Anna Poetsch, voditeljica istraživačke grupe u BIOTEC-u.
Veliki jezični modeli, poput GPT-a, promijenili su naše razumijevanje jezika. Obučeni isključivo na tekstu, veliki jezični modeli razvili su sposobnost korištenja jezika u mnogim kontekstima.
Sekvence
- DNK je šifra života. Zašto ga ne tretirati kao jezik?, pita dr. Poetsch. Tim je trenirao veliki jezični model na referentnom ljudskom genomu. Rezultirajući alat pod nazivom GROVER, ili Genome Rules Obtained via Extracted Representations, može se koristiti za izdvajanje biološkog značenja iz DNK.
- GROVER je naučio pravila DNK. Što se tiče jezika, govorimo o gramatici, sintaksi i semantici. Za DNK to znači naučiti pravila koja upravljaju sekvencama, redoslijed nukleotida i sekvenci i značenje sekvenci. Poput GPT modela koji uče ljudske jezike, GROVER je u osnovi naučio kako “govoriti” DNK, objašnjava dr. Melissa Sanabria, istraživačica na projektu.