Най-новият AI в Meta идентифицира подходящи протеинови гънки 60 пъти по-бързо

Животът на Земята не би съществувал такъв, какъвто го познаваме, ако не бяха протеиновите молекули, които позволяват критичните процеси на фотосинтеза и ензимно разграждане за нашето зрение и имунна система. И като повечето аспекти на естествения свят, човечеството едва започва да открива много видове протеини, които вече съществуват. Но вместо това, претърсвайки най-суровите части на планетата за нови микроорганизми, които може да имат нов вкус за органичната молекула, изследователите на Meta разработиха първата по рода си метагеномна база данни, ESM Metagenomic Atlas, която може да ускори съществуваща протеин – сгъване 60x AI производителност.

Метагеномика Просто съвпадение. Това е сравнително нова, но много реална научна дисциплина, която изучава “структурата и функцията на пълни нуклеотидни последователности, изолирани и анализирани от всички живи организми (обикновено микроби) в сборна проба.” Тези техники често се използват за идентифициране на бактериални общности, които живеят върху нашата кожа или в почвата, и са подобни по функция на газовата хроматография, тъй като се опитват да определят какво има в конкретна система за проби.

Подобни бази данни са стартирани и преди NCBIThe Европейски институт по биоинформатикаИ Институт за общ геномИ вече сме каталогизирали милиарди новооткрити форми на протеин. Това, което Meta предлага на масата, е „нов подход към сгъването на протеини, който използва големи лингвистични модели, за да създаде първото цялостно показване на протеинови структури в метагеномна база данни в мащаба на стотици милиони протеини“, според изданието от вторник на търговско дружество. Проблемът е, че докато напредъкът в геномиката разкри последователностите на голям брой нови протеини, самото знаейки какви са тези последователности всъщност не ни казва как се вписват заедно в работеща молекула и тяхното експериментално откритие отнема всичко от няколко. месеци до няколко години. за всяка молекула. никой няма време за това.

„Метагеномният атлас на ESM ще позволи на учените да изследват и анализират структурите на метагеномните протеини в мащаба на стотици милиони протеини“, пише изследователският екип на Meta във вторник. “Това може да помогне на изследователите да идентифицират нехарактеризирани преди това структури, да търсят далечни еволюционни връзки и да открият нови протеини, които биха могли да бъдат полезни в медицината и други приложения.”

Подобно на езиците, протеините са съставени от техните съставни атоми (помислете, думи), които всички могат да бъдат разбити заедно, както желаете, но ще направят функционална молекула (т.е. съгласувана идея), само ако са поставени заедно в определен ред (молекулярно изречение ). Системата Meta значително ускорява нашите способности да разкриваме правилата и разпоредбите на органичната химия, но аналогията не е съвършена. „Последователността на протеина описва химическата структура на молекулата, която се превръща в сложна триизмерна форма според законите на физиката“, обясниха от екипа. „Протеиновите последователности съдържат статистически модели, които предават информация за нагънатата структура на протеина.“

По-конкретно, AI за моделиране на мащаба на Meta Evolution обработва генетични последователности като Mad Libs за O-Chem, използвайки самоконтролирано обучение, наречено самоконтролирано обучение. Моделиране на убедителен език. „Обучихме езиков модел за секвениране на милиони естествени протеини“, пише изследователският екип. С този подход формулярът трябва правилно да попълни празните места в част от текста, като например „до ​​__ или не __, тоест ________. „Обучихме езиков модел да запълва празните места в протеинова последователност, като „GL_KKE_AHY_G“ в милиони различни протеини.“

Полученият „протеинов езиков модел“ е наречен ESM-2 и работи в 15 милиарда варианта, което го прави най-големият модел от този вид до момента. „Способността да предвидим новата структура ни позволи да предвидим последователностите на повече от 600 милиона метагеномни протеини в атласа само за две седмици на масив от около 2000 графични процесора.“ Толкова за месеци и години.