Най-новият AI в Meta идентифицира подходящи протеинови гънки 60 пъти по-бързо

TheЖивотът на Земята не би съществувал такъв, какъвто го познаваме, ако не бяха протеиновите молекули, които позволяват критичните процеси на фотосинтеза и ензимно разграждане за нашето зрение и имунна система. И като повечето аспекти на естествения свят, човечеството едва започва да открива много видове протеини, които вече съществуват. Но вместо това, претърсвайки най-суровите части на планетата за нови микроорганизми, които може да имат нов вкус за органичната молекула, изследователите на Meta разработиха първата по рода си метагеномна база данни, ESM Metagenomic Atlas, която може да ускори съществуваща протеин – сгъване 60x AI производителност.

Метагеномика Просто съвпадение. Това е сравнително нова, но много реална научна дисциплина, която изучава “структурата и функцията на пълни нуклеотидни последователности, изолирани и анализирани от всички живи организми (обикновено микроби) в сборна проба.” Тези техники често се използват за идентифициране на бактериални общности, които живеят върху нашата кожа или в почвата, и са подобни по функция на газовата хроматография, тъй като се опитват да определят какво има в конкретна система за проби.

Подобни бази данни са стартирани и преди NCBIThe Европейски институт по биоинформатикаИ Институт за общ геномИ вече сме каталогизирали милиарди новооткрити форми на протеин. Това, което Meta предлага на масата, е „нов подход към сгъването на протеини, който използва големи езикови модели, за да създаде първия изчерпателен изглед на структурите на протеините в метагеномна база данни в мащаба на стотици милиони протеини“, според традиционни знания Фирмено издание. Проблемът е, че докато напредъкът в геномиката разкри последователностите на голям брой нови протеини, самото знаейки какви са тези последователности всъщност не ни казва как се вписват заедно в работеща молекула и тяхното експериментално откритие отнема всичко от няколко. месеци до няколко години. за всяка молекула. никой няма време за това.

Изследователският екип на Meta написа: „Метагеномният атлас на ESM ще позволи на учените да търсят и анализират структурите на метагеномните протеини в мащаба на стотици милиони протеини.“ традиционни знания. “Това може да помогне на изследователите да идентифицират нехарактеризирани преди това структури, да търсят далечни еволюционни връзки и да открият нови протеини, които биха могли да бъдат полезни в медицината и други приложения.”

Подобно на езиците, протеините са съставени от техните съставни атоми (помислете, думи), които всички могат да бъдат разбити заедно, както желаете, но ще направят функционална молекула (т.е. съгласувана идея), само ако са поставени заедно в определен ред (молекулярно изречение ). Системата Meta значително ускорява нашите способности да разкриваме правилата и разпоредбите на органичната химия, но аналогията не е съвършена. „Последователността на протеина описва химическата структура на молекулата, която се превръща в сложна триизмерна форма според законите на физиката“, обясниха от екипа. „Протеиновите последователности съдържат статистически модели, които предават информация за нагънатата структура на протеина.“

По-конкретно, AI за моделиране на мащаба на Meta Evolution обработва генетични последователности като Mad Libs за O-Chem, използвайки самоконтролирано обучение, наречено самоконтролирано обучение. Моделиране на убедителен език. „Обучихме езиков модел за секвениране на милиони естествени протеини“, пише изследователският екип. С този подход формулярът трябва правилно да попълни празните места в част от текста, като например „до ​​__ или не __, тоест ________. „Обучихме езиков модел да запълва празните места в протеинова последователност, като „GL_KKE_AHY_G“ в милиони различни протеини.“

Полученият „протеинов езиков модел“ е наречен ESM-2 и работи в 15 милиарда варианта, което го прави най-големият модел от този вид до момента. „Способността да предвидим новата структура ни позволи да предвидим последователностите на повече от 600 милиона метагеномни протеини в атласа само за две седмици на масив от около 2000 графични процесора.“ Толкова за месеци и години.

Всички продукти, препоръчани от Engadget, са подбрани ръчно от нашия редакционен екип, независимо от компанията майка. Някои от нашите истории включват партньорски връзки. Ако купите нещо чрез една от тези връзки, може да спечелим партньорска комисионна. Всички цени са верни към момента на публикуване.