Новият конкурент на AlphaFold? Meta AI прогнозира 600 милиона протеини

Базата данни на ESM Metagenomic Atlas съдържа структурни прогнози за 617 милиона протеини.Кредит: Метагеномен атлас на ESM (CC BY 4.0)

Когато тази година базираният в Лондон Deep Mind разкри проектирани структури от около 220 милиона протеини, той обхвана почти всеки протеин от известни организми в своите ДНК бази данни. Сега друг технологичен гигант запълва тъмната материя на нашата протеинова вселена.

Изследователи от Meta (бивш Facebook, базиран в Менло Парк, Калифорния) използваха изкуствен интелект (AI), за да предскажат структурите на около 600 милиона протеини от неописани бактерии, вируси и други микроби.

„Това са структурите, за които знаем най-малко. Това са невероятно мистериозни протеини. Мисля, че те предлагат потенциал за вникване в биологията“, казва Александър Райвс, ръководител на изследването на екипа за протеини Meta AI.

Екипът постави очаквания – изложени на 1 ноември Предпечат1 Използване на „голям езиков модел“, вид изкуствен интелект, който е в основата на инструменти, които могат да предвидят текст само от няколко букви или думи.

Езиковите модели обикновено се обучават върху големи количества текст. За да ги приложат към протеини, Rives и колеги им предоставиха последователности от известни протеини, които могат да бъдат изразени чрез вериги от 20 различни аминокиселини, всяка от които представлява буква. Тогава мрежата се научи да “автоматично допълва” протеините с част от блокираните аминокиселини.

Протеин „автоматично довършване“

Това обучение прониза мрежата с интуитивно разбиране на протеиновите последователности, което съдържа информация за техните форми, казва Ривес. Втората стъпка – вдъхновена от пионерската протеинова структура на DeepMind AI AlphaFold – комбинира тези прозрения с информация за връзките между известни протеинови структури и последователности, за да генерира прогнозирани структури от протеинови последователности.

Meta мрежата, наречена ESMFold, не е толкова точна, колкото AlphaFold, съобщи екипът на Rives по-рано това лято.2, но той казва, че е около 60 пъти по-бърз при прогнозиране на структури. „Това означава, че можем да разширим обхвата на прогнозирането на структурата до много по-големи бази данни.“

Като тестов случай те решиха да използват своя модел върху база данни от “метагеномна” ДНК, секвенирана в големи количества от източници на околната среда, включително почва, морска вода, човешки черва, кожа и други микробни местообитания. По-голямата част от входящите ДНК данни – които кодират потенциални протеини – идват от организми, които никога не са били култивирани и са неизвестни на науката.

Общо екипът на Meta прогнозира структурите на повече от 617 милиона протеини. Усилието отне само две седмици (AlphaFold може да отнеме минути, за да генерира една прогноза). Прогнозите са свободно достъпни за всеки, казва Ривес, както и кодът, който е в основата на модела.

От тези 617 милиона прогнози, моделът смята, че повече от една трета от тях са с високо качество, така че изследователите могат да бъдат уверени, че цялостната форма на протеина е правилна, а в някои случаи те могат да различат по-фини детайли на атомно ниво. Милиони от тези структури са напълно нови и не приличат на нищо в базите данни с експериментално идентифицирани протеинови структури или в базата данни AlphaFold с прогнози от известни организми.

Голяма част от базата данни AlphaFold се състои от структури, почти идентични една с друга, а „метагеномните“ бази данни трябва да покриват „голяма част от невижданото преди това царство на протеини“, казва Мартин Щайнегер, изчислителен биолог от Националния университет в Сеул. „Сега има чудесна възможност да разкрием повече тъмнина.“

Сергей Овчинников, еволюционен биолог от Харвардския университет в Кеймбридж, Масачузетс, поставя под въпрос стотиците милиони прогнози, направени от ESMFold с ниска степен на увереност. Някои може да нямат определена структура, поне в изолация, докато други може да имат некодираща ДНК, погрешно смятана за протеиново кодиращо вещество. „Изглежда, че все още има повече от половината протеиново пространство, за което не знаем“, казва той.

По-малък, по-прост и по-евтин

Буркхард Руст, изчислителен биолог от Техническия университет в Мюнхен в Германия, е очарован от комбинацията от скорост и прецизност в мета-модела. Но той се чуди дали наистина предлага предимство пред точността на AlphaFold, когато става въпрос за прогнозиране на протеини от метагеномни бази данни. Методи за предсказване, базирани на езиков модел – включително един, разработен от неговия екип3 – Те са най-подходящи да определят как мутациите бързо променят структурата на протеина, което не е възможно с AlphaFold. „Ще видим прогнозите на структурата да стават по-малки, по-прости и по-евтини и това ще отвори вратата за нови неща“, казва той.

В момента DeepMind няма планове да включи прогнози за метагеномния състав в своята база данни, но не е изключил това за бъдещи издания, според представител на компанията. Но Steiger и неговите сътрудници използваха версия на AlphaFold, за да предскажат структурите на около 30 милиона метагеномни протеини. Те се надяват да намерят нови видове РНК вируси чрез търсене на нови форми на техните ензими за транскрипция на генома.

Steiger вижда използването на тъмна материя в биологията на трала като очевидна следваща стъпка за такива инструменти. „Мисля, че много скоро ще имаме експлозия на анализа на тези метагеномни структури.“