Тихая революция: ИИ в биологии

Одной из наиболее перспективных сфер применения ИИ является биология, благодаря технологическим прорывам последних лет в фармакологии и биотехнологиях происходит структурный сдвиг. Крупнейшие игроки уже включились, и те, кто смогут адаптироваться к новому технологическому ландшафту, станут лидерами индустрии через 10 лет. Несмотря на это, в публичном дискурсе тема незаслуженно обделена вниманием, во многом за счет увеличенного порога вхождения в дискурс чем стандартные LLM, но тема однозначно перспективная.

В этом лонг-риде мы разберем иерархию ИИ моделей для биологии, как существующие модели обеспечивают технологическую революцию, куда идет поток инвестиций и как здесь замешана геополитика.

Генерирование структуры нового белка, Nature

Начнем с основ, почему мы вообще хотим использовать ИИ в биологии? Три главные причины:

Сложно моделировать, но много данных: В биологии, в отличие от физики или химии, мало известных нам законов и правил, способных предсказывать структуру или поведение биологических соединений. Зато очень много данных об этих соединениях, ДНК, РНК, белках, их мы собирали годами. ИИ здесь может помочь, алгоритмы глубокого обучения могут находить паттерны в данных и обобщать их в законы без необходимости человеческого вмешательства и интерпретации.
Огромное пространство для поиска: Комбинаторная проблема, небольшой белок длиной в 100 аминокислот включает 20^100 комбинаций. Традиционные методы крайне неэффективны, компании тратят годы разработок и тысячи экспериментов на поиски нового соединения. ИИ же позволяет предсказывать наиболее вероятные успешные кандидаты, сильно сужая пространство поиска.
Деньги: Весь поиск новых медицинских соединений ужасно дорог. Глобально фармакомпании тратят примерно $250-300 млрд/год на разработку лекарств, при этом в штатах (где сконцентрирована большая часть медицинского R&D) всего 8-12% новых лекарств проходят все необходимые фазы клинических тестов. Многие из этих провалов можно было бы избежать, имея улучшенные вычислительные модели этих лекарств.

Таким образом биология становится естественным кандидатом для ИИ-революции. И разработки уже активно идут. В 2024 году нобелевскую премию по химии разделили две лаборатории: лаборатория Бейкера за вклад в вычислительный дизайн белков и DeepMind за предсказание структуры белков. DeepMind разработали AlphaFold, алгоритм, способный точно предсказывать геометрическую структуру белка из цепочки аминокислот, Бейкер дал нам RF-Diffusion, вычислительную модель для генерации новых белков-байндеров к известным структурам. Обе эти проблемы — неразрешимые до прорывов в ИИ.

Несмотря на то что эти модели открывают новый мир для структурной и генеративной биологии, мы еще очень далеки от того, чтобы полноценно решить все необходимые задачи. Все дело в иерархии моделирования биологии.

Если говорить в общих чертах, в биологии мы можем строить вычислительные модели на разных уровнях, начиная с основ в виде белков и идя вверх по сложности к многоклеточным организмам. На данный момент ИИ начал разбираться с белками, но расти есть куда, еще не до конца отточены предсказания моделями динамики поведения белков в живых организмах. Дальше нужно будет создать модели для предсказания взаимодействия белков друг с другом, потом для дизайна систем внутри клеток и самих клеток, и уже только в конце — дизайн организмов. Стадии разработки и существующие решения указаны на схеме:

Диаграмма уровней задач для ИИ в биологии, сгенерирована с помощью nano banana

Но уже доступные на рынке модели меняют парадигму био-исследований. Пробежимся по существующим моделям, чтобы оценить нынешний уровень прогресса:

AlphaFold 3: Флагманская модель от DeepMind/Isomorphic Labs. Может предсказывать с высокой точностью структуру белков, ДНК, РНК, лигандов. Обучена на кристальных структурах белков, поэтому не имеет представления об их динамике в организме. Представьте, что модель обучали на фотографиях, но она понятия не имеет, как себя ведут в динамике объекты с фото.
RF-Diffusion: Диффузионная модель, созданная для дизайна белковых байндеров — молекул, спроектированных для связывания с конкретной мишенью. Байндеры — это основа индустрии антител (рынок $300B+). Раньше их искали месяцами, используя мышей, теперь RFdiffusion проектирует их за дни с пикомолярной точностью с первой попытки.
Evo 2: Новейшая разработка NVIDIA и ARC Institute. Геномная модель, обучена на 9.3 триллионах нуклеотидов, открывает возможность синтезировать коды ДНК для новых организмов, например бактериофагов против бактерий с резистентностью к антибиотикам.

За последний год также появилась новая парадигма биоисследований с помощью ИИ: автоматизированные лаборатории, к которым подключены ИИ-агенты. Эта область только в зародыше, но может решить ключевое ограничение вычислительной биологии: необходимость экспериментальной валидации. Эту тему в деталях я уже разобрал в своем телеграм-канале.

Перейдем к экономике. Что отличает ИИ в биологии от общего рынка ИИ - это точное и доказанное применение. Мы видим, что уже существующие ИИ-решения могут кратно сократить траты на разработки лекарств, фундаментально изменяя всю цепочку R&D. Модели по типу AlphaFold сделаны не для баловства (как покойный слоп-генератор Sora), они созданы учеными конкретно для открытия новой парадигмы поиска белков.

На данном этапе развития био-ИИ наиболее перспективной областью применения является фарма, где нынешние ИИ-модели открывают пространство для снижения цен разработок в 4-5 раз.

Разберем на простом примере, почему ИИ имеет смысл в фармакологии с точки зрения финансов. Традиционный процесс регистрации нового лекарства проходит в США через несколько ступеней валидации, начиная от создания кандидата, заканчивая тремя фазами клинических тестов. ИИ на данный момент снижает цены и время поиска кандидатов, но пока не доказан эффект на поздние фазы клинической валидации. Допустим, что эффекта не будет, тогда мы получим примерно следующий график трат:

Сильное снижение трат в пре-клинике, ИИ также помогает сократить время разработки на 4 года.

То есть уже в базовом варианте мы тратим на разработку кандидата ~$120M вместо ~$500M. Теперь, не каждый кандидат проходит все три стадии клинической валидации, в среднем только 1 из 12 кандидатов пройдет все три фазы и выйдет на рынок. Таким образом традиционная фармакологическая компания потратит ~$6B на разработки, чтобы вывести 1 препарат на рынок, с ИИ они потратят всего ~$1.4B, что разблокирует $4.6B. Это уже не говоря об эффектах второго порядка, когда ускоренное прототипирование сокращает затраты на исследователей и освобождает команды для большего числа экспериментов.

Понимая перспективность технологии, мы наблюдаем бум инвестиций в компании-разработчики со стороны как VC-фондов, так и фармакомпаний (второе - это замечательный сигнал, ведь в отличие от спекулянтов из VC, фарма не стала бы инвестировать, не видя прямой окупаемости)

VC-финансирование AI-biotech ($B) и количество AI-разработанных препаратов в клинических испытаниях

Как видите, финансирование упало с пузыря в 21 (который раздули VC на фоне ковида), но после коррекции в 23 году снова пошел рост. Количество лекарств, разработанных с ИИ в клинических испытаниях, растет экспоненциально.

Стоит отметить, что фармакология - одна из самых больших индустрий по финансам, там размер сделок космический и без ИИ. Это и очевидно, все стареют и болеют, так что бизнес продажи лекарств - вечный. Просто для оценки масштабов инвестиций, последний прорыв фармы, пептид GLP-1 лежащий в основе медицины для похудения типа Ozempic, стал самым быстрорастущим рынком в истории фармы, по разным прогнозам достигнет $80-100 млрд в 2026 году. И это всего один пептид. С ИИ мы можем каждый день синтезировать тысячи новых кандидатов для лекарств от массы болезней.

Одно из главных ограничений на пути всеобщей мировой ИИ-революции - это инфраструктура: ИИ прям очень дорог для тренировки и постоянного использования, для читателей я думаю это не новость. Поэтому может закрасться разумный вопрос, не станет ли инфраструктура непреодолимым барьером на пути ИИ-революции в биологии? Может быть так окажется, что запускать эти модели дороже, чем платить людям (как мы пока наблюдаем с LLM в других областях).

Посмотрим на график цены обучения и количества параметров, чтобы сравнить био-ИИ и LLM.

Логарифмическая шкала. AlphaFold 2 (93M параметров, ~$3M) решил задачу фолдинга белков, над которой биологи работали 50 лет. Grok 3 (~$2.5B) стоит почти в 1000 раз дороже.

Оценки параметров и стоимостей взяты у экспертов и очень примерные, к тому же часть игроков может специально завышать или занижать цены. Но это не меняет посыл: Биологические модели экстремально эффективны по соотношению «стоимость / научный прорыв»

Еще раз, посмотрите, что все биологические модели, даже новейшие, сильно меньше и дешевле лингвистических моделей. При этом пользы от AlphaFold 3 или RF Diffusion в разработке лекарств будет бесконечно больше, чем пользы от того же GPT-3 в любой области. И эти модели, во-первых, в разы дешевле обучать, во-вторых, в разы легче и дешевле запускать за счет кратно меньшего количества параметров. Вам не понадобится кластер из тысяч чипов H200, вы можете начать со сравнительно скромным вычислительным бюджетом.

На это еще и накладываются два следующих тезиса:

Объём потребления и монетизация: Сравним ИИ-компанию, поставляющую LLM как сервис, и био-ИИ как сервис; поставщику LLM надо готовить инфраструктуру к параллельной динамической обработке миллионов запросов в час от пользователей по всему миру, при этом значительная часть из этих запросов идет от пользователей, не платящих подписку, био-ИИ в качестве потребителей имеет гораздо более малый круг пользователей, но пользователей с деньгами (фармакомпании), у них априори уйдет меньше затрат на строительство инфраструктуры для моделей
Пузырь ИИ-инфраструктуры: Если пузырь инфраструктуры для ИИ все же лопнет, как предсказывают некоторые аналитики, био-ИИ-компаниям достанутся нынешние вычислительные мощности еще и с хорошей скидкой. И опять же, в отличие от традиционных ИИ-компаний, био-ИИ гораздо менее капиталоинтенсивен, что поможет ему пережить грядущий кризис.

Таким образом мы видим, что в отличие от традиционного ИИ, био-ИИ гораздо более эффективен в использовании и полезен в своей индустрии. Здесь нет футуристичных рассказов о том, как роботы заменят всех, только четкий value proposition. Может статься, что био-ИИ станет тихой гаванью, когда общий рынок ИИ начнет штормить.

Ключевые игроки (США, Китай, за ними Европа) признают стратегическую важность биотехнологий и потенциал трансформации за счет ИИ. Они видят, куда движется индустрия, и принимают соответствующие шаги. Стратегическая важность накладывается на нынешнее противостояние между США и Китаем, в США недавно был принят BIOSECURE Act, согласно которому к 2032 году США должны обеспечить полную независимость от Китая в цепочке поставок биотехнологий. Это задаст три тренда развития биотеха на ближайшие годы: США + союзники (Европа, Япония, Корея) будут максимально дистанцироваться от Китая; Китай будет строить базу самодостаточности; локальные игроки как Сингапур станут хабами работы для обеих сторон.

Что нужно для создания суверенной био-ИИ-индустрии? Биореволюция в ИИ будет поддерживаться четырьмя столпами:

Вычислительные мощности
Доступ к качественным биологическим данным
Интергированное и автоматизированное производство
Доступ к компонентам лекрств

Что важно, все эти столпы должны взаимодействовать друг с другом. Нужно иметь специальные вычислительные мощности под био-ИИ, который вы обучаете на специализированных данных, к моделям нужно подключить правильно производство, использующее нужные компоненты. Без любого из этих элементов создать суверенную индустрию не выйдет.

Посмотрим на глобальную карту, совмещающую возможности биопроизводства, контроль над компонентами лекарств и известные инвестиции фармы в вычислительные мощности (как прокси интереса к развитию и доступности технологии в стране).

Биопроизводственные мощности (голубые маркеры, размер пропорционален объёму биореакторов в M литров) и доля стран в мировом производстве активных фармацевтических ингредиентов (API, тепловая карта)

Китай, как видно, отстает от блока США по биопроизводству и вычислительным мощностям, но все еще контролирует 44% мирового рынка производства медицинских компонентов. Согласно BIOSECURE Act, американцы будут стремиться заменить и эти 44% для себя. Китайцы же вероятнее всего будут вкладываться в серверы и биопроизводство. Еще обратите внимание на пояс новых производителей вокруг Китая, эти страны будут либо площадками, представляющими оба лагеря, либо уйдут под США.

На данный момент очень мало кто говорит о доступности данных, во многом это связано с тем, что пока что модели обучались на открытых данных, как было с лингвистическими моделями до 23 года. Я думаю, что это станет важным для фармакомпаний, а также био-ИИ-стартапов в ближайшие несколько лет, когда модели насытятся доступными данными и мы захотим строить алгоритмы для более продвинутых целей. В этой ситуации фармакомпании и автоматизированные лаборатории, сидящие на массивах проприетарных данных, станут настоящими победителями. Мы начинаем видеть этот тренд в некоторых сделках, компания Recursion, предоставляющая автоматизированные лаборатории со сбором данных, заключила сделку со швейцарской Roche на $150M (с потенциалом масштабирования), предположительно отчасти из-за этого.

Россия в этом не участвует, из-за сложившейся санкционной обстановки и отсутствия био-ИИ как приоритета развития, рынок в России, несмотря на безусловное наличие сильного таланта в биологии и нейросетях, вряд ли станет чем-то глобально важным в ближайшей перспективе.

Как итог, несмотря на сравнительно малый шум, био-ИИ остается одной из наиболее перспективных технологий ближайшего будущего. Фармакомпании постепенно вовлекаются в разработку и использование технологии, так как видят в ней прямое сокращение своих трат на R&D новых лекарств. При этом прорывы в био-ИИ в будущем могут разблокировать для нас целый новый набор подходов с дизайном синтетических организмов под конкретные нужды. Страны-лидеры в технологиях видят этот прогресс и стремятся обеспечить суверенное развитие технологии. Большой приоритет отдается не только созданию технологий ИИ, но и их интеграции с реальным производством.

На мой взгляд, в сфере еще имеется много возможностей для входа. Две из них, автоматизированное производство и частные биологические базы данных, по сути являются сторонами одной монеты: для обеспечения новых научных прорывов в биологии необходимы платформы, дающие ИИ прямой доступ к валидации экспериментов и сбору данных. При этом за счет эффективности моделей и их сравнительно малого размера у новых игроков еще есть возможность предложить конкурентоспособные решения без высокого капиталовложения.

Если вам интересно следить за развитием био-ИИ и других технологий на стыке науки и бизнеса - я разбираю их в своем телеграм-канале с позиции ML-исследователя из Оксфорда.

t.me

Cold Read

Тихая революция: ИИ в биологии

ИИ для биологии

Почему это важно?

Иерархия био-ИИ

Существующие решения

Экономика ИИ в биологии

Фармакология

Инвестиции

Инфраструктура

Глобальная карта био-ИИ

Выводы