Системный Блокъ

Новая модель для дизайна белков, скорый выход самой большой LLama и FlashAttention 3

Рассказываем, что произошло в мире ИИ за последние три недели.

Самая большая LLama на подходе

По данным сотрудника Meta, LLama 3 — языковая модель от Meta — с 405 млрд параметров выйдет уже 23 июля. Скорее всего, модель будет поддерживать работу не только с текстом, но и с другими типами данных, например, изображениями. Промежуточные результаты этой модели в стандартных тестах сопоставимы с результатами GPT-4.

Меньшие версии LLama 3 с восемью и 70 млрд параметров были выпущены в середине апреля. В отличие от большинства остальных языковых моделей, LLama выложена в открытый доступ и может быть использована в коммерческих целях.

ESM3 — одна из самых больших моделей для дизайна белков

Компания EvolutionaryScale, основанная бывшими сотрудниками Meta, представила модель ESM3 для генерации белков. Она была обучена на более чем 2,7 млрд последовательностей и структур белков и способна создавать белки с заданными свойствами.

Для демонстрации компания использовала ESM3 для дизайна флуоресцентного (светящегося) белка. Излучающий свет белок GFP (green fluorescent protein) был найден у медуз в 1960-х годах. Впоследствии учёные научились использовать его, чтобы помечать другие белки. Это, например, позволяет подсвечивать растущие раковые опухоли, показывать развитие болезни Альцгеймера в мозге или рост болезнетворных бактерий. За использование GFP в биологии в 2008 году несколько ученых получили Нобелевскую премию.

Исследователи вычислили наиболее способную к флуоресценции молекулу, не похожую на известные флуоресцентные белки, и использовали ESM3 для её усовершенствования. Хотя до лучших по яркости лабораторных образцов результаты всё еще не дотягивают, совпадение полученной молекулы с наиболее близкой из обучающих данных составило менее 60%.

Основатель компании отмечает, что итеративный процесс дизайна белков с помощью ESM3 схож с процессом естественной эволюции.

FlashAttenion3 — новые оптимизации механизма Attention

Исследователи выпустили третье поколение оптимизаций механизма Attention. Attention — главная составляющая самой популярной архитектуры нейросетей Transformer, которая в том числе используется во всех современных языковых моделях.

Главная проблема Attention — большое потребление вычислительных ресурсов, которое существенно растет с увеличением входных данных. FlashAttention — это серия работ по оптимизации ресурсозатратного блока.

Третья версия, по сравнению с предыдущей, более чем в два раза эффективнее использует вычислительные мощности во время работы Attention и поддерживает вычисления с числами пониженной точности (зачастую разработчики пренебрегают точностью в угоду скорости).

Благодаря более эффективной реализации Attention сократится стоимость обучения и использования большинства современных моделей, а языковые модели, в свою очередь, смогут работать с более длинными текстами.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤7🔥7

2.72K views17:03