Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIO:
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up).
Zoom link will be in @sberlogabig just before start
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up).
Zoom link will be in @sberlogabig just before start
🔥13👨💻2🆒1
Forwarded from Нейромаргиналы 18+
Дорогие друзья и товарищи нейронщики в своих нейронных чатах и сообществах (а также те, кто не имеет отношения к нейронкам, но к кому это случайно прилетело). Поздравляю вас всех с днем расстрела Чикатило! Ой! То есть с днем Святого Валентина!
Желаю вам всем большой крепкой нежной страстной и сильной любви, как у этой милой парочки эльфов!
Желаю вам всем большой крепкой нежной страстной и сильной любви, как у этой милой парочки эльфов!
❤10
Forwarded from Data, Stories and Languages
LiRank: Industrial Large Scale Ranking Models at LinkedIn
Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).
В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.
Выглядит довольно интересно и полезно.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).
В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.
Выглядит довольно интересно и полезно.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
👍12🔥2❤1
Очень красивый подход с DPO без тюна, ретривер кстати можно взять лайтовый аля tinyBert или MiniLM MsMarco. 👇
Forwarded from AI[ex]Time (Александр Голубев)
ICDPO (In Context Direct Preference Optimization), или DPO без файн-тюнинга
Очередная работа по методам тюнинга, на этот раз немного необычная. Основной плюс — мы по факту ничего не делаем с весами модели, то есть используем претрейн. За это расплачиваемся дополнительным временем и памятью. Теперь давайте подробнее. Обозначим заданный промпт как x, датасет с заготовленными чистыми примерами как D. Далее:
1. Извлекаем d примеров из D, которые похожи на x. Это классический ретривал, то есть можно использовать BM25 + Sbert, bert, colbert, you name it.
2. Генерируем n различных ответов, поместив примеры d в контекст.
3. Для каждого ответа считаем вероятность p(y | x) = a и p(y | d, x) = b, то есть с условием на примеры d в контексте и без. Можно сказать, что это оценка вероятности ответа y в формате zero-shot и few-shot.
4. Считаем некоторый скор S, который отражает разницу между b и a. Это число показывает, насколько хорошо заалайнен ответ, так как d — качественные примеры из заготовленного датасета. В итоге берем генерацию с максимальным S.
По экспериментам репортят, что удается добиться метрик на уровне тюнинга с LoRA. Ну и как раз за счет ретривера + n генераций мы сильно замедляемся по скорости, так что область применения такой техники сильно ограничена 😢
Статья ICDPO: https://arxiv.org/abs/2402.09320
Статья DPO: https://arxiv.org/abs/2305.18290
Очередная работа по методам тюнинга, на этот раз немного необычная. Основной плюс — мы по факту ничего не делаем с весами модели, то есть используем претрейн. За это расплачиваемся дополнительным временем и памятью. Теперь давайте подробнее. Обозначим заданный промпт как x, датасет с заготовленными чистыми примерами как D. Далее:
1. Извлекаем d примеров из D, которые похожи на x. Это классический ретривал, то есть можно использовать BM25 + Sbert, bert, colbert, you name it.
2. Генерируем n различных ответов, поместив примеры d в контекст.
3. Для каждого ответа считаем вероятность p(y | x) = a и p(y | d, x) = b, то есть с условием на примеры d в контексте и без. Можно сказать, что это оценка вероятности ответа y в формате zero-shot и few-shot.
4. Считаем некоторый скор S, который отражает разницу между b и a. Это число показывает, насколько хорошо заалайнен ответ, так как d — качественные примеры из заготовленного датасета. В итоге берем генерацию с максимальным S.
По экспериментам репортят, что удается добиться метрик на уровне тюнинга с LoRA. Ну и как раз за счет ретривера + n генераций мы сильно замедляемся по скорости, так что область применения такой техники сильно ограничена 😢
Статья ICDPO: https://arxiv.org/abs/2402.09320
Статья DPO: https://arxiv.org/abs/2305.18290
🥴4🔥2❤1👍1
Dealer.AI
Первым делом, расскажу о своём любимом information retrieval для NLP. Так уж вышло, что волею судьбы, мне выпала честь развивать retrieval based dialogue system в одной крупной финансовой компании. И поэтому хайп, который творится вокруг chatGPT, докатился…
Внезапно тихо, после Mistral7b -e5-instruct появился новый инструктор эмбеддер и для multiling-e5.
Идея как в статье reply'я: для того, чтобы не плодить К тасок для каждого типа задачи : qa, retrieval , nli, etc - давайте сделаем инструкции и приклеим их к запросам. Далее вкинем в один батч и получим для одного и того же запроса, но разных тасок разные префикс инструкции, а значит разные эмбеды. Тем самым повысим разнообразие и дадим доп инфо.
На MTEB для english она конечно похуже miastral-e5, но лучше родительской me5 и входит в топ10. Думаю для ру языка она будет лучше mistral-e5, но замерим.
Upd. тех папир тут по me5: https://arxiv.org/abs/2402.05672
Идея как в статье reply'я: для того, чтобы не плодить К тасок для каждого типа задачи : qa, retrieval , nli, etc - давайте сделаем инструкции и приклеим их к запросам. Далее вкинем в один батч и получим для одного и того же запроса, но разных тасок разные префикс инструкции, а значит разные эмбеды. Тем самым повысим разнообразие и дадим доп инфо.
На MTEB для english она конечно похуже miastral-e5, но лучше родительской me5 и входит в топ10. Думаю для ру языка она будет лучше mistral-e5, но замерим.
Upd. тех папир тут по me5: https://arxiv.org/abs/2402.05672
arXiv.org
Multilingual E5 Text Embeddings: A Technical Report
This technical report presents the training methodology and evaluation results of the open-source multilingual E5 text embedding models, released in mid-2023. Three embedding models of different...
👍12🤔3
🤪15🔥6👍2😁1🥴1
сижу в отпуске , пью смузи и читаю " ИИ скандалы, интриги, расследования" 🍿
Оказывается это все вранье😱 чтобы набрать классы 🤨
https://x.com/digital_ninjaaa/status/1760564832216981684?s=20
Оказывается это все вранье
https://x.com/digital_ninjaaa/status/1760564832216981684?s=20
Please open Telegram to view this post
VIEW IN TELEGRAM
X (formerly Twitter)
Digital Ниндзя (@digital_ninjaaa) on X
Помните тред про то, как чувак познакомился с 5239 девушками через Tinder? Он набрал 8.3 миллиона просмотров. Этот тред — выдумка.
У автора, Александра Жадана, Нейро-Казановы, не было технического решения. Я провёл своё расследование и поговорил с ним.
…
У автора, Александра Жадана, Нейро-Казановы, не было технического решения. Я провёл своё расследование и поговорил с ним.
…
😁9👍6🍌2