ds girl – Telegram

ds girl

921 subscribers

99 photos

7 videos

111 links

рассказываю про статьи, свою работу и приколы

Download Telegram

About

Blog

Apps

Platform

921 subscribers

66😁4

4.14K views12:14

всем привет! очень важное сообщение:

Проекту MTS AI х ВШЭ по генерации шуток с помощью LLM требуются люди с потрясающим чувством юмора (вы 🤭). У нас есть очень много шуточек на английском и русском языке, но не хватает рук, чтобы оценить, насколько они правда смешные. Поэтому если вы любите хихикать в телефончике, мы сделали специального бота с инструкцией для вас:

@joke_evaluator_bot

Каждый тык важен. Еще мы собираем немного обобщенных данных о разметчиках - возраст, пол, образование. Зачем? Это требование публикации. Результаты этого исследования можно будет потом почитать в открытой статье, мы ей обязательно со всеми поделимся, когда она будет опубликована 🤓

Важный момент: выбирайте английский только если уверены в своем английском (С1-С2) - есть много неочевидных шуток, где прям надо подумать и нужно хорошее знание лексики и иногда американских реалий. Если шутка непонятная, то можно ее скипнуть (скоро появится кнопка). Русского языка это тоже касается 🙂

Мы очень старались чистить датасет от токсичности, но если вы увидите что-то хотя бы отдаленно оскорбительно хоть для какой-то группы людей, сразу тыкайте 1 (даже если шутка смешная 🥺)

по всем вопросам и предложениям писать @incredaria !!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤2🖕1

2.96K views07:52

😁24🔥3

6K views09:19

now that’s what i call late stage capitalism

🥴35🔥7

2.33K views12:47

Forwarded from До ReLU или после?

Здравствуйте, дорогие подписчики!

Уже в это воскресенье (26 мая) мы организуем секцию OptimalDL на DataFest2024. Секция будет в онлайне, чтобы можно было поприсутствовать на докладах где бы вы не находились! На секции планируются следующие доклады:

Докладчик:

Дмитрий Раков

Описание

Расскажет о своем опыте ускорения нейронной сети SegFormer для задачи сегментации в ЖД домене. Докладчик разработал собственный фреймворк для data aware прунинга данной архитектуры, и смог получить ускорение в 1,5 раза при незначительной потере точности.

Докладчик:

Дмитрий Иванов

Описание

Сделает обзор области оптимизации нейронных сетей, а именно методов прунинга и квантования. Доклад охватывает направления исследований от Lottery ticket hypothesis до 4ех битного квантования LLM.

Докладчик:

Алексей Гончаров

Описание

Поделится опытом оптимизации расходов на инференс LLM с применением квантования, дообучения моделей, LoRA адаптеров и низкоуровневых фреймворков инференса.

Докладчик:

Григорий Алексеев

Описание

Расскажет об опыте написания собственного CUDA-kernel-а для оптимизации Flash Attention

Докладчик:

Андрей Щербин

Описание

Поведает о том, как мы принимали участие в конкурсе LPCV2023 и получили самое точное среди быстрых решений

9🔥5

3.51K views13:47

34🤣9😁4

2.84K views13:38

Media is too big

VIEW IN TELEGRAM

пока все ушли тестировать новый релиз Anthropic, я... кажется сломала Mistral Large ?

дело происходило в интерфейсе Le Chat, где я попросила модель написать 50 примеров, как человек в разговорной форме говорит "нет"/не соглашается/отказывается от чего-то (that's that me synthetic data miner), расписала форму ответа и так далее. а потом в самом ленивом промпте на свете попросила убрать нумерацию с кавычками, и модель ушла в бесконечный цикл 🤡

пруфы прикрепляю в скринкасте, впервые с таким сталкиваюсь
новый/старый джейлбрейк?

Please open Telegram to view this post

VIEW IN TELEGRAM

😁19🤔4

1.87K views18:59

в качестве упражнения решила пройтись по принятым статьям на недавно прошедшей конфе NAACL и выделить интересные работы по тематикам, которые на данный момент мне близки 💼 и первое, о чем поговорим, - ускорение инференса ллм через декодинг. сюда можно причислить ранние выходы из генерации, генерацию сразу нескольких токенов, но центральную часть займет спекулятивное декодирование

о нем уже писал Илья Гусев, но если хочется подробнее и в видео формате, то могу посоветовать такой обобщенный разбор статей от DeepMind и Google по этой теме. а если совсем кратко и текстом, то идея спекулятивного декодирования заключается в том, чтобы ускорять инференс больших языковых моделей, предлагая кандидатов генераций от более маленьких моделек, с условием такой же токенизации и работой быстрее, чем генерация большой модели. она в свою очередь за один проход подсчитывает вероятности предложенных токенов и принимает/отвергает их 😱 в первом случае мы ускоряем инференс на m токенов (сколько большая модель подтвердила), а во втором ничего особо и не теряем, просто продолжаем семплить из большой модели. наверняка вы слышали про Medusa, в ней отказались от маленькой модели, а стали обучать дополнительные головы для генерации. следующим крутым развитием становится multi-token prediction, подробнее об этом писала Милана. теперь, посмотрим, что интересного предлагают на А-конференции

😎 REST: Retrieval-Based Speculative Decoding
а что если нам не нужна маленькая модель для генерации кандидатов и можно, например, использовать готовую базу и подкидывать токены по контексту из нее? простая и быстрая в имплементации идея (код есть, ничего дообучать не надо). тестировали алгоритм на моделях CodeLLama и Vicuna, результаты very promising, speed up относительно обычной генерации в лучшем случае 2.36. идем пробовать. собственно, это единственная статья из категории long paper, далее будут findings и industrial track без кода, но с большими амбициями
статья
код

😎 SLiM: Speculative Decoding with Hypothesis Reduction
авторы статьи плотно взялись за ваши флопсы во время того самого спекулятивного декодинга. говорят, что новые методы предлагают генерацию большого количества гипотез, а обрабатываются они неэффективно. для этого после фазы спекуляции, они предлагают добавить еще одну, которая бы заранее оценила гипотезы и взяла в оборот лучшие k на основе постериарного распределения
статья

😎 Investigating Acceleration of LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with ‘LITE’
early exit’s going decoders. вообще, там описано интересное замечание о том, что генеративные модели обученные на инструкциях способны “выдавать” правильный токен только на последнем слое, до этого совсем никак. для того, чтобы это стало возможным они предлагают обучать ллм на инструкциях с видоизмененной кросс энтропией. выходить предлагают на фиксированном слое, от его выбора будет зависеть и ускорение, и деградация в качестве ответов
статья

😎

Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding
работа очень похожа на самую первую, такой же plug-and-play подход, то есть не нужно дообучать модель. отличие заключается в том, что тут нет заранее записанной базы, она строится на основе текущего промпта и инпута (выводы сделаны на основе приложенного псевдокода). у метода есть свой пустой репозиторий, но опять же, судя по приложенному коду в статье (и это даже не в аппендиксе!), когда он там появится, можно будет легко потестировать, добавив всего две строчки кода
статья
soon to be code

если вас заинтересовала тема спекулятивного декодинга, подробнее ее можно изучить с этим awesome листом. относительно конференции скажу, что статей по теме не густо, но есть еще ряд интересных работ про декодирование в контексте борьбы с галлюцинациями, может до них дойду тоже 😋

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍7❤2

7.08K views08:25

Forwarded from То шо нейросети

Часто возникает задача разработки Telegram бота для общения с LLM (в т.ч. голосом).
Мне надоело писать один и тот же boilerplate код, поэтому я запилил шаблон для Telegram бота.

Features:
- Настраиваемый inference provider, в примере реализована связка ollama + whisper + coqui TTS
- Поддержка локализации на несколько языков. Переведено на Русский, Украинский, Английский, Немецкий, Испанский, Французский, Голландский.
- Функции админа
- whitelist-only доступ либо полностью публичный доступ к боту
- Распознавание голосовых и синтез ответа голосом
- Текстовый чат
- Экспорт истории
- Переключаемые модели per user
- Индивидуальные настройки генерации per user, включая system prompt
- Rate limit общий и per user на обработку сообщений
- Messages async handling
- History truncation
- Простенький DB TTL cache
- Лицензия MIT

Вряд ли можно назвать этот шаблон production ready, но для пет проектов, отладки, прототипирования и Proof of Concept - вполне подойдет.
Как всегда: PRs & Issues are welcome!

GitHub

@toshoseti

GitHub - KPEKEP/universal-llm-chatbot: Universal LLM Telegram chatbot in Python

Universal LLM Telegram chatbot in Python. Contribute to KPEKEP/universal-llm-chatbot development by creating an account on GitHub.

👍14❤3💩1

2K views11:12

🙄

🙄

🙄

https://habr.com/ru/companies/mts_ai/articles/825090/

Please open Telegram to view this post

VIEW IN TELEGRAM

Есть ли жизнь до fit/predict?

Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй...

22🔥2

2.49K views14:28

Forwarded from Alexander C

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Уважаемые коллеги, тех, кому интересна математика и машинное обучение, приглашаем Вас принять в неформальном проекте.

Минимальное требование - Вы знакомы с Питоном, и у Вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп (в идеале GAP,SAGE).) Задача проекта - применить машинное обучение к теории групп. Целью проекта является написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Если Вам интересно участие - напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Решение пазла типа Кубика Рубика. Задача близка к прошедшему конкурсу Каггл Санта 2023. Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP,SAGE.

Достигнутые результаты - уже сейчас мы можем за минуты делать то, что авторы работы DeepCube делали за 40 часов на многих GPU.

🔥12❤1

2.74K views09:52

я обычно не влетаю в ранний тюн новых моделек, так складывались обстоятельства, но вот решила поставить быстро Nemo. итог: быстро не получилось :)

есть ряд багов или просто странностей в работе модели и токенизатора. тут дисклеймер, я базированный пользователь transformers, с периодическими забегами в unsloth. проблемы были/есть в обеих библиотеках, вот что осталось из насущных

😎 есть предположение, что в базовой версии модели не обучен eos токен, в instruct версии все ок. написали об этом в блоге unsloth, ждем объяснений
😎 consistency check падает при скачивании весов с хф. помогло обновление торча (сомнительно, но ок)
😎 apply_chat_template не добавляет системный промпт. лечится переходом на токенизатор из mistral_common, а еще можно самостоятельно переопределить chat template. то же самое наблюдается в Mistral-7B-Instruct-v0.3, и я не очень понимаю, всем ок с этим или как (тут речь сугубо про transformers)
😎 last, but not least могут полететь ошибки с размерностями аттеншена. пишут, что в трансформерах должны были пофиксить, но мне установка из сорса так и не помогла

в остальном, больше нечего пока добавить. токенизация русского языка на уровне ruadapt. оригинальная модель довольно бодро говорит на русском, что приятно и дает надежду

Please open Telegram to view this post

VIEW IN TELEGRAM

Unsloth - Open source Fine-tuning & RL for LLMs

Finetune Mistral NeMo with Unsloth

Fine-tune Mistral's new model NeMo 128k with 4x longer context lengths via Unsloth!

❤13👍3🤔3🤯1🗿1

2.88K views10:34

Здравствуйте-здравствуйте, мои дорогие любимые хорошие! Сегодня, 23 июля, в облачном пространстве между Azure и AWS происходит опенсорсное полнолуние, которое обрушит на нас волну синтетических датасетов, обновлений моделей у AI-powered стартапов и бесконечный поток информации, от которого захочется везде отписаться.

Обратите внимание, уважаемые gpu rich kids, звезды предвещают вам необыкновенную удачу и повышенный интерес к вашей персоне. Это время благоприятствует щедрым поступкам, поэтому воспользуйтесь этим шансом на благо опенсорса и поделитесь gguf-ом со своими окружающими. Не забывайте, что делиться - значит властвовать!

Полнолуние не пройдет стороной ресерчеров. Напоминаем, что Луна сейчас ретроградит в доме peer review, а скоро нас ожидает переход в rebuttal, поэтому расчитывайте свои силы грамотно, не кидайтесь в омут новых экспериментов с 405b моделью. Не дайте себя затянуть в водоворот неограниченных возможностей!

Что касается fellow LLM enjoyers, вам звезды говорят запастись терпением и готовиться к новому этапу в жизни. Расчехляйте свои лучшие джейлбреки, настройте abliteration пайплайны и помните, великое требует времени, а в случае домашних 3090 большого времени. Идите своим темпом и наслаждайтесь процессом.

Турбулентное время наступает для тг админов. Звезды предсказывают вам сложный выбор: написать про выход новой модели, репостнуть канал побольше или затаиться в своих мыслительных процессах. Будьте готовы к решающим действиям, ведь от вас зависит информационное пространство!

Пусть это опенсорсное полнолуние станет настоящим праздником для всех, кто ценит технологии, интеллект и свободу знаний.

С вами была Анжела Пипинсталовна, пока-пока!

😁30💅178❤2

6.48K views08:43

ходят слухи, что PyCon в этом году состоялся только для того, чтобы Никита рассказал о новом публичном датасете, фреймворке для RAG и снова начал вести свой канальчик 🤭 так что теструйте RuRAGE, тюньтесь на MTSBerquad и пишите Никите комментарии, чтобы он чаще рассказывал о том, как работает навык поиска в одном Виртуальном Ассистенте !!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥2🥰2

2.22K viewsedited 17:53

Forwarded from On the way to Data Science (Никита Крайко)

💬 Вчера я выступил на PyCon2024, где зарелизил нашу либу RuRAGE (RuRAGE - Russian RAG Evaluation) для автовалидации generation части в RAG’e и датасет MTSBerquad для SFT LLM на задачу GQA/LFQA. Всё с открытыми лицензиями, пользуйтесь! Спасибо, всем кто слушал и задавал вопросы, было круто, это очень классный опыт 🫶

Пока в RuRAGE мы не подвезли автоматическое создание бустинга, надо разобраться с авто-подбором порогов, когда итоговая полезность генеративного ответа может быть не бинарной (0, 1), а мультиклассовой и также надо решить что юзать в качестве модельки: остаться на CatBoost или мб засунуть какой-нибудь H2O AutoML. В любом случае, уже сейчас можно брать либу для генерации фичей и кинуть сверху любую свою модельку. Однако, помните о всех нюансах, которые я упоминал на выступлении (слайд 12)

Либа была создана буквально в последнюю неделю 👨‍🦳, поэтому не стоит ее рассматривать как серебряную пулю. Автометрики это про дополнительный этап валидации, а не основной. Далее нам предстоит огромный скоуп работ по RuRAGE, roadmap по ближайшим целям может найти в readme на гите. Это открытый проект, поэтому мы будем ждать ваших предложений и pull request’ов!

⏺

RuRAGE

pip install rurage

⏺

MTSBerquad

from datasets import load_dataset

ds = load_dataset("MTS-AI-SearchSkill/MTSBerquad")

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥133👍1

3.68K views17:53

фотокорреспондент в питерской командировке @incredaria

5026❤4💯1

3.38K views17:24

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

very mindfull статья о том, как ускорить генерацию кандидатов для спекулятивного декодинга за счет ранних выходов💻. оба термина уже упоминались вот в этом посте, краткая справка: ранние выходы - это когда мы не ждем, пока модель обработает последовательность всеми своими слоями, ведь ответ может быть получен раньше; спекулятивный декодинг - техника, которая позволяют ускорить инференс ллм за счет генерации кандидатов моделью поменьше с последующей их валидацией от модели побольше

в том же посте уже упоминалось о том, что ллм (скажем так, в основном) могут генерировать правильный токен только на последнем слое. первое, что делают авторы статьи, чтобы побороть эту проблему - вводят постепенный дропаут, который варьируется от 0 до 1 в зависимости от глубины модели, а еще от шага обучения. сверху накидывают early exit loss с небольшими модификациями. сам декодинг концептуально превращается в self-speculation, за счет этого вводят дополнительные оптимизации через кеширования.

эксперименты проводились с претрейном, continuous претрейном и файнтюнами, и в целом неплохо законспектированы в таблицах и графиках. максимальный прирост на суммаризации 2.16x, на коде - 1.82x. не так впечатляюще, как у медузы, but i'm here for the plot - сами идеи звучат интересно

я бы еще посмотрела на метрики в сетапе c обычным декодингом и больше сравнений с другими методами, помимо Draft & Verify. как итог - можно будет попробовать на моделях поновее (в статье вторая лама), когда код зарелизят. прикрепила скрин с визуализацей предсказаний модели на каждом из слоёв, но для обычной ламы, интересно насколько дропаут меняет эту картину

читать статью полностью тут

💻

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤3👍1

6.28K views21:16

в этот четверг обсуждаем ACL в офисе mts ai, приходите послушать онлайн и оффлайн (посмотрите анонс, может найдете там кого-то знакомого 🥹)

https://xn--r1a.website/nlp_mts_ai/15

Please open Telegram to view this post

VIEW IN TELEGRAM

Напоминаем, что меньше чем через неделю состоится наш первый AI Sync, а мы готовы поделиться подробностями про темы предстоящих докладов. Определиться было не просто, на ACL много всего интересного, но мы справились!

🌂 Для начала Гриша Аршинов расскажет…

🔥20

7K views14:22

может не стоило из маруси людей увольнять

42😁8😢3👍1

9.28K views19:17

намёки с прошлого года почти сработали, тайный санта подкинул мне гпу-часов 😇

Please open Telegram to view this post

VIEW IN TELEGRAM

💅5013🔥5😁4👍3❤2🤔2🎄1

8.56K views20:31