ds girl
921 subscribers
99 photos
7 videos
111 links
рассказываю про статьи, свою работу и приколы
Download Telegram
66😁4
всем привет! очень важное сообщение:

Проекту MTS AI х ВШЭ по генерации шуток с помощью LLM требуются люди с потрясающим чувством юмора (вы 🤭). У нас есть очень много шуточек на английском и русском языке, но не хватает рук, чтобы оценить, насколько они правда смешные. Поэтому если вы любите хихикать в телефончике, мы сделали специального бота с инструкцией для вас:

@joke_evaluator_bot

Каждый тык важен. Еще мы собираем немного обобщенных данных о разметчиках - возраст, пол, образование. Зачем? Это требование публикации. Результаты этого исследования можно будет потом почитать в открытой статье, мы ей обязательно со всеми поделимся, когда она будет опубликована 🤓

Важный момент: выбирайте английский только если уверены в своем английском (С1-С2) - есть много неочевидных шуток, где прям надо подумать и нужно хорошее знание лексики и иногда американских реалий. Если шутка непонятная, то можно ее скипнуть (скоро появится кнопка). Русского языка это тоже касается 🙂

Мы очень старались чистить датасет от токсичности, но если вы увидите что-то хотя бы отдаленно оскорбительно хоть для какой-то группы людей, сразу тыкайте 1 (даже если шутка смешная 🥺)

по всем вопросам и предложениям писать @incredaria !!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍182🖕1
😁24🔥3
now that’s what i call late stage capitalism
🥴35🔥7
Здравствуйте, дорогие подписчики!

Уже в это воскресенье (26 мая) мы организуем секцию OptimalDL на DataFest2024. Секция будет в онлайне, чтобы можно было поприсутствовать на докладах где бы вы не находились! На секции планируются следующие доклады:

Докладчик:
Дмитрий Раков
Описание

Расскажет о своем опыте ускорения нейронной сети SegFormer для задачи сегментации в ЖД домене. Докладчик разработал собственный фреймворк для data aware прунинга данной архитектуры, и смог получить ускорение в 1,5 раза при незначительной потере точности.

Докладчик:
Дмитрий Иванов
Описание

Сделает обзор области оптимизации нейронных сетей, а именно методов прунинга и квантования. Доклад охватывает направления исследований от Lottery ticket hypothesis до 4ех битного квантования LLM.


Докладчик:
Алексей Гончаров
Описание

Поделится опытом оптимизации расходов на инференс LLM с применением квантования, дообучения моделей, LoRA адаптеров и низкоуровневых фреймворков инференса.


Докладчик:
Григорий Алексеев
Описание

Расскажет об опыте написания собственного CUDA-kernel-а для оптимизации Flash Attention


Докладчик:
Андрей Щербин
Описание

Поведает о том, как мы принимали участие в конкурсе LPCV2023 и получили самое точное среди быстрых решений
9🔥5
34🤣9😁4
Media is too big
VIEW IN TELEGRAM
пока все ушли тестировать новый релиз Anthropic, я... кажется сломала Mistral Large ?

дело происходило в интерфейсе Le Chat, где я попросила модель написать 50 примеров, как человек в разговорной форме говорит "нет"/не соглашается/отказывается от чего-то (that's that me synthetic data miner), расписала форму ответа и так далее. а потом в самом ленивом промпте на свете попросила убрать нумерацию с кавычками, и модель ушла в бесконечный цикл 🤡

пруфы прикрепляю в скринкасте, впервые с таким сталкиваюсь
новый/старый джейлбрейк?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁19🤔4
в качестве упражнения решила пройтись по принятым статьям на недавно прошедшей конфе NAACL и выделить интересные работы по тематикам, которые на данный момент мне близки 💼 и первое, о чем поговорим, - ускорение инференса ллм через декодинг. сюда можно причислить ранние выходы из генерации, генерацию сразу нескольких токенов, но центральную часть займет спекулятивное декодирование

о нем уже писал Илья Гусев, но если хочется подробнее и в видео формате, то могу посоветовать такой обобщенный разбор статей от DeepMind и Google по этой теме. а если совсем кратко и текстом, то идея спекулятивного декодирования заключается в том, чтобы ускорять инференс больших языковых моделей, предлагая кандидатов генераций от более маленьких моделек, с условием такой же токенизации и работой быстрее, чем генерация большой модели. она в свою очередь за один проход подсчитывает вероятности предложенных токенов и принимает/отвергает их 😱 в первом случае мы ускоряем инференс на m токенов (сколько большая модель подтвердила), а во втором ничего особо и не теряем, просто продолжаем семплить из большой модели. наверняка вы слышали про Medusa, в ней отказались от маленькой модели, а стали обучать дополнительные головы для генерации. следующим крутым развитием становится multi-token prediction, подробнее об этом писала Милана. теперь, посмотрим, что интересного предлагают на А-конференции

😎 REST: Retrieval-Based Speculative Decoding
а что если нам не нужна маленькая модель для генерации кандидатов и можно, например, использовать готовую базу и подкидывать токены по контексту из нее? простая и быстрая в имплементации идея (код есть, ничего дообучать не надо). тестировали алгоритм на моделях CodeLLama и Vicuna, результаты very promising, speed up относительно обычной генерации в лучшем случае 2.36. идем пробовать. собственно, это единственная статья из категории long paper, далее будут findings и industrial track без кода, но с большими амбициями
статья
код

😎 SLiM: Speculative Decoding with Hypothesis Reduction
авторы статьи плотно взялись за ваши флопсы во время того самого спекулятивного декодинга. говорят, что новые методы предлагают генерацию большого количества гипотез, а обрабатываются они неэффективно. для этого после фазы спекуляции, они предлагают добавить еще одну, которая бы заранее оценила гипотезы и взяла в оборот лучшие k на основе постериарного распределения
статья

😎 Investigating Acceleration of LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with ‘LITE’
early exit’s going decoders. вообще, там описано интересное замечание о том, что генеративные модели обученные на инструкциях способны “выдавать” правильный токен только на последнем слое, до этого совсем никак. для того, чтобы это стало возможным они предлагают обучать ллм на инструкциях с видоизмененной кросс энтропией. выходить предлагают на фиксированном слое, от его выбора будет зависеть и ускорение, и деградация в качестве ответов
статья

😎 Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding
работа очень похожа на самую первую, такой же plug-and-play подход, то есть не нужно дообучать модель. отличие заключается в том, что тут нет заранее записанной базы, она строится на основе текущего промпта и инпута (выводы сделаны на основе приложенного псевдокода). у метода есть свой пустой репозиторий, но опять же, судя по приложенному коду в статье (и это даже не в аппендиксе!), когда он там появится, можно будет легко потестировать, добавив всего две строчки кода
статья
soon to be code

если вас заинтересовала тема спекулятивного декодинга, подробнее ее можно изучить с этим awesome листом. относительно конференции скажу, что статей по теме не густо, но есть еще ряд интересных работ про декодирование в контексте борьбы с галлюцинациями, может до них дойду тоже 😋
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍72
Часто возникает задача разработки Telegram бота для общения с LLM (в т.ч. голосом).
Мне надоело писать один и тот же boilerplate код, поэтому я запилил шаблон для Telegram бота.

Features:
- Настраиваемый inference provider, в примере реализована связка ollama + whisper + coqui TTS
- Поддержка локализации на несколько языков. Переведено на Русский, Украинский, Английский, Немецкий, Испанский, Французский, Голландский.
- Функции админа
- whitelist-only доступ либо полностью публичный доступ к боту
- Распознавание голосовых и синтез ответа голосом
- Текстовый чат
- Экспорт истории
- Переключаемые модели per user
- Индивидуальные настройки генерации per user, включая system prompt
- Rate limit общий и per user на обработку сообщений
- Messages async handling
- History truncation
- Простенький DB TTL cache
- Лицензия MIT

Вряд ли можно назвать этот шаблон production ready, но для пет проектов, отладки, прототипирования и Proof of Concept - вполне подойдет.
Как всегда: PRs & Issues are welcome!

GitHub

@toshoseti
👍143💩1
Forwarded from Alexander C
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Уважаемые коллеги, тех, кому интересна математика и машинное обучение, приглашаем Вас принять в неформальном проекте.

Минимальное требование - Вы знакомы с Питоном, и у Вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп (в идеале GAP,SAGE).) Задача проекта - применить машинное обучение к теории групп. Целью проекта является написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д.

Если Вам интересно участие - напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin).
Чат для обсуждений: тут .
Вводный доклад тут.
Пояснения по RL части тут.

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Решение пазла типа Кубика Рубика. Задача близка к прошедшему конкурсу Каггл Санта 2023. Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP,SAGE.

Достигнутые результаты - уже сейчас мы можем за минуты делать то, что авторы работы DeepCube делали за 40 часов на многих GPU.
🔥121
я обычно не влетаю в ранний тюн новых моделек, так складывались обстоятельства, но вот решила поставить быстро Nemo. итог: быстро не получилось :)

есть ряд багов или просто странностей в работе модели и токенизатора. тут дисклеймер, я базированный пользователь transformers, с периодическими забегами в unsloth. проблемы были/есть в обеих библиотеках, вот что осталось из насущных

😎 есть предположение, что в базовой версии модели не обучен eos токен, в instruct версии все ок. написали об этом в блоге unsloth, ждем объяснений
😎 consistency check падает при скачивании весов с хф. помогло обновление торча (сомнительно, но ок)
😎 apply_chat_template не добавляет системный промпт. лечится переходом на токенизатор из mistral_common, а еще можно самостоятельно переопределить chat template. то же самое наблюдается в Mistral-7B-Instruct-v0.3, и я не очень понимаю, всем ок с этим или как (тут речь сугубо про transformers)
😎 last, but not least могут полететь ошибки с размерностями аттеншена. пишут, что в трансформерах должны были пофиксить, но мне установка из сорса так и не помогла

в остальном, больше нечего пока добавить. токенизация русского языка на уровне ruadapt. оригинальная модель довольно бодро говорит на русском, что приятно и дает надежду
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍3🤔3🤯1🗿1
Здравствуйте-здравствуйте, мои дорогие любимые хорошие! Сегодня, 23 июля, в облачном пространстве между Azure и AWS происходит опенсорсное полнолуние, которое обрушит на нас волну синтетических датасетов, обновлений моделей у AI-powered стартапов и бесконечный поток информации, от которого захочется везде отписаться.

Обратите внимание, уважаемые gpu rich kids, звезды предвещают вам необыкновенную удачу и повышенный интерес к вашей персоне. Это время благоприятствует щедрым поступкам, поэтому воспользуйтесь этим шансом на благо опенсорса и поделитесь gguf-ом со своими окружающими. Не забывайте, что делиться - значит властвовать!

Полнолуние не пройдет стороной ресерчеров. Напоминаем, что Луна сейчас ретроградит в доме peer review, а скоро нас ожидает переход в rebuttal, поэтому расчитывайте свои силы грамотно, не кидайтесь в омут новых экспериментов с 405b моделью. Не дайте себя затянуть в водоворот неограниченных возможностей!

Что касается fellow LLM enjoyers, вам звезды говорят запастись терпением и готовиться к новому этапу в жизни. Расчехляйте свои лучшие джейлбреки, настройте abliteration пайплайны и помните, великое требует времени, а в случае домашних 3090 большого времени. Идите своим темпом и наслаждайтесь процессом.

Турбулентное время наступает для тг админов. Звезды предсказывают вам сложный выбор: написать про выход новой модели, репостнуть канал побольше или затаиться в своих мыслительных процессах. Будьте готовы к решающим действиям, ведь от вас зависит информационное пространство!

Пусть это опенсорсное полнолуние станет настоящим праздником для всех, кто ценит технологии, интеллект и свободу знаний.

С вами была Анжела Пипинсталовна, пока-пока!
😁30💅1782
ходят слухи, что PyCon в этом году состоялся только для того, чтобы Никита рассказал о новом публичном датасете, фреймворке для RAG и снова начал вести свой канальчик 🤭 так что теструйте RuRAGE, тюньтесь на MTSBerquad и пишите Никите комментарии, чтобы он чаще рассказывал о том, как работает навык поиска в одном Виртуальном Ассистенте !!
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥2🥰2
Forwarded from On the way to Data Science (Никита Крайко)
💬 Вчера я выступил на PyCon2024, где зарелизил нашу либу RuRAGE (RuRAGE - Russian RAG Evaluation) для автовалидации generation части в RAG’e и датасет MTSBerquad для SFT LLM на задачу GQA/LFQA. Всё с открытыми лицензиями, пользуйтесь! Спасибо, всем кто слушал и задавал вопросы, было круто, это очень классный опыт 🫶

Пока в RuRAGE мы не подвезли автоматическое создание бустинга, надо разобраться с авто-подбором порогов, когда итоговая полезность генеративного ответа может быть не бинарной (0, 1), а мультиклассовой и также надо решить что юзать в качестве модельки: остаться на CatBoost или мб засунуть какой-нибудь H2O AutoML. В любом случае, уже сейчас можно брать либу для генерации фичей и кинуть сверху любую свою модельку. Однако, помните о всех нюансах, которые я упоминал на выступлении (слайд 12)

Либа была создана буквально в последнюю неделю 👨‍🦳, поэтому не стоит ее рассматривать как серебряную пулю. Автометрики это про дополнительный этап валидации, а не основной. Далее нам предстоит огромный скоуп работ по RuRAGE, roadmap по ближайшим целям может найти в readme на гите. Это открытый проект, поэтому мы будем ждать ваших предложений и pull request’ов!

RuRAGE
pip install rurage


MTSBerquad
from datasets import load_dataset

ds = load_dataset("MTS-AI-SearchSkill/MTSBerquad")
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥133👍1
фотокорреспондент в питерской командировке @incredaria
50264💯1
LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

very mindfull статья о том, как ускорить генерацию кандидатов для спекулятивного декодинга за счет ранних выходов💻. оба термина уже упоминались вот в этом посте, краткая справка: ранние выходы - это когда мы не ждем, пока модель обработает последовательность всеми своими слоями, ведь ответ может быть получен раньше; спекулятивный декодинг - техника, которая позволяют ускорить инференс ллм за счет генерации кандидатов моделью поменьше с последующей их валидацией от модели побольше

в том же посте уже упоминалось о том, что ллм (скажем так, в основном) могут генерировать правильный токен только на последнем слое. первое, что делают авторы статьи, чтобы побороть эту проблему - вводят постепенный дропаут, который варьируется от 0 до 1 в зависимости от глубины модели, а еще от шага обучения. сверху накидывают early exit loss с небольшими модификациями. сам декодинг концептуально превращается в self-speculation, за счет этого вводят дополнительные оптимизации через кеширования.

эксперименты проводились с претрейном, continuous претрейном и файнтюнами, и в целом неплохо законспектированы в таблицах и графиках. максимальный прирост на суммаризации 2.16x, на коде - 1.82x. не так впечатляюще, как у медузы, but i'm here for the plot - сами идеи звучат интересно

я бы еще посмотрела на метрики в сетапе c обычным декодингом и больше сравнений с другими методами, помимо Draft & Verify. как итог - можно будет попробовать на моделях поновее (в статье вторая лама), когда код зарелизят. прикрепила скрин с визуализацей предсказаний модели на каждом из слоёв, но для обычной ламы, интересно насколько дропаут меняет эту картину

читать статью полностью тут 💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥123👍1
может не стоило из маруси людей увольнять
42😁8😢3👍1
намёки с прошлого года почти сработали, тайный санта подкинул мне гпу-часов 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
💅5013🔥5😁4👍32🤔2🎄1