Ну вот я и дошел до своего первого выступления и сразу же на международной конфе
Можно еще заметить, что выступление будет в день моего рождения🥳
Можно еще заметить, что выступление будет в день моего рождения
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥11🥰2❤1🤔1
Давно я обещал выложить разбор решения с топ4 мтс капа. Мои сокомандники меня опередили и сделали аж целый стрим с разбором 🆘 .
Смотрим, наслаждаемся⚡️ . Все возникающие вопросы задаем в комментах, я на все отвечу и поясню🤔 . Также в комменты скину примерную схему нашей огромной архитектуры ну и конечно же весь код можно найти в ➡️ репозитории.
Смотрим, наслаждаемся
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from DziS Science | Data Science
Всем привет! 👋
Встречайте с пылу с жару запись сегодняшнего митапа.
Также внизу в комментариях вы найдете презентацию👇
Встречайте с пылу с жару запись сегодняшнего митапа.
Также внизу в комментариях вы найдете презентацию👇
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
MTS ML Cup. Глебов Иван. Разбор решения Топ-4.
В данном видео в формате онлайн-трансляции мы постарались разобрать решение в шаге от призового места. В этом мне помогал Иван Глебов.
Экслюзивно для телеграм-канала: https://xn--r1a.website/dzis_science
Таймлайн:
00:00:00 Введение
00:00:24 Постановка задачи
00:03:32…
Экслюзивно для телеграм-канала: https://xn--r1a.website/dzis_science
Таймлайн:
00:00:00 Введение
00:00:24 Постановка задачи
00:03:32…
👍7
Forwarded from Dealer.AI
Сегодня проходит второй день AINL2023.
Наша компания выступает с докладом: Multi domain dataset and augmentation methods for spelling corruption.
Я уже рассказывал о том, как мы атакуем тексты в своих пайплайнах обучения. А сегодня на индастриал секции этот доклад представит ML инженер из моей команды - Марк. Вместе с ним мы ведём разработку public версии библиотеки атак на ру-тексты и надеюсь скоро мы вас порадуем. А пока результаты её работы можно посмотреть на нашем выступлении, где будет живая демонстрация.
Кстати, у Марка есть собственный канал. А возможно, кто-то даже знает его по награде ODS2022 за лучший соревновательный прогресс в ушедшем году. В общем, везёт мне на сотрудников:)
Наша компания выступает с докладом: Multi domain dataset and augmentation methods for spelling corruption.
Я уже рассказывал о том, как мы атакуем тексты в своих пайплайнах обучения. А сегодня на индастриал секции этот доклад представит ML инженер из моей команды - Марк. Вместе с ним мы ведём разработку public версии библиотеки атак на ру-тексты и надеюсь скоро мы вас порадуем. А пока результаты её работы можно посмотреть на нашем выступлении, где будет живая демонстрация.
Кстати, у Марка есть собственный канал. А возможно, кто-то даже знает его по награде ODS2022 за лучший соревновательный прогресс в ушедшем году. В общем, везёт мне на сотрудников:)
ainlconf.ru
AINL 2023 - Registration
🔥8❤2🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰7🤔1
Forwarded from Dealer.AI
GigaChat
Наша проба пера в Instruct подходах при обучении Decoder like моделей. В течении последних нескольких месяцев мы усердно работали над нашим детищем - GigaChat. Пока это Instruct Only SFT моделька, но вскоре, надеюсь, мы порадуем вас и RLHF экспериментами.
В основе нашего GigaChat модель— NeONKA.
Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
При этом, коллеги, планируют выкладывать компоненты лежащие в основе этого решения в open source, чтобы вы, друзья, могли сами обучать (я думаю скорее тюнить) подобные модели
Подробности в нашей статье на хабр .
Наша проба пера в Instruct подходах при обучении Decoder like моделей. В течении последних нескольких месяцев мы усердно работали над нашим детищем - GigaChat. Пока это Instruct Only SFT моделька, но вскоре, надеюсь, мы порадуем вас и RLHF экспериментами.
В основе нашего GigaChat модель— NeONKA.
Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
При этом, коллеги, планируют выкладывать компоненты лежащие в основе этого решения в open source, чтобы вы, друзья, могли сами обучать (я думаю скорее тюнить) подобные модели
Подробности в нашей статье на хабр .
Хабр
Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера
Дракончик ждёт вас ниже Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и...
❤10👍2
Forwarded from Kaggling (Vadim Irtlach)
Новое соревнование от Google!
Медали: Есть
Размер данных: 450.91 GB
Kernel соревнование
https://www.kaggle.com/competitions/google-research-identify-contrails-reduce-global-warming/overview
Медали: Есть
Размер данных: 450.91 GB
Kernel соревнование
https://www.kaggle.com/competitions/google-research-identify-contrails-reduce-global-warming/overview
👍4🤮4🤔2
Всем привет! Немного запоздалый пост, но не менее информативный. Как вы знаете недавно прошел DataFest 2023 🦜 и я был удивлен сколько моих коллег из SberDevices👋 там выступало. Поэтому решил сделать полный список их выступлений и поделиться им с вами.
1️⃣ Дарья Воронцова с темой "Подходы для оценки качества диалоговых моделей"
2️⃣ Александр Абрамов с темой "RLHF + retrieval based NLP system"
3️⃣ Илья Козиев с темой "Сравнение подходов к генерации русской силлабо-тонической поэзии большими трансформерными языковыми моделями"
4️⃣ Алена Феногенова и Мария Тихонова с темой "Tape: a new benchmark for few-shot Natural Language Understanding Evaluation"
5️⃣ Андрей Брылов с темой "Как мы в Сбере делали шумовой споттер"
6️⃣ Карина Кванчиани с темой "Majority vote for CV annotations: improve your data labelling pipeline"
7️⃣ Владимир Кондратенко с темой "Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке"
8️⃣ Леонид Синев и Влад Ветров с темой "Ускорение больших генеративных моделей в NLP"
9️⃣ Сергей Аверкиев с темой "А внутре у ней NeONKA. Как мы делаем GigaChat в Сбере"
0️⃣ Никита Мартынов и Марк Баушенко с темой "SpellKit: библиотека для генеративного спеллчека"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🫡2❤1🔥1
Forwarded from Kaggling (Vadim Irtlach)
Kaggle Staff сегодня анонсировали новую функциональность для организаторов соревнований - кастомизация метрик! Теперь, каждый желающий организатор может реализовать свою метрику и использовать её для дальнейшей оценки результатов участников. Это особенно удобно, когда хочется объединить различные способы оценивания моделей (например, в задачах сегментации или детекции, необычайно полезно и эффективно внедрять разные виды штрафов модели, к примеру, на основе logit'ов или вероятностей модели (output + Cross Entropy) и пересечений самих масок или "bounding box" (IoU, и др.) ).
Конечно, у Kaggle Staff изначально была своя библиотека качественно реализованных метрик, тем не менее, на мой взгляд, в ближайшем будущем мы будем наблюдать тренд реализаций метрик от самих организаторов и "более сложнее метрики" чем были до этого.
Если вы хотите почитать подобно об этом обновление, то переходите по данной ссылке: https://www.kaggle.com/discussions/product-feedback/418638
Если у вас возникли мысли на этот счёт, то буду рад увидеть их в комментариях под данной публикацией!
Конечно, у Kaggle Staff изначально была своя библиотека качественно реализованных метрик, тем не менее, на мой взгляд, в ближайшем будущем мы будем наблюдать тренд реализаций метрик от самих организаторов и "более сложнее метрики" чем были до этого.
Если вы хотите почитать подобно об этом обновление, то переходите по данной ссылке: https://www.kaggle.com/discussions/product-feedback/418638
Если у вас возникли мысли на этот счёт, то буду рад увидеть их в комментариях под данной публикацией!
Kaggle
[Product update] Custom Competition Evaluation Metrics | Kaggle
[Product update] Custom Competition Evaluation Metrics.
👍4
Недавно мы с коллегами из SberDevices 👋 представили нашу статью Augmentation methods for spelling corruptions на международной конференции по компьютерной лингвистике и интеллектуальным технологиям Dialogue 2023.
В ней мы рассказали про два разных подхода к моделированию ошибок: на основе статистик собранных из параллельного корпуса и на основе эвристик при работе с клавиатурой. Такими способами можно научить модель не обращать внимания на ошибки в текстах и работать в штатном режиме🔥
В ней мы рассказали про два разных подхода к моделированию ошибок: на основе статистик собранных из параллельного корпуса и на основе эвристик при работе с клавиатурой. Такими способами можно научить модель не обращать внимания на ошибки в текстах и работать в штатном режиме🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥5❤2
Forwarded from Dealer.AI
Помоги LLM выбрать лучшие ответы.
На kaggle завезли соревку по задаче реранкинга генераций GPT-3.5. Нужно из топ-5 генераций выбрать топ-3 лучших в ранжированном виде. Метрика MAP@3, что логично. Домен "сложный научный". В обучении 200 пар)
В общем расчехляйте свои пайпы по созданию reward моделек. И вперёд за медальками.
На kaggle завезли соревку по задаче реранкинга генераций GPT-3.5. Нужно из топ-5 генераций выбрать топ-3 лучших в ранжированном виде. Метрика MAP@3, что логично. Домен "сложный научный". В обучении 200 пар)
В общем расчехляйте свои пайпы по созданию reward моделек. И вперёд за медальками.
Kaggle
Kaggle - LLM Science Exam
Use LLMs to answer difficult science questions
👍7🥰1
Всем привет 👋 ! На работе я очень часто сталкиваюсь с энкодерами, а именно с их оценкой. Это очень важный этап, который позволяет понять к каким видам задач и доменам модель имеет предрасположенность. Оценить модель нам помогут бенчмарки – это сборники задач и датасетов на которых нужно затюнить модель и оценить результат на тестовой выборке. Обычно у бенчмарков существует свой Leader Board 🏆 на котором вы можете сравнить свою модель с другими общедоступными по качеству и скорости.
Бенчмарки для русского языка 🇷🇺:
1️⃣ RUSSIAN SUPERGLUE
2️⃣ encodechka
3️⃣ MOROCCO
4️⃣ RuSentEval
5️⃣ SentEvalRu
6️⃣ deepPavlovEval
Бенчмарки для английского языка 🇬🇧:
1️⃣ SuperGLUE
2️⃣ GLUE
3️⃣ SQuAD
4️⃣ CoQA
И даже существуют бенчмарки для оценки моделей на понимание программного кода: CodeXGLUE🚀
Если я пропустил и не указал какие-то бенчмарки, то пишите в комментарии и я обновлю пост🤑
Бенчмарки для русского языка 🇷🇺:
Бенчмарки для английского языка 🇬🇧:
И даже существуют бенчмарки для оценки моделей на понимание программного кода: CodeXGLUE
Если я пропустил и не указал какие-то бенчмарки, то пишите в комментарии и я обновлю пост
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19
This media is not supported in your browser
VIEW IN TELEGRAM
Кому знакомо?) Сам лично с таким сталкивался 😃
😁12🔥8💯2🤣2
Почему же так редко выходят посты❔
Ответ прост: сейчас очень много интересных соревнований и одно из них – «Соревнования по структуризации чеков ОФД» от Alpha Bank. Оно проходило в 3 этапа и через 4 дня завершается финальный этап. Мы с командой держим первое место с большим отрывом с самого начала соревнования! Призовой фонд состоит из 450к, 250к и 100к за 1-3 места соответственно.
У нас очень интересное решение и когда сорева закончится, я обязательно о нем расскажу 🚀
Ответ прост: сейчас очень много интересных соревнований и одно из них – «Соревнования по структуризации чеков ОФД» от Alpha Bank. Оно проходило в 3 этапа и через 4 дня завершается финальный этап. Мы с командой держим первое место с большим отрывом с самого начала соревнования! Призовой фонд состоит из 450к, 250к и 100к за 1-3 места соответственно.
У нас очень интересное решение и когда сорева закончится, я обязательно о нем расскажу 🚀
❤21👍5👎1
Сегодня ночью завершилось соревнование о котором я писал выше и нам удалось занять 1 место 🥳
🔵 Соревнование получилось достаточно скучным, 2 и 3 этап были явно лишними. Наше решение почти не поменялось с 1 дня соревнования, это была ai-forever/FRED-T5-1.7B от SberDevices 😎
🔴 Получилось что предобработка данных делала только хуже, поэтому в модель мы подавали оригинальные чеки без изменений предоставленные организаторами соревнования. Постобработки тоже не было 🤔
🔵 Из-за большого размера модели мы использовали всего 1 fold
🔴 финальный пайплайн состоял из pretrain модели на оригинальные задачи из статьи и дальнейший finetune модели на каждый из таргетов по отдельности (товары и бренды)
🔵 Код inference состоял всего из 76 строчек кода 🤯
В комментариях задавайте вопросы⤵️
В комментариях задавайте вопросы
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉38🔥9😢2
Всем привет! Вчера увидел пост у Евгения про карьеру и мне пришла мысль сделать что-нибудь подобное. Меня конечно нет в списке «30 до 30» 😅, но есть один интересный момент в моей жизни.
В начале своей карьеры я очень сильно волновался на собеседованиях и это почти всегда заканчивалось провалом на них. Вдобавок злую шутку сыграло то, что data science мне никто никогда не преподавал (я обычный математик без прогерского бекграунда) и поэтому у меня была куча пробелов в теории (а практики достаточно еще не было). Чтобы это пофиксить я за год прошел примерно 100 реальных мок собесов в разные компании (👋 💙 📝 📧 💳 💳 💳 💳 🛍 🛍 📞 📞 📞 📞 🗺 🗺 🔎 ❤️ 📱 ) итеративно уменьшая волнение и восполняя базу знаний.
Что бы вам было интересно услышать исходя из такого опыта?
В начале своей карьеры я очень сильно волновался на собеседованиях и это почти всегда заканчивалось провалом на них. Вдобавок злую шутку сыграло то, что data science мне никто никогда не преподавал (я обычный математик без прогерского бекграунда) и поэтому у меня была куча пробелов в теории (а практики достаточно еще не было). Чтобы это пофиксить я за год прошел примерно 100 реальных мок собесов в разные компании (
Что бы вам было интересно услышать исходя из такого опыта?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥5😱1
В этот четверг 07.09 будет проходить Practical ML Conf от 😀 , где мои коллеги выступят с докладами 🚀 :
🔵 GigaChat: наш опыт обучения LLM (Дани Эль-Айясс)
🔴 Мультимодальные генеративные модели для обработки документов (Даниил Водолазский)
🔵 Deaf lives matter: распознавание русского жестового языка (Елизавета Петрова)
Я буду офлаин и там будет несколько параллельных треков, из которых я выделил для себя интересные доклады:
🔵 10:20-11:05 GigaChat: наш опыт обучения LLM
🔴 11:00-11:45 Генеративные модели и внешняя информация
🔵 14:00-14:45 Alignment языковых моделей. Prompt engineering & supervised fine-tuning
🔴 15:30-16:15 Мультимодальные генеративные модели для обработки документов
🔵 17:25-18:10 О глубокой пользе бесполезных почтовых рассылок
🔴 18:10-19:00 Путь прогноза спроса в Яндекс Лавке: от бейзлайна до Time2Boost
Я буду офлаин и там будет несколько параллельных треков, из которых я выделил для себя интересные доклады:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15⚡3🏆2❤1