Dealer.AI
Hunyuan Large,ваще Hunyuan 💳 Статья с мемным названием (олды оценят) от наших Китайских коллег про yet another MoE на 389B параметров с 52B активными. Помимо того,что в статье снова указана важность хороших pretrain datasets с чисткой блекджеком и иным fabric…
Из соседнего чатека: релизов на хф видимо больше не будет...(с)
В Китае, видимо, HF не будет💳 🇨🇳
Элаймент конечно кхм у них свой)
Upd. А Винни_Пуха за что!?
В Китае, видимо, HF не будет
Элаймент конечно кхм у них свой)
Upd. А Винни_Пуха за что!?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12🥱3
На днях разлетелась новость, что тут Gemini кожАному желала стать строчкой в death note.
Потом Гугл сказал, мол у них все на этик фильтрах и чики-пуки.
Ребяты, ни bert классификаторы,ни regexp, ни золотые погоны, ни галуны и лампасы не спасут вас на 100% от черных лебедей от LLM в виде хейт спича или глюков. Это все вопрос рисков, той доли % которую Вы и вашашарага компания готовы на себя принять.
С любовью Ваш, Дядя.
Потом Гугл сказал, мол у них все на этик фильтрах и чики-пуки.
Ребяты, ни bert классификаторы,ни regexp, ни золотые погоны, ни галуны и лампасы не спасут вас на 100% от черных лебедей от LLM в виде хейт спича или глюков. Это все вопрос рисков, той доли % которую Вы и ваша
С любовью Ваш, Дядя.
🔥33🌚5💯4😁3😈2❤1
Наши на EMNLP. Спасибо,нашим девочкам за интересную работу и прикладное применение.💃🦾💅
З.Ы. Рад,что такие исследователи у меня в команде.
👇👇👇👇👇👇
З.Ы. Рад,что такие исследователи у меня в команде.
👇👇👇👇👇👇
❤4
Forwarded from Анастасия Шахматова
Наши сказки в Майами 🌟
Этим летом мы решили написать статью о пайплайне генерации и оценке качества текстов, который используем в #сочинисказку
По ходу работы ещё начали погружаться в LLM as a judge - добавили оценку не только людьми, но и языковой моделью - так что теперь продолжаем глубже уходить в эту тему.
Но, возвращаясь к статье, - работали быстро, где-то параллельно с продовыми задачами, где-то в выходные (в том числе наши разметчики - за что большое спасибо!), но всё вышло отлично☀️ и мы прошли на воркшоп EMNLP! С первой идеи и попытки 🤩
Это ведущая конференция в области обработки естественного языка и искусственного интеллекта.
У коллеги получилось поехать и показывать постер гостям конференции лично☀️
Такие новости к утру субботы.
Передаём большой привет в Майами💞
Этим летом мы решили написать статью о пайплайне генерации и оценке качества текстов, который используем в #сочинисказку
По ходу работы ещё начали погружаться в LLM as a judge - добавили оценку не только людьми, но и языковой моделью - так что теперь продолжаем глубже уходить в эту тему.
Но, возвращаясь к статье, - работали быстро, где-то параллельно с продовыми задачами, где-то в выходные (в том числе наши разметчики - за что большое спасибо!), но всё вышло отлично
Это ведущая конференция в области обработки естественного языка и искусственного интеллекта.
У коллеги получилось поехать и показывать постер гостям конференции лично
Такие новости к утру субботы.
Передаём большой привет в Майами
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25🔥10👍3
Forwarded from RnD CV Team
Всем привет! 👋
⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.
Фокусом выступлений были большие языковые модели и мультимодальность:
🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;
Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.
🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.
Будем рады вашей обратной связи! 💙
#news
⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.
Фокусом выступлений были большие языковые модели и мультимодальность:
🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;
Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.
🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.
Будем рады вашей обратной связи! 💙
#news
51👍19❤5👎1😢1
Крч, ребяты, покекали мы над резюме и хватит, Дядя, кстати, еще таких +2 нашел.
Выводы:
1. Проверяйте,что сделали,если с LLM.
2. Если берёте чужие шаблоны, менторов и тп. тем более проверяйте за ними.
3. Лучше вообще под себя,под реальный опыт и места работы переделать.
Выводы:
1. Проверяйте,что сделали,если с LLM.
2. Если берёте чужие шаблоны, менторов и тп. тем более проверяйте за ними.
3. Лучше вообще под себя,под реальный опыт и места работы переделать.
❤16👍3
Mamba, Jamba, Ху...Hymba!🤣
NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал).
Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность от длины входной последовательности. При этом SSM модели имеют проблемы с "запоминанием" контекста при большой длине последовательности и не смогли показать иных плюсов кроме сложности.
В новой работе авторы показывают гибридизацию внимания и SSM модели (фото архитектуры будет ниже). Однако, в отличие от предыдущих работ, мы не имеем последовательно блок SSM, далее блок внимания, а их использование происходит параллельно. В таком сетапе, мы к сожалению не уходим полностью от квадратичной сложности по длине последовательности, в отличии от последовательного гибрида.
Однако,авторы уповают на иные "сильные" стороны. Во-первых, используется аналогия с работой мозга. Для запоминания четких образов/мгновенных снимков событий в модели работает SSM блок, в то же время для контекстной связности и длинной памяти используется full attention блок. Также авторы добавили в архитектуру мета-токены, которые используются, по мнению авторов,как навигаторы какие области архитектуры активировать. Интересное замечание,что масштаб векторов вложений после SSM блока на порядки выше, векторов после блоков внимания. Для их выравнивания используется gating norm— привет, нормализация, в классик трансформере после конкатенации multi-head attention. Выходы блоков усредняются.
Кстати, тут же рождается идея у Дяди. И тебе шкет советую положить руки на стол🔫 , а не бежать делать по ней папиру.
Почему бы вдобавок к gating norm, не использовать gating routing как в MoE. В итоге получаем умную маршрутизацию экспертов SSM блоки или full attention в зависимости от того,что нужно хранить/обработать. Да еще и время инфера апнет (то linear time, то n^2, а не всегда n^2).🫥
Ладно,помечтали и хватит, вернёмся к статье. Там есть еще пару хак. Связка ssm+mha представляет собой hymba block, такой блок чередуется с SWA блоком (аля как в longformer было). В таком блоке скользящее внимание юзает не все токены, а работает с окном внимания,которое идет "внахлёст". Так, видимо, хотят сократить/устремить сложность от O(N^2) до условно O(N*logN). Далее еще также используется KV-caching,НО с обобщёнными KV-матрицами между блоками.
В статье есть блок с ablation study,советую глянуть. Ну и конечно метрики, где сравниваются small-LM, кажется, до 3b параметров (метрики ниже). Как видим, модель с таким комбо вниманием, проявляет себя лучше на задачах,где важны знания о мире,фактология и тп. Логично, авторы ж работают вокруг концептов "памяти".
Так, вроде, всё. Читаем статью, модельки лежат тут, git. Дядя пошел папиру про MoE Hymba писать (но это не точно).😏
NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал).
Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность от длины входной последовательности. При этом SSM модели имеют проблемы с "запоминанием" контекста при большой длине последовательности и не смогли показать иных плюсов кроме сложности.
В новой работе авторы показывают гибридизацию внимания и SSM модели (фото архитектуры будет ниже). Однако, в отличие от предыдущих работ, мы не имеем последовательно блок SSM, далее блок внимания, а их использование происходит параллельно. В таком сетапе, мы к сожалению не уходим полностью от квадратичной сложности по длине последовательности, в отличии от последовательного гибрида.
Однако,авторы уповают на иные "сильные" стороны. Во-первых, используется аналогия с работой мозга. Для запоминания четких образов/мгновенных снимков событий в модели работает SSM блок, в то же время для контекстной связности и длинной памяти используется full attention блок. Также авторы добавили в архитектуру мета-токены, которые используются, по мнению авторов,как навигаторы какие области архитектуры активировать. Интересное замечание,что масштаб векторов вложений после SSM блока на порядки выше, векторов после блоков внимания. Для их выравнивания используется gating norm— привет, нормализация, в классик трансформере после конкатенации multi-head attention. Выходы блоков усредняются.
Кстати, тут же рождается идея у Дяди. И тебе шкет советую положить руки на стол
Почему бы вдобавок к gating norm, не использовать gating routing как в MoE. В итоге получаем умную маршрутизацию экспертов SSM блоки или full attention в зависимости от того,что нужно хранить/обработать. Да еще и время инфера апнет (то linear time, то n^2, а не всегда n^2).
Ладно,помечтали и хватит, вернёмся к статье. Там есть еще пару хак. Связка ssm+mha представляет собой hymba block, такой блок чередуется с SWA блоком (аля как в longformer было). В таком блоке скользящее внимание юзает не все токены, а работает с окном внимания,которое идет "внахлёст". Так, видимо, хотят сократить/устремить сложность от O(N^2) до условно O(N*logN). Далее еще также используется KV-caching,НО с обобщёнными KV-матрицами между блоками.
В статье есть блок с ablation study,советую глянуть. Ну и конечно метрики, где сравниваются small-LM, кажется, до 3b параметров (метрики ниже). Как видим, модель с таким комбо вниманием, проявляет себя лучше на задачах,где важны знания о мире,фактология и тп. Логично, авторы ж работают вокруг концептов "памяти".
Так, вроде, всё. Читаем статью, модельки лежат тут, git. Дядя пошел папиру про MoE Hymba писать (но это не точно).
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Hymba: A Hybrid-head Architecture for Small Language Models
We propose Hymba, a family of small language models featuring a hybrid-head parallel architecture that integrates transformer attention mechanisms with state space models (SSMs) for enhanced...
❤7👍3🔥2👎1😁1🤯1
Distillation is all you need? Или опыт репликации знаний из O1.
Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным и не очень.
При этом выводы не новы, еще со времен BERTов было известно,что ученик может превзойти учителя, причем иметь гораздо ниже ёмкость. Важнее тут,как отметили мои коллеги, инволюция исследований. Проще взять топ модель по апи, вложиться в ее обстрел, а далее обучить меньшую модель на этой синте, дистильнув знания учителя. Таким образом, возможно, по мнению авторов, снижение фундаментальных исследований и перекладывание этого на плечи атлантов в виде OpenAI, Meta, Google и тп.
Однако, я хотел бы поговорить еще про инволюцию архитектур. На примере Qwen (а я напомню,что он llama like) мы можем увидеть форки известных архитектур (с небольшими доработками) + хороший pretrain. Те порой компаниям проще форкнуть код условной llama2 или mistral и на этом с 0, со своим претрейн сетом и сфт сетом сделать решение, не тратя средства на свой research архитектуры. Конечно, не всем удается, при том же форке завести достойные Mistral/Qwen уровня модели.
Является ли это проблемой? Не знаю. Решать Вам, читатели. В целом, снова поймал себя на мысли, сколько крутого Цукерберг с их public Llama архитектурой сделали для демократизации ИИ. Да еще срезали косты на исследования своих архитектур некоторым командам, оставив только вопросы сбора/чистки сетов, и затрат на обучение.
Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным и не очень.
При этом выводы не новы, еще со времен BERTов было известно,что ученик может превзойти учителя, причем иметь гораздо ниже ёмкость. Важнее тут,как отметили мои коллеги, инволюция исследований. Проще взять топ модель по апи, вложиться в ее обстрел, а далее обучить меньшую модель на этой синте, дистильнув знания учителя. Таким образом, возможно, по мнению авторов, снижение фундаментальных исследований и перекладывание этого на плечи атлантов в виде OpenAI, Meta, Google и тп.
Однако, я хотел бы поговорить еще про инволюцию архитектур. На примере Qwen (а я напомню,что он llama like) мы можем увидеть форки известных архитектур (с небольшими доработками) + хороший pretrain. Те порой компаниям проще форкнуть код условной llama2 или mistral и на этом с 0, со своим претрейн сетом и сфт сетом сделать решение, не тратя средства на свой research архитектуры. Конечно, не всем удается, при том же форке завести достойные Mistral/Qwen уровня модели.
Является ли это проблемой? Не знаю. Решать Вам, читатели. В целом, снова поймал себя на мысли, сколько крутого Цукерберг с их public Llama архитектурой сделали для демократизации ИИ. Да еще срезали косты на исследования своих архитектур некоторым командам, оставив только вопросы сбора/чистки сетов, и затрат на обучение.
👍24❤7🔥4😁1🤨1
Microsoft (не)учит нейросети пока вы тапаете хомяка макросы в Excel.
Забавная новость дня.
Пользователи Word и Excel узнали,что стали кожАнными подопытными нейросетей. У них мол воруют информацию, чтобы тренировать искусственный интеллект от Microsoft.
Юзеры заметили,что в Word и Excel по умолчанию активна функция отправки в Microsoft информации. Данная информация в дальнейшем будет использоваться для обучения нейросетей.
Ну в целом, как бэ не удивительно, зачем отказываться от такого источника данных для дообучения своих LLM и тп. Тем более для автоматизации аналитики и вычислений при помощи ИИ. Однако, если учесть,что в Excel работают с NDA информацией, становится неприятненько.
Ранее Excel держал фиансовый мир, теперь видать будет AI🧠 (ща заделаю мем).
Забавная новость дня.
Пользователи Word и Excel узнали,что стали кожАнными подопытными нейросетей. У них мол воруют информацию, чтобы тренировать искусственный интеллект от Microsoft.
Юзеры заметили,что в Word и Excel по умолчанию активна функция отправки в Microsoft информации. Данная информация в дальнейшем будет использоваться для обучения нейросетей.
Ну в целом, как бэ не удивительно, зачем отказываться от такого источника данных для дообучения своих LLM и тп. Тем более для автоматизации аналитики и вычислений при помощи ИИ. Однако, если учесть,что в Excel работают с NDA информацией, становится неприятненько.
Ранее Excel держал фиансовый мир, теперь видать будет AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Bloomberglaw
Microsoft Denies Training AI on Customer Data Following Uproar
Microsoft Corp. rejected claims that it uses customer data from Microsoft 365 consumer and commercial applications, such as Word and Excel, to train large language models, after user worries spread on social media.
❤7👍2
Создавай игры с GenAI и LLM.
Дядечка Ын продолжает радовать образовательным контентом. Курс про создание игр с ИИ.
Длительность курса 1 час. Можно использовать, кстати, как старт для вката в игровых агентов.
Дядечка Ын продолжает радовать образовательным контентом. Курс про создание игр с ИИ.
Длительность курса 1 час. Можно использовать, кстати, как старт для вката в игровых агентов.
DeepLearning.AI - Learning Platform
Building an AI-Powered Game - DeepLearning.AI
Learn to build with LLMs by creating a fun interactive game from scratch.
❤20👍5🤔2🔥1