Новая LLM Mixtral-8x-7B произвела фурор и ввела в моду Mixture of Expert
Эта архитектура отличается тем, что использует нескольких "экспертов" (каждый из которых представляет из себя нейросеть) для решения разных задач. От ансамблей она отличается тем, что эксперты не объединяются, то есть в решении участвует только один.
Какой токен какому эксперту отправить решает так называемый роутер – это тоже обучаемая сеть. В общем, вот вам список литературы, который поможет быстро разобраться (и не отстать от тренда):
❤️ Отличный разбор на HuggingFace
❤️ Ёмкий видео-разбор архитектуры от Trelis Research
❤️ Первая статья по применению MoE в NLP (в авторах Джефф Дин и Джеффри Хинтон)
❤️ Про MoE для LLM
Кстати, по слухам, GPT-4 тоже представляет из себя MoE.
😻 #advice #news
Эта архитектура отличается тем, что использует нескольких "экспертов" (каждый из которых представляет из себя нейросеть) для решения разных задач. От ансамблей она отличается тем, что эксперты не объединяются, то есть в решении участвует только один.
Какой токен какому эксперту отправить решает так называемый роутер – это тоже обучаемая сеть. В общем, вот вам список литературы, который поможет быстро разобраться (и не отстать от тренда):
Кстати, по слухам, GPT-4 тоже представляет из себя MoE.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35😁1
Ох уж этот конец года: даже у GPT-4 падает продуктивность
Выяснилось, что если модель думает, что сейчас май, то отвечает в среднем подробнее, чем «в декабре». Статистическая значимость на месте: t-test p < 2.28e-07. Среди экспертов уже родилось предположение, что в ходе обучения модель учла тот факт, что люди перед празниками ленятся и пишут тексты меньшего объема 🎄
Эксперимент проводился с помощью изменения параметра current date. Опыт, кстати, можно воспроизвести: вот код.
😻 #news
Выяснилось, что если модель думает, что сейчас май, то отвечает в среднем подробнее, чем «в декабре». Статистическая значимость на месте: t-test p < 2.28e-07. Среди экспертов уже родилось предположение, что в ходе обучения модель учла тот факт, что люди перед празниками ленятся и пишут тексты меньшего объема 🎄
Эксперимент проводился с помощью изменения параметра current date. Опыт, кстати, можно воспроизвести: вот код.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40😁20❤7🤯4🔥2
Пет-проект на любой вкус
Нет-нет, мы не собираемся в очередной раз душнить про важность пет-проектов. Просто поможем вам вдохновиться и выбрать работу, которую искренне захочется сделать.
В комплекте проект по LLM, CV, NLP, RecSys и классическому ML.
😻 #advice
Нет-нет, мы не собираемся в очередной раз душнить про важность пет-проектов. Просто поможем вам вдохновиться и выбрать работу, которую искренне захочется сделать.
В комплекте проект по LLM, CV, NLP, RecSys и классическому ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79❤10🔥9🫡2👏1🌭1
Гарвард тоже радует подарками к Новому Году
Мы об их свежем курсе, конечно. Абсолютно бесплатном, как вы любите. Он посвящен AI: в программе теорвер, классический ML, нейросети, NLP, CV, модели Маркова и еще много чего. В числе преподов крутой David J. Malan.
Стартует сегодня! Не советуем упускать возможность.
😻 #advice
Мы об их свежем курсе, конечно. Абсолютно бесплатном, как вы любите. Он посвящен AI: в программе теорвер, классический ML, нейросети, NLP, CV, модели Маркова и еще много чего. В числе преподов крутой David J. Malan.
Стартует сегодня! Не советуем упускать возможность.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥14❤6👏1
Новый Год только через 2 недели, а под админской ёлкой уже лежат подарки 🎁
Все эти книги – для вас, ведь уже завтра в 19:00 появятся итоги розыгрыша. Если еще не участвуешь, то есть шанс запрыгнуть в последний вагон: https://xn--r1a.website/data_secrets/2936
Все эти книги – для вас, ведь уже завтра в 19:00 появятся итоги розыгрыша. Если еще не участвуешь, то есть шанс запрыгнуть в последний вагон: https://xn--r1a.website/data_secrets/2936
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24❤7🎅5🎄3☃1
Сейчас идет одна из крупнейших конференций по ML – NeurlIPS 2023
Каждый год на ней награждают победителей в разных номинациях. В этом году самые интересные – "Две самые выдающиеся статьи" и "Test of Time Award" (за актуальность сквозь время).
Награда "выдающаяся статья" досталась "Privacy Auditing with One (1) Training Run" by Thomas Steinke et al. и "Are Emergent Abilities of Large Language Models a Mirage?" by Rylan Schaeffer et al. Это статья про обобщающую способность LLM, своеобразное разоблачение того, что мы называем emergent abilities (отвечает тренду alignment'а).
А вот с Test of Time все еще интереснее: она досталась старому доброму word2vec, то есть статье “Distributed Representations of Words and Phrases and their Compositionality” by Tomas Mikolov. Действительно, она была опубликована 10 (!!!) лет назад, процитирована 40к раз, и все еще не потеряла актуальности и применяется во многих кейсах.
😻 #news
Каждый год на ней награждают победителей в разных номинациях. В этом году самые интересные – "Две самые выдающиеся статьи" и "Test of Time Award" (за актуальность сквозь время).
Награда "выдающаяся статья" досталась "Privacy Auditing with One (1) Training Run" by Thomas Steinke et al. и "Are Emergent Abilities of Large Language Models a Mirage?" by Rylan Schaeffer et al. Это статья про обобщающую способность LLM, своеобразное разоблачение того, что мы называем emergent abilities (отвечает тренду alignment'а).
А вот с Test of Time все еще интереснее: она досталась старому доброму word2vec, то есть статье “Distributed Representations of Words and Phrases and their Compositionality” by Tomas Mikolov. Действительно, она была опубликована 10 (!!!) лет назад, процитирована 40к раз, и все еще не потеряла актуальности и применяется во многих кейсах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍4🥰3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Google становится все приятнее
Скоро можно будет напрямую экспортировать результаты поиска по вопросам, связанным с Python, в Google Colaboratory. Фича уже достуна в числе экспериментальных функций Chrome, нужно просто активировать Search Generative Experience.
😻 А вообще, какую часть своего кода люди пишут сами?
Скоро можно будет напрямую экспортировать результаты поиска по вопросам, связанным с Python, в Google Colaboratory. Фича уже достуна в числе экспериментальных функций Chrome, нужно просто активировать Search Generative Experience.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66👍7❤5👨💻5🎄3❤🔥1
Data Secrets
Новогодний розыгрыш Нооовыыыый год к нам мчится… Да-да, уже завтра первый день зимы. И в честь грядущего волшебного праздника мы подготовили для вас подарки! 6 книг по DS каждому из 5 победителей Для участия нужно подписаться на наши каналы @data_secrets…
🎉 Результаты розыгрыша:
Победители:
1. Арина
2. Alexander
3. Robert
4. Еныгин Павел
5. Артём
Проверить результаты
Победители:
1. Арина
2. Alexander
3. Robert
4. Еныгин Павел
5. Артём
Проверить результаты
😐55🎉28👍6🤯3🔥2❤1😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38👍7❤4⚡1