Взять LLM за RAGa в 60 минут
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
DeepLearning.AI - Learning Platform
Building and Evaluating Advanced RAG
Learn advanced RAG retrieval methods like sentence-window and auto-merging that outperform baselines, and evaluate and iterate on your pipeline's performance.
🔥18❤3👍2
Одним Оленем больше: Poro new Finland vodka LLM.
Говорят, Финно-Угры и Норды завезли LLMку в купе с English.
Самое интересное, что без NVIDIA и СМС. Чисто на AMD GPU🤙
Прикинь, шкет! Оно работает!😜
https://xn--r1a.website/gonzo_ML/2084
Говорят, Финно-Угры и Норды завезли LLMку в купе с English.
Самое интересное, что без NVIDIA и СМС. Чисто на AMD GPU
Прикинь, шкет! Оно работает!
https://xn--r1a.website/gonzo_ML/2084
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
gonzo-обзоры ML статей
Great news for European LLMs! Silo AI extends their family of open models Poro 🦌 with checkpoints, languages & modalities.
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising…
* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising…
😁5👍4🤔2
Forwarded from Love. Death. Transformers.
Rlhf на котах- издать настолько противный звук чтобы хозяин точно пошел смотреть что происходит
🔥11👍1
Че, шкет, не только крот птица перелётная, но и LLM тоже. Пока не пообещаешь "шоколадки" не полетит.
https://habr.com/en/news/778022/
https://habr.com/en/news/778022/
Habr
Ответ ChatGPT длиннее, если пообещать чаевые
@voooooogel Микроблогер поделилась забавным наблюдением про работу ChatGPT: языковая модель реагирует на обещание дать чаевые и отвечает чуть подробнее. Хотя чат-бот не имеет возможности получить...
🔥14
Forwarded from AI[ex]Time (Александр Голубев)
Вышел мой обзор про LLM агентов на хабре🕺
Скорость появления новых работ и подходов в этом направлении сейчас настолько большая, что тяжело оставаться в курсе, даже работая в сфере DL/NLP. Поэтому постарался описать прогресс относительно небольшой статьей и проиллюстрировать работами, вышедшими за последний год. Также хотелось сделать это не сильно техническим языком, чтобы было понятно максимальному числу людей не из машинного обучения. Так что если вы не связаны напрямую с ML, то не бойтесь, возможно будут непонятны какие-то части, но их можно пропустить (или спросить в комментариях)
Скорость появления новых работ и подходов в этом направлении сейчас настолько большая, что тяжело оставаться в курсе, даже работая в сфере DL/NLP. Поэтому постарался описать прогресс относительно небольшой статьей и проиллюстрировать работами, вышедшими за последний год. Также хотелось сделать это не сильно техническим языком, чтобы было понятно максимальному числу людей не из машинного обучения. Так что если вы не связаны напрямую с ML, то не бойтесь, возможно будут непонятны какие-то части, но их можно пропустить (или спросить в комментариях)
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Кто такие LLM-агенты и что они умеют?
В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными...
👍12❤2🔥2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда очередная corporation заононсила свою супер-мега-гига-лонг LLM.
В ролях:
- Глава маркетинга в белом, радостный за годовые бюджеты на рекламу.
- Не менее радостные челы , что делали research и pretrain, у которых неожиданно получилось.
- Коммитивший за их успех тех-лид в красном предвкушает грейдап.
- Грустный СЕО, который осознаёт, что их фин.модель из-за потраченного компьюта при его жизни не выйдет в 0.
(в конце крупным планом)
В ролях:
- Глава маркетинга в белом, радостный за годовые бюджеты на рекламу.
- Не менее радостные челы , что делали research и pretrain, у которых неожиданно получилось.
- Коммитивший за их успех тех-лид в красном предвкушает грейдап.
- Грустный СЕО, который осознаёт, что их фин.модель из-за потраченного компьюта при его жизни не выйдет в 0.
(в конце крупным планом)
🤩22💯9👍2
Forwarded from Жёлтый AI
This media is not supported in your browser
VIEW IN TELEGRAM
Мы все осуждаем RL, но хочется спросить, кто сделал 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?
Их сделали мы и зарелизили XLand-MiniGrid – наша новая среда для Meta-RL на Jax.
Здесь вы найдете:
🚀 2^13 параллельных сред на одной GPU, миллионы фреймов в секунду
🔞️️️️️️ Поддержка multi-GPU из коробки
🌿️️️️️️ Реализация рекурентного PPO
А самое главное – XLand-MiniGrid создан с прицелом на Meta Learning. В среде можно легко менять динамику и цели между эпизодами. Теперь каждый может вкатиться в мир роскоши и large scale RL даже в Colab.
Подробнее можно почитать в Twitter треде. А в остальном, как всегда, с вас звездочки на гитхабе, а с нас хорошее настроение🎩
Их сделали мы и зарелизили XLand-MiniGrid – наша новая среда для Meta-RL на Jax.
Здесь вы найдете:
🚀 2^13 параллельных сред на одной GPU, миллионы фреймов в секунду
🔞️️️️️️ Поддержка multi-GPU из коробки
🌿️️️️️️ Реализация рекурентного PPO
А самое главное – XLand-MiniGrid создан с прицелом на Meta Learning. В среде можно легко менять динамику и цели между эпизодами. Теперь каждый может вкатиться в мир роскоши и large scale RL даже в Colab.
Подробнее можно почитать в Twitter треде. А в остальном, как всегда, с вас звездочки на гитхабе, а с нас хорошее настроение
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯15🔥7❤3😁1
Lost in the middle или найди меня через промт, если сможешь.
Крч шкет, помнишь уже было раньше, когда идешь ты такой по sequence в LSTM/GRU и инфа затухает в middle hidden states? Нет? Ну ты ещё молодой, садись расскажу.
Вот я помню. И решалось это так: делали чисто bidirectional проходом и навалом сверху attention. Но в отличии от LSTM, которое училось так e2e, с LLM такое дело позволить себе больно, да и casual masking для next token prediction влезает.
Поэтому дяди придумали сновадавать чаевые писать в промт специально акцентуализированные вставки. Мол чел обрати внимание тут над бы не забыть эту инфу.
Вобщем, всё как с тобой шкет, когда препод по матану на лекции говорит: "а вот за это я буду карать на сессии". Правда у тебя кожанного мешка это мимо пролетает и на сессии ты наказан, а LLM это нихило так докидывает, с 27% аж до 98% метрики качества.
Учись, крч.
Мне же интересно:
1. Есть ли механизмы на уровне архитектуры, а не промт тюна? Ну там префикс-токены хитрым натыкать образом и их тюн и тп.
2. Можно ли делать за счёт внешней модели squad выбор отрезка акцентуации в тексте?
Крч шкет, помнишь уже было раньше, когда идешь ты такой по sequence в LSTM/GRU и инфа затухает в middle hidden states? Нет? Ну ты ещё молодой, садись расскажу.
Вот я помню. И решалось это так: делали чисто bidirectional проходом и навалом сверху attention. Но в отличии от LSTM, которое училось так e2e, с LLM такое дело позволить себе больно, да и casual masking для next token prediction влезает.
Поэтому дяди придумали снова
Вобщем, всё как с тобой шкет, когда препод по матану на лекции говорит: "а вот за это я буду карать на сессии". Правда у тебя кожанного мешка это мимо пролетает и на сессии ты наказан, а LLM это нихило так докидывает, с 27% аж до 98% метрики качества.
Учись, крч.
Мне же интересно:
1. Есть ли механизмы на уровне архитектуры, а не промт тюна? Ну там префикс-токены хитрым натыкать образом и их тюн и тп.
2. Можно ли делать за счёт внешней модели squad выбор отрезка акцентуации в тексте?
👍14🤔2🔥1
Падаванами славятся лиды.
Приходите посмотреть на нашего Марка на новогоднюю ML-тренировку в Yandex.
https://xn--r1a.website/yandexforml/228
Приходите посмотреть на нашего Марка на новогоднюю ML-тренировку в Yandex.
https://xn--r1a.website/yandexforml/228
Telegram
Yandex for ML (Data Dojo)
🔥 Последний шанс зарегистрироваться на новогоднюю ML-тренировку!
Подготовили для вас много интересных докладов, чтобы отлично проводить этот год и вдохновиться на следующий соревновательный сезон. Поговорим про Yandex ML Cup, Kaggle AI Village CTF и секреты…
Подготовили для вас много интересных докладов, чтобы отлично проводить этот год и вдохновиться на следующий соревновательный сезон. Поговорим про Yandex ML Cup, Kaggle AI Village CTF и секреты…
Как выглядит Жоский ИИ Дядя в отпуске.
P. S. Кто узнал схему на мониторе, пишем в комментариях.
Украл тут👇
https://xn--r1a.website/nlp_daily
P. S. Кто узнал схему на мониторе, пишем в комментариях.
Украл тут👇
https://xn--r1a.website/nlp_daily
😁20❤1
Немножко Жоских идей от ИИ Дяди если МоЕ не твоё, но реализовать хочется:
Крч, шкет, тут Mistral, запилил свою MoE 7b. И да это не те, что макароны, и, о боги ИИ, не корабли ВМФ.
Как сделали?
Кажись по классике switch transformer запилили роутинг FFN на 8 экспертов, ток берут топ2. И нет блин, это не 8 по 7b LLM роутятся. Даже для BERT-base FFN занимает порядка 59М весов из 85М на все 12 блоков трансформера и это из 110М всех весов модели. Те почти 60%!?
А тут представьте у вас 8 FFN роутятся в топ2 и на всех К блоков декодера в 7b. Крч, какие-то, люди посчитали и там чет около для 45b модели получается GPU памяти бы иметь.
Поэтому, вот тебе ещё одна идея, пока все играются в песочнице на уровне FFN, не будь как все, ломай систему и делай MoE на small-LM. А как сделаешь, не забывайбайтьку жоского Дядю, хотя бы последним автором впиши.
Хотите подробностей по Mixtrail, код тут.
Крч, шкет, тут Mistral, запилил свою MoE 7b. И да это не те, что макароны, и, о боги ИИ, не корабли ВМФ.
Как сделали?
Кажись по классике switch transformer запилили роутинг FFN на 8 экспертов, ток берут топ2. И нет блин, это не 8 по 7b LLM роутятся. Даже для BERT-base FFN занимает порядка 59М весов из 85М на все 12 блоков трансформера и это из 110М всех весов модели. Те почти 60%!?
А тут представьте у вас 8 FFN роутятся в топ2 и на всех К блоков декодера в 7b. Крч, какие-то, люди посчитали и там чет около для 45b модели получается GPU памяти бы иметь.
Поэтому, вот тебе ещё одна идея, пока все играются в песочнице на уровне FFN, не будь как все, ломай систему и делай MoE на small-LM. А как сделаешь, не забывай
Хотите подробностей по Mixtrail, код тут.
mistral.ai
Mixtral of experts | Mistral AI
A high quality Sparse Mixture-of-Experts.
🔥11🤡2👍1👌1
Dealer.AI
Немножко Жоских идей от ИИ Дяди если МоЕ не твоё, но реализовать хочется: Крч, шкет, тут Mistral, запилил свою MoE 7b. И да это не те, что макароны, и, о боги ИИ, не корабли ВМФ. Как сделали? Кажись по классике switch transformer запилили роутинг FFN…
Ну тут прям вкусно расписали.
https://huggingface.co/blog/moe
Особенно хорошо, про параллелизм на GPU и как эксперты между собой разбирают разную доменную инфу.
UPD. Прям MoE ренессанс какой-то!
https://huggingface.co/blog/moe
Особенно хорошо, про параллелизм на GPU и как эксперты между собой разбирают разную доменную инфу.
UPD. Прям MoE ренессанс какой-то!
huggingface.co
Mixture of Experts Explained
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍18
This media is not supported in your browser
VIEW IN TELEGRAM
Знаю, что баян... Но...
Literally моя команда.
Literally моя команда.
😁52🔥3💯1