Dealer.AI

Forwarded from Гусь

Твитерский попросил нейросеть сгенерировать айтишника.

На каждом этапе он просил ее сделать айтишника ЕЩЕ БОГАЧЕ.

❤16😁8🔥5😱1

2.65K views17:25

Взять LLM за RAGa в 60 минут

Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок

https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/

DeepLearning.AI - Learning Platform

Building and Evaluating Advanced RAG

Learn advanced RAG retrieval methods like sentence-window and auto-merging that outperform baselines, and evaluate and iterate on your pipeline's performance.

🔥18❤3👍2

3.92K viewsedited 10:52

Dealer.AI

Одним Оленем больше: Poro new Finland ~~vodka~~ LLM.

Говорят, Финно-Угры и Норды завезли LLMку в купе с English.

Самое интересное, что без NVIDIA и СМС. Чисто на AMD GPU 🤙

Прикинь, шкет! Оно работает! 😜

https://xn--r1a.website/gonzo_ML/2084

Please open Telegram to view this post

VIEW IN TELEGRAM

gonzo-обзоры ML статей

Great news for European LLMs! Silo AI extends their family of open models Poro 🦌 with checkpoints, languages & modalities.

* Published additional checkpoints of Poro 1 34B, which shows best-in-class Finnish performance of open models, without compromising…

😁5👍4🤔2

3.15K viewsedited 20:08

Dealer.AI

Жиза👇

2.58K viewsedited 14:41

Dealer.AI

Forwarded from Love. Death. Transformers.

Rlhf на котах- издать настолько противный звук чтобы хозяин точно пошел смотреть что происходит

🔥11👍1

2.08K views14:41

Dealer.AI

Че, шкет, не только крот птица перелётная, но и LLM тоже. Пока не пообещаешь "шоколадки" не полетит.

https://habr.com/en/news/778022/

Habr

Ответ ChatGPT длиннее, если пообещать чаевые

@voooooogel Микроблогер поделилась забавным наблюдением про работу ChatGPT: языковая модель реагирует на обещание дать чаевые и отвечает чуть подробнее. Хотя чат-бот не имеет возможности получить...

🔥14

8.44K views15:44

Dealer.AI

Forwarded from AI[ex]Time (Александр Голубев)

Вышел мой обзор про LLM агентов на хабре🕺

Скорость появления новых работ и подходов в этом направлении сейчас настолько большая, что тяжело оставаться в курсе, даже работая в сфере DL/NLP. Поэтому постарался описать прогресс относительно небольшой статьей и проиллюстрировать работами, вышедшими за последний год. Также хотелось сделать это не сильно техническим языком, чтобы было понятно максимальному числу людей не из машинного обучения. Так что если вы не связаны напрямую с ML, то не бойтесь, возможно будут непонятны какие-то части, но их можно пропустить (или спросить в комментариях)

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Кто такие LLM-агенты и что они умеют?

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными...

👍12❤2🔥2😁1

2.07K views07:57

Dealer.AI

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Когда очередная corporation заононсила свою супер-мега-гига-лонг LLM.

В ролях:

- Глава маркетинга в белом, радостный за годовые бюджеты на рекламу.
- Не менее радостные челы , что делали research и pretrain, у которых неожиданно получилось.
- Коммитивший за их успех тех-лид в красном предвкушает грейдап.
- Грустный СЕО, который осознаёт, что их фин.модель из-за потраченного компьюта при его жизни не выйдет в 0.
(в конце крупным планом)

🤩22💯9👍2

2.21K viewsedited 23:41

Dealer.AI

Forwarded from Жёлтый AI

This media is not supported in your browser

VIEW IN TELEGRAM

Мы все осуждаем RL, но хочется спросить, кто сделал 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Их сделали мы и зарелизили XLand-MiniGrid – наша новая среда для Meta-RL на Jax.

Здесь вы найдете:
🚀 2^13 параллельных сред на одной GPU, миллионы фреймов в секунду
🔞️️️️️️ Поддержка multi-GPU из коробки
🌿️️️️️️ Реализация рекурентного PPO

А самое главное – XLand-MiniGrid создан с прицелом на Meta Learning. В среде можно легко менять динамику и цели между эпизодами. Теперь каждый может вкатиться в мир роскоши и large scale RL даже в Colab.

Подробнее можно почитать в Twitter треде. А в остальном, как всегда, с вас звездочки на гитхабе, а с нас хорошее настроение 🎩

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯15🔥7❤3😁1

1.89K views14:14

Dealer.AI

Lost in the middle или найди меня через промт, если сможешь.

Крч шкет, помнишь уже было раньше, когда идешь ты такой по sequence в LSTM/GRU и инфа затухает в middle hidden states? Нет? Ну ты ещё молодой, садись расскажу.

Вот я помню. И решалось это так: делали чисто bidirectional проходом и навалом сверху attention. Но в отличии от LSTM, которое училось так e2e, с LLM такое дело позволить себе больно, да и casual masking для next token prediction влезает.

Поэтому дяди придумали снова ~~давать чаевые~~ писать в промт специально акцентуализированные вставки. Мол чел обрати внимание тут над бы не забыть эту инфу.

Вобщем, всё как с тобой шкет, когда препод по матану на лекции говорит: "а вот за это я буду карать на сессии". Правда у тебя кожанного мешка это мимо пролетает и на сессии ты наказан, а LLM это нихило так докидывает, с 27% аж до 98% метрики качества.

Учись, крч.

Мне же интересно:

1. Есть ли механизмы на уровне архитектуры, а не промт тюна? Ну там префикс-токены хитрым натыкать образом и их тюн и тп.

2. Можно ли делать за счёт внешней модели squad выбор отрезка акцентуации в тексте?

👍14🤔2🔥1

2.72K viewsedited 11:40

Dealer.AI

Падаванами славятся лиды.

Приходите посмотреть на нашего Марка на новогоднюю ML-тренировку в Yandex.

https://xn--r1a.website/yandexforml/228

Yandex for ML (Data Dojo)

🔥 Последний шанс зарегистрироваться на новогоднюю ML-тренировку!

Подготовили для вас много интересных докладов, чтобы отлично проводить этот год и вдохновиться на следующий соревновательный сезон. Поговорим про Yandex ML Cup, Kaggle AI Village CTF и секреты…

2.61K viewsedited 16:14

Dealer.AI

Как выглядит Жоский ИИ Дядя в отпуске.

P. S. Кто узнал схему на мониторе, пишем в комментариях.

Украл тут👇
https://xn--r1a.website/nlp_daily

😁20❤1

2.25K viewsedited 17:54

Dealer.AI

Зашёл посмотреть, как там мой sbert поживает. Народ, у модели sbert_mt в той же репе sentence вектора ещё круче!

Но динамика кача радует.

🔥35👎3👍2❤1🤩1

2.45K viewsedited 16:27

Dealer.AI

Немножко Жоских идей от ИИ Дяди если МоЕ не твоё, но реализовать хочется:

Крч, шкет, тут Mistral, запилил свою MoE 7b. И да это не те, что макароны, и, о боги ИИ, не корабли ВМФ.

Как сделали?

Кажись по классике switch transformer запилили роутинг FFN на 8 экспертов, ток берут топ2. И нет блин, это не 8 по 7b LLM роутятся. Даже для BERT-base FFN занимает порядка 59М весов из 85М на все 12 блоков трансформера и это из 110М всех весов модели. Те почти 60%!?

А тут представьте у вас 8 FFN роутятся в топ2 и на всех К блоков декодера в 7b. Крч, какие-то, люди посчитали и там чет около для 45b модели получается GPU памяти бы иметь.

Поэтому, вот тебе ещё одна идея, пока все играются в песочнице на уровне FFN, не будь как все, ломай систему и делай MoE на small-LM. А как сделаешь, не забывай ~~байтьку~~ жоского Дядю, хотя бы последним автором впиши.

Хотите подробностей по Mixtrail, код тут.

mistral.ai

Mixtral of experts | Mistral AI

A high quality Sparse Mixture-of-Experts.

🔥11🤡2👍1👌1

2.94K viewsedited 09:46

Dealer.AI

Немножко Жоских идей от ИИ Дяди если МоЕ не твоё, но реализовать хочется: Крч, шкет, тут Mistral, запилил свою MoE 7b. И да это не те, что макароны, и, о боги ИИ, не корабли ВМФ. Как сделали? Кажись по классике switch transformer запилили роутинг FFN…

Ну тут прям вкусно расписали.

https://huggingface.co/blog/moe

Особенно хорошо, про параллелизм на GPU и как эксперты между собой разбирают разную доменную инфу.

UPD. Прям MoE ренессанс какой-то!

huggingface.co

Mixture of Experts Explained

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍18

3.25K viewsedited 15:35

Dealer.AI