Dealer.AI

Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей. Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке. О чем это я? Да вот есть новый…

На самом деле конечно это не PCA, ап метрик видим в тч задаче ImgNet CLF , что с таким подходом мы учимся быстрее.

👍1🔥1

3.5K views14:25

Dealer.AI

Дядя всех дядь, мой друк и крутой Kaggle Grand Maestro (дада именно так и не иначе) запилил свой канал про соревнования.👇

🔥5

3.09K views19:19

Dealer.AI

Forwarded from adapt compete evolve or die

Иногда думать медленно, облекая мысли в слова, полезно и даже приятно.

Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.

Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.

Люблю смотреть как падает loss и спонтанность. Не люблю ждать.

👍20

3.19K views19:19

Dealer.AI

🏆 Наши слоны с AutoML побеждают на международной арене

Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!

🚀 LightAutoML - бесплатный и открытый инструмент.

Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.

🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.

🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.

p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.

Kaggle

AutoML Grand Prix Finale - Congratulations to our Winners! | Kaggle

AutoML Grand Prix Finale - Congratulations to our Winners!.

534🔥37❤3👍3

3.32K viewsedited 09:02

Dealer.AI

O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.

💳

Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?

Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.

Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.

Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.

UPD. И да ждем подробностей в следующих анонсах.

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Learning to reason with LLMs

We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.

50👍7😁1

3.17K viewsedited 17:21

Dealer.AI

O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳 Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/ Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного? Первое…

o1-system-card.pdf

1.9 MB

да название o1 system card прям тонко)

😁4

2.68K viewsedited 19:09

Dealer.AI

RIG-RAG и DataCommons, как Gemma работает с надежными источниками данных.

Как-то осталось незамеченным решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.

Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта RIG и RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в К запросов свободной формы в разные места БД.

Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.

Гугл продолжает свои исследования.

Google

DataGemma: Using real-world data to address AI hallucinations

Introducing DataGemma, the first open models designed to connect LLMs with extensive real-world data drawn from Google's Data Commons.

👍12❤2

3.52K viewsedited 08:29

Dealer.AI

Схема RIG-RAG

Upd. research paper http://datacommons.org/link/DataGemmaPaper

50👍10

3.6K viewsedited 08:30

Dealer.AI

Exo для тех кто мечтал в "две руки".

exo — это тулза для распределенного запуска на своих девайсах LLM. Поддерживается iPhone, iPad, Android, Mac, Linux. Использует среды MLX, llama.cpp, tinygrad. В качестве стратегии шеринга весов моделей использует разные стратегии, а по дефолту схему "кольцо" (напоминает layer/pipline parallelism).

Если вы мечтали быть "пианистом" LLM и фигачить в две и более ~~руки~~ пекарни веса жирных моделек - это ваш вариант.

Пример. Вот тут чувак запилил инференс на х2 маках 405b llama3.1.

git: https://github.com/exo-explore/exo

GitHub

GitHub - exo-explore/exo: Run your own AI cluster at home with everyday devices 📱💻 🖥️⌚

Run your own AI cluster at home with everyday devices 📱💻 🖥️⌚ - exo-explore/exo

🔥18👍5🫡5😁2

4.47K viewsedited 18:31

Dealer.AI

Курс Агентов 007.

Из соседнего чатека занесли:
- Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды(с).

🔥15👍8❤2😁2

4.73K views10:34

Dealer.AI

Юмор выходного дня.

Завтра кому-то на работу и снова будет так)

👍18😁11😢2

3.73K viewsedited 16:48

Dealer.AI

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on mathematics and data science:
👨‍🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time

Add to Google Calendar

Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).

The talk is based on a recent paper: https://arxiv.org/abs/2408.15332

О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://xn--r1a.website/sberlogasci/19688 - subscribe !

Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !

👍10

2.87K views06:38

Dealer.AI

Jina новая SoTa на MTEB.

Ребята из Jina снова доказывают, что размер не имеет значение и их 0.57b модели тому доказательство.

Вышла новая версия модели, которая в своем типо-размере бьет конкурентов на MTEB. Опережены: openaAI и e5-instruct, - при этом mistral-e5-instruct в 12.5 раза жирнее и всего 1 пункт разницы. Что для прода не так важно, как латенси+точность и главное контекст, который у jina 8к+RoPe+ flash attetion! Т. е. ваш любимый RAG в т. ч. long-term с биг доками будет покорен. Конечно мы добавим замеры на ruMTEB в будущем.

Немного о том, как Jina сделали это:

- XLM roberta как база, в тч токенайзер оттуда.
- Multitask-learning с 4 LoRA adapters под 4 task specific. Мы кстати также учили sbert-mt, но без адаптеров.
- Уже классика prefix-tuning для разных задач свой текстовый префикс.

За материал спасибо @lovedeathtransformers, за картинку @oulenspiegel (@oulenspiegel_channel)

👍14❤4

4.45K viewsedited 15:43

Dealer.AI

3.68K views15:46

Dealer.AI

3.66K views15:46

Dealer.AI

Четко) 👇

3.12K views11:00

Dealer.AI

Forwarded from gonzo-обзоры ML статей

В развитие темы про "не только трансформеры" и SSM. На The Gradient попалась неплохая статья с полезной интуицией про Мамбу:

https://thegradient.pub/mamba-explained/

The Gradient

Mamba Explained

Is Attention all you need? Mamba, a novel AI model based on State Space Models (SSMs), emerges as a formidable alternative to the widely used Transformer models, addressing their inefficiency in processing long sequences.

👍12🔥3

3.51K views11:00

Dealer.AI

Забавное дня. Размер не всегда имеет значение.

Седня узнал забавный факт, что топчик-1это mistral-7b на ruMTEB ибо он 7b. 💳

Псс, чуваки, jina-v3 на 570М (в 12.5 раз меньше), да еще и на префиксах, а не на инструкциях. 🌿

Вы или скейлите веса или у вас прямые руки и вы выезжаете на сетах+лосс/архитектура+инженерия сэмплинга. 🧠

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14

3.71K viewsedited 13:47

Dealer.AI

Ты приходишь ко мне просить падение лосса, но ты просишь без уважения(с)

муз.тема

😁14👍3🤔2😈1

3.03K viewsedited 12:39

Dealer.AI

Forwarded from Al Talent Hub

🧐

Портал в мир науки открывается по средам!

Уже 2 октября в 18:30 встречаемся в Reading Club, чтобы обсудить новую порцию научных прорывов из мира AI.

Гость: Карина Романова
TeamLead CoreLLM:recsys.
Отвечает за добавление текстовых и картиночных фичей в рекомендации Wildberries. Магистрантка AI Talent Hub.

➡️

Разберемся в новом подходе к интерпретации крупных языковых моделей на примере Claude Sonnet. Обсудим, как удалось их выявить, какие концепции формируются внутри модели и как это может улучшить безопасность и надежность ИИ в будущем.

🔖

статья: Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

➡️

Зарегистрироваться

📹

Смотреть предыдущий выпуск

#ReadingClub #AITalentHub #NapoleonIT #ITMO

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.92K views15:08