Dealer.AI
Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей. Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке. О чем это я? Да вот есть новый…
На самом деле конечно это не PCA, ап метрик видим в тч задаче ImgNet CLF , что с таким подходом мы учимся быстрее.
👍1🔥1
Дядя всех дядь, мой друк и крутой Kaggle Grand Maestro (дада именно так и не иначе) запилил свой канал про соревнования.👇
🔥5
Forwarded from adapt compete evolve or die
Иногда думать медленно, облекая мысли в слова, полезно и даже приятно.
Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.
Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.
Люблю смотреть как падает loss и спонтанность. Не люблю ждать.
Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.
Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.
Люблю смотреть как падает loss и спонтанность. Не люблю ждать.
👍20
🏆 Наши слоны с AutoML побеждают на международной арене
Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!
🚀 LightAutoML - бесплатный и открытый инструмент.
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.
🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.
🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.
p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.
Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!
🚀 LightAutoML - бесплатный и открытый инструмент.
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.
🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.
🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.
p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.
Kaggle
AutoML Grand Prix Finale - Congratulations to our Winners! | Kaggle
AutoML Grand Prix Finale - Congratulations to our Winners!.
534🔥37❤3👍3
O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳
Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?
Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.
Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.
Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.
UPD. И да ждем подробностей в следующих анонсах.
Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?
Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.
Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.
Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.
UPD. И да ждем подробностей в следующих анонсах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
Learning to reason with LLMs
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
50👍7😁1
Dealer.AI
O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳 Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/ Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного? Первое…
o1-system-card.pdf
1.9 MB
да название o1 system card прям тонко)
😁4
RIG-RAG и DataCommons, как Gemma работает с надежными источниками данных.
Как-то осталось незамеченным решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.
Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта RIG и RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в К запросов свободной формы в разные места БД.
Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.
Гугл продолжает свои исследования.
Как-то осталось незамеченным решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.
Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта RIG и RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в К запросов свободной формы в разные места БД.
Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.
Гугл продолжает свои исследования.
Google
DataGemma: Using real-world data to address AI hallucinations
Introducing DataGemma, the first open models designed to connect LLMs with extensive real-world data drawn from Google's Data Commons.
👍12❤2
Exo для тех кто мечтал в "две руки".
exo — это тулза для распределенного запуска на своих девайсах LLM. Поддерживается iPhone, iPad, Android, Mac, Linux. Использует среды MLX, llama.cpp, tinygrad. В качестве стратегии шеринга весов моделей использует разные стратегии, а по дефолту схему "кольцо" (напоминает layer/pipline parallelism).
Если вы мечтали быть "пианистом" LLM и фигачить в две и болееруки пекарни веса жирных моделек - это ваш вариант.
Пример. Вот тут чувак запилил инференс на х2 маках 405b llama3.1.
git: https://github.com/exo-explore/exo
exo — это тулза для распределенного запуска на своих девайсах LLM. Поддерживается iPhone, iPad, Android, Mac, Linux. Использует среды MLX, llama.cpp, tinygrad. В качестве стратегии шеринга весов моделей использует разные стратегии, а по дефолту схему "кольцо" (напоминает layer/pipline parallelism).
Если вы мечтали быть "пианистом" LLM и фигачить в две и более
Пример. Вот тут чувак запилил инференс на х2 маках 405b llama3.1.
git: https://github.com/exo-explore/exo
GitHub
GitHub - exo-explore/exo: Run your own AI cluster at home with everyday devices 📱💻 🖥️⌚
Run your own AI cluster at home with everyday devices 📱💻 🖥️⌚ - exo-explore/exo
🔥18👍5🫡5😁2
Курс Агентов 007.
Из соседнего чатека занесли:
- Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды(с).
Из соседнего чатека занесли:
- Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды(с).
🔥15👍8❤2😁2
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on mathematics and data science:
👨🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time
Add to Google Calendar
Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).
The talk is based on a recent paper: https://arxiv.org/abs/2408.15332
О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://xn--r1a.website/sberlogasci/19688 - subscribe !
Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
👨🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time
Add to Google Calendar
Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).
The talk is based on a recent paper: https://arxiv.org/abs/2408.15332
О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://xn--r1a.website/sberlogasci/19688 - subscribe !
Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
👍10
Jina новая SoTa на MTEB.
Ребята из Jina снова доказывают, что размер не имеет значение и их 0.57b модели тому доказательство.
Вышла новая версия модели, которая в своем типо-размере бьет конкурентов на MTEB. Опережены: openaAI и e5-instruct, - при этом mistral-e5-instruct в 12.5 раза жирнее и всего 1 пункт разницы. Что для прода не так важно, как латенси+точность и главное контекст, который у jina 8к+RoPe+ flash attetion! Т. е. ваш любимый RAG в т. ч. long-term с биг доками будет покорен. Конечно мы добавим замеры на ruMTEB в будущем.
Немного о том, как Jina сделали это:
- XLM roberta как база, в тч токенайзер оттуда.
- Multitask-learning с 4 LoRA adapters под 4 task specific. Мы кстати также учили sbert-mt, но без адаптеров.
- Уже классика prefix-tuning для разных задач свой текстовый префикс.
За материал спасибо @lovedeathtransformers, за картинку @oulenspiegel (@oulenspiegel_channel)
Ребята из Jina снова доказывают, что размер не имеет значение и их 0.57b модели тому доказательство.
Вышла новая версия модели, которая в своем типо-размере бьет конкурентов на MTEB. Опережены: openaAI и e5-instruct, - при этом mistral-e5-instruct в 12.5 раза жирнее и всего 1 пункт разницы. Что для прода не так важно, как латенси+точность и главное контекст, который у jina 8к+RoPe+ flash attetion! Т. е. ваш любимый RAG в т. ч. long-term с биг доками будет покорен. Конечно мы добавим замеры на ruMTEB в будущем.
Немного о том, как Jina сделали это:
- XLM roberta как база, в тч токенайзер оттуда.
- Multitask-learning с 4 LoRA adapters под 4 task specific. Мы кстати также учили sbert-mt, но без адаптеров.
- Уже классика prefix-tuning для разных задач свой текстовый префикс.
За материал спасибо @lovedeathtransformers, за картинку @oulenspiegel (@oulenspiegel_channel)
👍14❤4
Forwarded from gonzo-обзоры ML статей
В развитие темы про "не только трансформеры" и SSM. На The Gradient попалась неплохая статья с полезной интуицией про Мамбу:
https://thegradient.pub/mamba-explained/
https://thegradient.pub/mamba-explained/
The Gradient
Mamba Explained
Is Attention all you need? Mamba, a novel AI model based on State Space Models (SSMs), emerges as a formidable alternative to the widely used Transformer models, addressing their inefficiency in processing long sequences.
👍12🔥3
Забавное дня. Размер не всегда имеет значение.
Седня узнал забавный факт, что топчик-1это mistral-7b на ruMTEB ибо он 7b.💳
Псс, чуваки, jina-v3 на 570М (в 12.5 раз меньше), да еще и на префиксах, а не на инструкциях.🌿
Вы или скейлите веса или у вас прямые руки и вы выезжаете на сетах+лосс/архитектура+инженерия сэмплинга.🧠
Седня узнал забавный факт, что топчик-1это mistral-7b на ruMTEB ибо он 7b.
Псс, чуваки, jina-v3 на 570М (в 12.5 раз меньше), да еще и на префиксах, а не на инструкциях.
Вы или скейлите веса или у вас прямые руки и вы выезжаете на сетах+лосс/архитектура+инженерия сэмплинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14
Forwarded from Al Talent Hub
Уже 2 октября в 18:30 встречаемся в Reading Club, чтобы обсудить новую порцию научных прорывов из мира AI.
Гость: Карина Романова
TeamLead CoreLLM:recsys.
Отвечает за добавление текстовых и картиночных фичей в рекомендации Wildberries. Магистрантка AI Talent Hub.
#ReadingClub #AITalentHub #NapoleonIT #ITMO
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6