🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях
Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.
✨ Главное нововведение
Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.
🧠 Архитектура
1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи
2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация
🛠️ Тренировка
1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL
2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями
🎨 Возможности
✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач
🔥 Результаты
Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%
🌍 Open Source
Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.
✨ Главное нововведение
Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.
🧠 Архитектура
1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи
2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация
🛠️ Тренировка
1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL
2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями
🎨 Возможности
✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач
🔥 Результаты
Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%
🌍 Open Source
Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
❤11👍7
⚡️ Вышел подробный гайд по Gemini 3 - новой флагманской модели Google DeepMind, которая в ряде задач уже опережает другие топовые решения.
Внутри разбор возможностей модели, примеры создания реальных приложений, рекомендации по настройке промтов и системных режимов.
Добавлены готовые сниппеты на Python и JS - копируй и сразу запускай. Осваиваем автоматизацию и перенос рутины на Gemini 3 по ссылке.
https://ai.google.dev/gemini-api/docs/gemini-3?thinking=high&hl=ru
Внутри разбор возможностей модели, примеры создания реальных приложений, рекомендации по настройке промтов и системных режимов.
Добавлены готовые сниппеты на Python и JS - копируй и сразу запускай. Осваиваем автоматизацию и перенос рутины на Gemini 3 по ссылке.
https://ai.google.dev/gemini-api/docs/gemini-3?thinking=high&hl=ru
❤5👍3🥰2
Media is too big
VIEW IN TELEGRAM
Успей зарегистрироваться на масштабный ИТ-фест от МТС 🔥
21 ноября на True Tech Champ тебя ждет насыщенный день со зрелищной битвой роботов, нетворкингом и прокачкой навыков.
В программе:
📝 Доклады о ИИ-технологиях. Специалисты MWS AI, Skoltech, Яндекса и Unitree Robotics расскажут о трансформерах для управления автомобилями, работе с RAG-системами и физическими агентами.
📝 Воркшоп по работе с ИИ-агентами от канадского разработчика и автора книги AI Agents in Action Майкла Ланэма.
📝 Воркшоп по разработке игр с помощью AI плагина MWS DevTools Agent.
🛻 Шоу-битва роботов. Камеры от первого лица, профессиональные комментаторы создадут вайб больших видов спорта. На огромных экранах МТС Live Холл ты увидишь, как роботы будут проходить 3 уровня препятствий: запутанные лабиринты, офф-роад маршруты, парящие платформы — и сразятся в битве на выживание.
◻️ 20+ площадок с активностями. Попробуй родео и оседлай механического быка, пройди лазерный лабиринт, как настоящий спецагент, выведи на ринг своего робопаука и протестируй другие ИТ-челленджи.
🔴 В завершение дня — афтепати со звездным хедлайнером.
Фестиваль бесплатный, он пройдет 21 ноября в Москве и онлайн.
Смотри подробную программу на сайте и регистрируйся — количество мест ограничено.
21 ноября на True Tech Champ тебя ждет насыщенный день со зрелищной битвой роботов, нетворкингом и прокачкой навыков.
В программе:
Фестиваль бесплатный, он пройдет 21 ноября в Москве и онлайн.
Смотри подробную программу на сайте и регистрируйся — количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥3😐3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Создание видео с LongCat-Video
LongCat-Video — это мощная модель генерации видео с 13.6 миллиарда параметров, способная выполнять задачи *Text-to-Video*, *Image-to-Video* и *Video-Continuation*. Она обеспечивает высокое качество и эффективность, особенно в создании длинных видео без потери качества.
🚀 Основные моменты:
- Унифицированная архитектура для различных задач генерации видео.
- Способность генерировать видео длительностью в минуты.
- Эффективный процесс генерации с высоким разрешением.
- Сравнимые результаты с ведущими коммерческими решениями.
📌 GitHub: https://github.com/meituan-longcat/LongCat-Video
#python
LongCat-Video — это мощная модель генерации видео с 13.6 миллиарда параметров, способная выполнять задачи *Text-to-Video*, *Image-to-Video* и *Video-Continuation*. Она обеспечивает высокое качество и эффективность, особенно в создании длинных видео без потери качества.
🚀 Основные моменты:
- Унифицированная архитектура для различных задач генерации видео.
- Способность генерировать видео длительностью в минуты.
- Эффективный процесс генерации с высоким разрешением.
- Сравнимые результаты с ведущими коммерческими решениями.
📌 GitHub: https://github.com/meituan-longcat/LongCat-Video
#python
🔥5❤2👍2🥱1
🤖 AITradeGame - Симулятор торговли с ИИ
AITradeGame - это открытый симулятор торговли, который позволяет пользователям тестировать стратегии с использованием ИИ. Доступны как локальная версия с полной конфиденциальностью, так и онлайн-версия с интерактивными функциями и таблицами лидеров.
🚀Основные моменты:
- Поддержка различных ИИ моделей, включая OpenAI и Claude.
- Локальное хранилище данных без облачного отслеживания.
- Интерактивные таблицы лидеров для соревнований с другими пользователями.
- Удобный интерфейс и возможность настройки торговых параметров.
📌 GitHub: https://github.com/chadyi/AITradeGame
AITradeGame - это открытый симулятор торговли, который позволяет пользователям тестировать стратегии с использованием ИИ. Доступны как локальная версия с полной конфиденциальностью, так и онлайн-версия с интерактивными функциями и таблицами лидеров.
🚀Основные моменты:
- Поддержка различных ИИ моделей, включая OpenAI и Claude.
- Локальное хранилище данных без облачного отслеживания.
- Интерактивные таблицы лидеров для соревнований с другими пользователями.
- Удобный интерфейс и возможность настройки торговых параметров.
📌 GitHub: https://github.com/chadyi/AITradeGame
👍11❤4🥰2
🔥 Представляем AMO-Bench - новый бенчмарк, который проверяет границы логического мышления LLM на уровне задач IMO.
AMO-Bench включает:
• 50 полностью оригинальных задач, созданных экспертами
• подтверждённый уровень сложности — не ниже международной математической олимпиады
• гибридный алгоритм автопроверки с точностью 99.2%
• размеченные человеком цепочки рассуждений для глубокого анализа моделей
Главные результаты:
Модель Kimi-k2-Thinking от Kimi_Moonshot показала лучший результат — 56%.
Следом идут GPT-5-thinking (high) и Qwen3-235B-A22B-Thinking-2507.
Большинство остальных моделей не дотягивают даже до 40%.
AMO-Bench открыт для всех — попробуйте и помогите продвинуть границы reasoning-возможностей больших моделей.
😊 Open-Source:
HuggingFace: https://huggingface.co/datasets/meituan-longcat/AMO-Bench
GitHub: https://github.com/meituan-longcat/AMO-Bench
Paper: https://arxiv.org/abs/2510.26768
Project Page: https://amo-bench.github.io
AMO-Bench включает:
• 50 полностью оригинальных задач, созданных экспертами
• подтверждённый уровень сложности — не ниже международной математической олимпиады
• гибридный алгоритм автопроверки с точностью 99.2%
• размеченные человеком цепочки рассуждений для глубокого анализа моделей
Главные результаты:
Модель Kimi-k2-Thinking от Kimi_Moonshot показала лучший результат — 56%.
Следом идут GPT-5-thinking (high) и Qwen3-235B-A22B-Thinking-2507.
Большинство остальных моделей не дотягивают даже до 40%.
AMO-Bench открыт для всех — попробуйте и помогите продвинуть границы reasoning-возможностей больших моделей.
😊 Open-Source:
HuggingFace: https://huggingface.co/datasets/meituan-longcat/AMO-Bench
GitHub: https://github.com/meituan-longcat/AMO-Bench
Paper: https://arxiv.org/abs/2510.26768
Project Page: https://amo-bench.github.io
❤5👍3🔥3
🤖 Google представила Nested Learning — новую парадигму ИИ, которая учится как человек и не забывает прошлые знания
Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.
Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.
Это позволяет модели:
- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает
Что это даёт?
1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.
2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.
3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.
📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning
#google
Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.
Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.
Это позволяет модели:
- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает
Что это даёт?
1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.
2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.
3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.
📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning
🔥14❤1🥰1
🌍🗣️ Omnilingual ASR: Многоязычное распознавание речи для 1600+ языков
Omnilingual ASR — это открытая система распознавания речи, поддерживающая более 1,600 языков, включая редкие. Она позволяет добавлять новые языки с минимальными примерами, делая технологии распознавания более доступными и инклюзивными для различных сообществ.
🚀Основные моменты:
- Поддержка более 1,600 языков, включая уникальные.
- Простота добавления новых языков без больших наборов данных.
- Использует нулевое обучение и гибкие модели для адаптации.
- Доступен на Hugging Face для демонстрации и использования.
📌 GitHub: https://github.com/facebookresearch/omnilingual-asr
#python
Omnilingual ASR — это открытая система распознавания речи, поддерживающая более 1,600 языков, включая редкие. Она позволяет добавлять новые языки с минимальными примерами, делая технологии распознавания более доступными и инклюзивными для различных сообществ.
🚀Основные моменты:
- Поддержка более 1,600 языков, включая уникальные.
- Простота добавления новых языков без больших наборов данных.
- Использует нулевое обучение и гибкие модели для адаптации.
- Доступен на Hugging Face для демонстрации и использования.
📌 GitHub: https://github.com/facebookresearch/omnilingual-asr
#python
GitHub
GitHub - facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages
Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages - facebookresearch/omnilingual-asr
😁5👍3🔥2🥰1
🍌Nano Banan хороша!
Промпт: "Make an infographic that explains how the transformer LLM works"
https://aistudio.google.com/
Промпт: "Make an infographic that explains how the transformer LLM works"
https://aistudio.google.com/
👍22🔥12🍌3❤2
🌉🤖 CodexMCP: Интеграция Claude Code и Codex
CodexMCP — это мост между Claude Code и Codex, который позволяет им эффективно сотрудничать в программировании. Проект предлагает улучшенные функции, такие как многократные диалоги и параллельные задачи, что делает взаимодействие AI более интеллектуальным и продуктивным.
🚀Основные моменты:
- Поддержка многократных диалогов и параллельного выполнения задач.
- Усовершенствованное управление контекстом с сохранением сессий.
- Интеграция с Claude Code для анализа требований и архитектуры.
- Возможность отслеживания деталей вывода и обработки ошибок.
📌 GitHub: https://github.com/GuDaStudio/codexmcp
#python
CodexMCP — это мост между Claude Code и Codex, который позволяет им эффективно сотрудничать в программировании. Проект предлагает улучшенные функции, такие как многократные диалоги и параллельные задачи, что делает взаимодействие AI более интеллектуальным и продуктивным.
🚀Основные моменты:
- Поддержка многократных диалогов и параллельного выполнения задач.
- Усовершенствованное управление контекстом с сохранением сессий.
- Интеграция с Claude Code для анализа требований и архитектуры.
- Возможность отслеживания деталей вывода и обработки ошибок.
📌 GitHub: https://github.com/GuDaStudio/codexmcp
#python
👍10🥰5🔥1
- Около 88 % компаний сообщают о регулярном использовании ИИ хотя бы в одной бизнес-функции, но большинство всё ещё остаются на уровне пилотов и экспериментов - без масштабирования на всю организацию и заметного влияния на финальные показатели.
- Компании, которые уже получают значимую выгоду (≈ 6 %), используют ИИ не как инструмент повышения эффективности, а как двигатель роста и инноваций - перестраивают процессы и серьёзно инвестируют в ИИ-компетенции.
"Ожидания респондентов о влиянии ИИ на численность персонала в следующем году расходятся: 32 % ожидают сокращения, 43 % — отсутствие изменений, 13 % - рост."
Мы всё ещё на очень раннем этапе.
https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🔥1
Forwarded from Machinelearning
Андрей Карпаты
Его идея в том, что вместо того, чтобы задавать вопрос одной LLM, вы можете объединить их в «Совет моделей».
LLM Council - это простое локальное веб-приложение, с интерфейсом как у ChatGPT, но с той разницей, что запрос отправляется через Openrouter нескольким LLM. Полученные ответы перекрестно оцениваются и ранжируются, и, наконец, «модель-председатель совета» формирует окончательный ответ.
Более подробно процесс выглядит так:
Запрос отправляется всем моделям по отдельности, и их ответы собираются. Ответы каждой модели отображаются в отдельной вкладке, чтобы можно было их посмотреть вручную.
Каждая модель получает ответы других моделей. При этом идентификаторы анонимизированы, чтобы исключить «игру в любимчиков» при оценке чужих результатов. На этом этапе ответы ранжируются их по точности и глубине анализа.
Модель-председатель принимает все ответы моделей и компилирует их в единый окончательный ответ.
⚠️ Для использования нужен API-ключ OpenRouter.
@ai_machinelearning_big_data
#AI #ML #LLMCouncil #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤3👍3🙈2🫡1
Джеффри Хинтон сообщил Берни Сандерсу, что ИИ может привести к массовой безработице и социальной нестабильности.
Он предупреждает: стремительное развитие ИИ способно не просто изменить работу, а заменить огромные её сегменты. Это может усилить неравенство, когда выгоду получат немногие, а многие потеряют стабильную и значимую занятость.
Если общество не подготовится заранее, такая динамика может дестабилизировать страну и вызвать серьёзные социальные потрясения.
https://www.businessinsider.com/godfather-ai-geoffrey-hinton-warns-not-ready-for-whats-coming-2025-11
Он предупреждает: стремительное развитие ИИ способно не просто изменить работу, а заменить огромные её сегменты. Это может усилить неравенство, когда выгоду получат немногие, а многие потеряют стабильную и значимую занятость.
Если общество не подготовится заранее, такая динамика может дестабилизировать страну и вызвать серьёзные социальные потрясения.
https://www.businessinsider.com/godfather-ai-geoffrey-hinton-warns-not-ready-for-whats-coming-2025-11
💊15👍14💯4❤2🤔2🤣2🥰1
Искусственный интеллект больше не ограничивается лабораториями. LLM уже встроены в бизнес, продукты и инфраструктуру. Но тех, кто умеет их разворачивать, обучать и внедрять — единицы.
🦾 Курс «LLM Driven Development» от OTUS даст вам системное понимание того, как создавать и эксплуатировать AI-продукты. Вы изучите архитектуру трансформеров, тонкости работы с памятью, оптимизацию и fine-tuning моделей. Освоите LangChain, LlamaIndex, vLLM и научитесь строить мультиагентные AI-системы, объединяя модели в цепочки решений.
Научитесь внедрять LLM в реальные сервисы: от прототипа до продакшна. Поймёте, как интегрировать AI в бэкенд, собирать данные, автоматизировать MLOps и управлять жизненным циклом модели.
➡️ Старт курса уже скоро. Оставьте заявку и станьте одним из первых специалистов, кто понимает LLM не на уровне «подключить API», а на уровне архитектуры и инженерии: https://tglink.io/2820b14152aa?erid=2W5zFJoUwjn
#реклама
О рекламодателе
🦾 Курс «LLM Driven Development» от OTUS даст вам системное понимание того, как создавать и эксплуатировать AI-продукты. Вы изучите архитектуру трансформеров, тонкости работы с памятью, оптимизацию и fine-tuning моделей. Освоите LangChain, LlamaIndex, vLLM и научитесь строить мультиагентные AI-системы, объединяя модели в цепочки решений.
Научитесь внедрять LLM в реальные сервисы: от прототипа до продакшна. Поймёте, как интегрировать AI в бэкенд, собирать данные, автоматизировать MLOps и управлять жизненным циклом модели.
➡️ Старт курса уже скоро. Оставьте заявку и станьте одним из первых специалистов, кто понимает LLM не на уровне «подключить API», а на уровне архитектуры и инженерии: https://tglink.io/2820b14152aa?erid=2W5zFJoUwjn
#реклама
О рекламодателе
🤣5❤2👍1