This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 — новая линейка визуальных моделей в open source
⚡️ Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.
➡️ Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
🔘 Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].
➡️ Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
➡️ Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
🔘 Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].
➡️ K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥3😱3😁1
🤖 Google представила Nested Learning — новую парадигму ИИ, которая учится как человек и не забывает прошлые знания
Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.
Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.
Это позволяет модели:
- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает
Что это даёт?
1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.
2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.
3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.
📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning
#google
Google предлагает новый подход: Nested Learning - *вложенное обучение*, при котором новая информация интегрируется в уже существующую структуру знаний, а не замещает её.
Как это работает?
Каждое новое обучение добавляется внутрь уже выученного, как слой внутри слоя.
Это позволяет модели:
- сохранять предыдущие навыки
- адаптироваться к новым задачам
- отличать, в каком контексте она работает
Что это даёт?
1. Постоянное обучение без потерь
Модель может учиться бесконечно, не забывая старое. Новые знания не затирают прежние.
2. Контекстное понимание
ИИ понимает, *в каком режиме* он работает — это делает поведение гибче и разумнее.
3. Ближе к человеческому мышлению
Nested Learning приближает нейросети к человеческому типу обучения: поэтапному, постепенному и адаптивному.
📌 Подробнее: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning
🔥12🥰1
Когда data-pipelines рушатся, а BI не обновился к утру, виноваты обычно не модели — а инфраструктура.
Сломанный пайплайн, несвоевременное обновление данных или внезапное изменение схемы — каждый ML-инженер сталкивался с ситуацией, когда вместо улучшения моделей приходится разбираться с проблемами в данных.
Для таких моментов создали бота-генератор оправданий. Он предлагает стильные объяснения для случаев, когда:
— данные для обучения застряли в очередях
— фичи оказались несогласованными
— мониторинг моделей показывает аномалии
А если всё ещё дебажите ETL в проде — загляните в Telegram-бота. Протестируйте разные варианты оправданий и делитесь самыми точными с командой — это поможет взглянуть на проблему под новым углом и найти нестандартное решение.
Сломанный пайплайн, несвоевременное обновление данных или внезапное изменение схемы — каждый ML-инженер сталкивался с ситуацией, когда вместо улучшения моделей приходится разбираться с проблемами в данных.
Для таких моментов создали бота-генератор оправданий. Он предлагает стильные объяснения для случаев, когда:
— данные для обучения застряли в очередях
— фичи оказались несогласованными
— мониторинг моделей показывает аномалии
А если всё ещё дебажите ETL в проде — загляните в Telegram-бота. Протестируйте разные варианты оправданий и делитесь самыми точными с командой — это поможет взглянуть на проблему под новым углом и найти нестандартное решение.
😁11
🌍🗣️ Omnilingual ASR: Многоязычное распознавание речи для 1600+ языков
Omnilingual ASR — это открытая система распознавания речи, поддерживающая более 1,600 языков, включая редкие. Она позволяет добавлять новые языки с минимальными примерами, делая технологии распознавания более доступными и инклюзивными для различных сообществ.
🚀Основные моменты:
- Поддержка более 1,600 языков, включая уникальные.
- Простота добавления новых языков без больших наборов данных.
- Использует нулевое обучение и гибкие модели для адаптации.
- Доступен на Hugging Face для демонстрации и использования.
📌 GitHub: https://github.com/facebookresearch/omnilingual-asr
#python
Omnilingual ASR — это открытая система распознавания речи, поддерживающая более 1,600 языков, включая редкие. Она позволяет добавлять новые языки с минимальными примерами, делая технологии распознавания более доступными и инклюзивными для различных сообществ.
🚀Основные моменты:
- Поддержка более 1,600 языков, включая уникальные.
- Простота добавления новых языков без больших наборов данных.
- Использует нулевое обучение и гибкие модели для адаптации.
- Доступен на Hugging Face для демонстрации и использования.
📌 GitHub: https://github.com/facebookresearch/omnilingual-asr
#python
GitHub
GitHub - facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages
Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages - facebookresearch/omnilingual-asr
😁5👍2🔥2🥰1
🍌Nano Banan хороша!
Промпт: "Make an infographic that explains how the transformer LLM works"
https://aistudio.google.com/
Промпт: "Make an infographic that explains how the transformer LLM works"
https://aistudio.google.com/
👍19🔥12🍌3❤2
ГигаЧат представил обновлённое семейство GigaAM-v3
Giga Acoustic Model — это класс open-source моделей для обработки речи и эмоций. В третьей версии опубликовали базовый аудиоэнкодер GigaAM-v3, улучшенные CTC и RNNT-модели, а также E2E-распознавание с поддержкой пунктуации и нормализации.
Масштаб предобучения значительно вырос: с 50 до 700 тысяч часов аудио на русском языке. Появились новые домены в обучении ASR — от колл-центров до разговорной речи.
Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio. Линейка CTC/RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии.
Что по метрикам:
— Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
— Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
— Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет
— Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice)
Больше про язык, речь и искусственный интеллект в @gigadev_channel. Подписывайтесь на канал, чтобы не пропустить всё самое интересное!
Giga Acoustic Model — это класс open-source моделей для обработки речи и эмоций. В третьей версии опубликовали базовый аудиоэнкодер GigaAM-v3, улучшенные CTC и RNNT-модели, а также E2E-распознавание с поддержкой пунктуации и нормализации.
Масштаб предобучения значительно вырос: с 50 до 700 тысяч часов аудио на русском языке. Появились новые домены в обучении ASR — от колл-центров до разговорной речи.
Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio. Линейка CTC/RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии.
Что по метрикам:
— Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
— Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
— Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет
— Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice)
Больше про язык, речь и искусственный интеллект в @gigadev_channel. Подписывайтесь на канал, чтобы не пропустить всё самое интересное!
👍11🔥5
🌉🤖 CodexMCP: Интеграция Claude Code и Codex
CodexMCP — это мост между Claude Code и Codex, который позволяет им эффективно сотрудничать в программировании. Проект предлагает улучшенные функции, такие как многократные диалоги и параллельные задачи, что делает взаимодействие AI более интеллектуальным и продуктивным.
🚀Основные моменты:
- Поддержка многократных диалогов и параллельного выполнения задач.
- Усовершенствованное управление контекстом с сохранением сессий.
- Интеграция с Claude Code для анализа требований и архитектуры.
- Возможность отслеживания деталей вывода и обработки ошибок.
📌 GitHub: https://github.com/GuDaStudio/codexmcp
#python
CodexMCP — это мост между Claude Code и Codex, который позволяет им эффективно сотрудничать в программировании. Проект предлагает улучшенные функции, такие как многократные диалоги и параллельные задачи, что делает взаимодействие AI более интеллектуальным и продуктивным.
🚀Основные моменты:
- Поддержка многократных диалогов и параллельного выполнения задач.
- Усовершенствованное управление контекстом с сохранением сессий.
- Интеграция с Claude Code для анализа требований и архитектуры.
- Возможность отслеживания деталей вывода и обработки ошибок.
📌 GitHub: https://github.com/GuDaStudio/codexmcp
#python
👍9🥰5🔥1
- Около 88 % компаний сообщают о регулярном использовании ИИ хотя бы в одной бизнес-функции, но большинство всё ещё остаются на уровне пилотов и экспериментов - без масштабирования на всю организацию и заметного влияния на финальные показатели.
- Компании, которые уже получают значимую выгоду (≈ 6 %), используют ИИ не как инструмент повышения эффективности, а как двигатель роста и инноваций - перестраивают процессы и серьёзно инвестируют в ИИ-компетенции.
"Ожидания респондентов о влиянии ИИ на численность персонала в следующем году расходятся: 32 % ожидают сокращения, 43 % — отсутствие изменений, 13 % - рост."
Мы всё ещё на очень раннем этапе.
https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai#/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1🔥1
Forwarded from Machinelearning
Андрей Карпаты
Его идея в том, что вместо того, чтобы задавать вопрос одной LLM, вы можете объединить их в «Совет моделей».
LLM Council - это простое локальное веб-приложение, с интерфейсом как у ChatGPT, но с той разницей, что запрос отправляется через Openrouter нескольким LLM. Полученные ответы перекрестно оцениваются и ранжируются, и, наконец, «модель-председатель совета» формирует окончательный ответ.
Более подробно процесс выглядит так:
Запрос отправляется всем моделям по отдельности, и их ответы собираются. Ответы каждой модели отображаются в отдельной вкладке, чтобы можно было их посмотреть вручную.
Каждая модель получает ответы других моделей. При этом идентификаторы анонимизированы, чтобы исключить «игру в любимчиков» при оценке чужих результатов. На этом этапе ответы ранжируются их по точности и глубине анализа.
Модель-председатель принимает все ответы моделей и компилирует их в единый окончательный ответ.
⚠️ Для использования нужен API-ключ OpenRouter.
@ai_machinelearning_big_data
#AI #ML #LLMCouncil #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍2🙈2❤1
Джеффри Хинтон сообщил Берни Сандерсу, что ИИ может привести к массовой безработице и социальной нестабильности.
Он предупреждает: стремительное развитие ИИ способно не просто изменить работу, а заменить огромные её сегменты. Это может усилить неравенство, когда выгоду получат немногие, а многие потеряют стабильную и значимую занятость.
Если общество не подготовится заранее, такая динамика может дестабилизировать страну и вызвать серьёзные социальные потрясения.
https://www.businessinsider.com/godfather-ai-geoffrey-hinton-warns-not-ready-for-whats-coming-2025-11
Он предупреждает: стремительное развитие ИИ способно не просто изменить работу, а заменить огромные её сегменты. Это может усилить неравенство, когда выгоду получат немногие, а многие потеряют стабильную и значимую занятость.
Если общество не подготовится заранее, такая динамика может дестабилизировать страну и вызвать серьёзные социальные потрясения.
https://www.businessinsider.com/godfather-ai-geoffrey-hinton-warns-not-ready-for-whats-coming-2025-11
👍12💊11💯4🤔2❤1🥰1🤣1