376K subscribers
4.51K photos
885 videos
17 files
4.95K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent

🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности.
🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet.
🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass.

📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях.

🟢Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand
🟢 Блог: https://vision.hunyuan.tencent.com
🟢API: https://cloud.tencent.com/document/product/1729/104753

@ai_machinelearning_big_data


#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4515🔥13🥱1
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени


Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.

А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀

Возможности:

🟢25 кадров/с в реальном времени
🟢Генерирует минуты непрерывного геймплея
🟢Полная интерактивность: движение, повороты, исследование мира

Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.

Зачем это нужно:
🟠Создание игровых движков
🟠Тренировка AI-агентов
🟠Создание виртуальных персонажей

Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).

Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени

🟡Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io

@ai_machinelearning_big_data

#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥89👍3125🥱5😐4
Media is too big
VIEW IN TELEGRAM
🎧 Perch 2.0 — AI, который слушает природу и спасает вымирающие виды.

DeepMind выпустили Perch 2.0 — компактную supervised-модель для биоакустики.

Без миллиардов параметров, без сложного self-supervised обучения — просто аккуратная модель, которая побила все бенчмарки и уже работает в полевых исследованиях.

🌱 Почему это важно
Звуки природы — это источник данных о биоразнообразии.
По аудиозаписям можно понять:
- какие животные живут в лесу,
- сколько их,
- размножаются ли они,
- не вытесняются ли они человеком.

Но расшифровка аудио — адский труд: в одном часе записи из тропиков десятки накладывающихся голосов.

🐦 Что умеет Perch 2.0
Perch 2.0 — универсальный эмбеддер для звуков животных.
Берёт 5 секунд аудио → выдаёт вектор, с которым можно:
- находить похожие записи,
- кластеризовать звуки,
- обучать простой классификатор для новых видов (few-shot).

Работает без GPU и без дообучения.

🛠 Архитектура
- Основa: EfficientNet-B3 (12M параметров).
- Три головы:
1. Классификация ~15k видов.
2. Прототипная — создаёт семантические логиты для distillation.
3. Source prediction — угадывает источник записи.
- Обучение в два шага:
1. Прототипная голова учится сама.
2. Её логиты становятся soft-label’ами для основной (**self-distillation**).

📊 Результаты
- SOTA на BirdSet и BEANS (ROC-AUC, mAP).
- Отличная переносимость на морских данных (киты, дельфины), которых почти не было в тренировке.
- Всё это — без fine-tuning, только фиксированные эмбеддинги.

Главный вывод
Perch 2.0 показывает, что:
🟢 качественная разметка,
🟢 простая архитектура,
🟢 чёткая постановка задачи
могут быть важнее, чем «бесконечные параметры» и сложные LLM.

🌍 Что это меняет
- Биологам — быстрый анализ джунглей Бразилии или рифов без написания своих моделей.
- ML-инженерам — наглядный пример, как обучать компактные сети без потери качества.
- Исследователям — напоминание: не всегда нужен GPT-4, чтобы сделать полезный инструмент.

🟠Github: https://github.com/google-research/perch-hoplite
🟠Подробнее: https://deepmind.google/discover/blog/how-ai-is-helping-advance-the-science-of-bioacoustics-to-save-endangered-species/
🟠Статья: http://arxiv.org/abs/2508.04665

@ai_machinelearning_big_data


#DeepMind #AI #Bioacoustics #MachineLearning #Perch #Ecology
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8846🔥25❤‍🔥5
🎙️ NVIDIA выпустили Canary-1B v2 — открытую модель для распознавания и перевода речи, которая работает с 25 европейскими языками.

Что она умеет:
- 📝 Точное ASR (распознавание речи) и AST (перевод речи) между английским и 24 другими языками.
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.

Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.

Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы: .wav и .flac, моно 16 кГц.
- Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.

Где пригодится:
🟢 голосовые ассистенты
🟢 субтитры и перевод видео
🟢 чат-боты с речевым вводом
🟢 real-time анализ речи

Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.

🟠 Попробовать можно здесь: https://huggingface.co/nvidia/canary-1b-v2
🟠SET: https://huggingface.co/datasets/nvidia/Granary
🟠PARAKEET: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

@ai_machinelearning_big_data


#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍88🔥39162