Машинное обучение digest
50 subscribers
1.53K photos
205 videos
799 links
Download Telegram
🤖 Reachy Mini — первый полностью открытый и доступный робот от Hugging face

Reachy Mini — это выразительный и полностью open-source робот, созданный для взаимодействия с человеком, коммуникации и экспериментов с ИИ.

🧠 Что делает его особенным?
- Все ПО открыто и написано на Python, а скоро будет достнуо — и на JavaScript и Scratch
- Стоимость от $299
- Открытая архитектура и SDK — идеален для экспериментов с LLM, аудио- и визуальными агентами

С ним можно разрабатывать, тестировать, запускать и делиться реальными ИИ-приложениями — на базе современных LLM-моделей.

Технические характеристики

- Высота: 28 см, в режиме сна — 23 см
- Ширина: 16 см, вес: 1.5 кг
- Поставляется в виде конструктора:
- Lite-версия — базовый функционал
- Полноценная версия — с батареей, Wi-Fi и встроенным компьютером

🔗 Подробнее: http://hf.co/blog/reachy-mini

@ai_machinelearning_big_data

#huggingface #Reachy #opensource #Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔅 Vibe Kanban — оркестрация AI-кодеров в одном окне

Позволяет можно запускать и управлять сразу несколькими AI-агентами для кодинга: Claude Code, Gemini CLI, Codex — всё в одном дашборде.

▶️Что умеет:
- параллельный запуск агентов
- визуальный трекинг задач
- переключение между моделями на лету
— встроенный review и контроль над результатами
— backend на Rust, frontend на React, всё разворачивается локально
Полностью open-source

🟡 Репозиторий: https://github.com/BloopAI/vibe-kanban
🟡Документация: https://www.vibekanban.com/


@ai_machinelearning_big_data

#ai #aiagent #opensource #Claude #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft снова доказывает силу синтетических данных для задач компьютерного зрения!

Современные модели компьютерного зрения с фокусом на человека (Human-centric CV) требуют миллиардов параметров, гигантских датасетов и дорогостоящего инференса. Но можно ли добиться такой же точности, не тратя миллионы?

Исследователи показали: модели можно обучать только на синтетических данных высокого качества — и при этом достигать тех же результатов.

Microsoft представили DAViD — open-source фреймворк, позволяющий создавать цифровых людей с точной геометрией лиц и текстурами.

Проект демонстрирует, как можно использовать синтетические датасеты для:

🟠 Предсказания глубины изображения (Depth Prediction)
🟠 Оценки поверхностей (Normal Estimation)
🟠 Сегментации фона и людей на фото/видео (Background & Human Segmentation)

Почему это круто:
🟢 Синтетические данные = пиксельная точность разметки
🟢 Почти бесконечное разнообразие сцен, ракурсов, освещения и поз
🟢 Прекрасно масштабируются для обучения моделей с нуля или дообучения

Самое приятное, что Microsoft выложили всё в опенсорс:
✔️ 300 000 сэмплов
✔️ Предобученные модели
✔️ Исходный код фреймворка

🟢Проект: https://microsoft.github.io/DAViD/
🟢Статья: https://arxiv.org/abs/2507.15365
🟢Github: https://github.com/microsoft/DAViD

@ai_machinelearning_big_data

Если ты работаешь с human-centric CV — это мощный старт. Даже без реальных данных.

#cv #microsoft #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Qwen3-30B-A3B — маленькое обновление, большое ускорение

Что нового:
Улучшены навыки рассуждений, программирования и математики
Расширенные знания на разных языках
Понимает контексты до 256 000 токенов
Точнее выполняет команды
Для этой модель Qweb полностью отказались от <think> — теперь только быстрый "non-thinking" режим

⚙️ С 3B активных параметров Qwen3-30B-A3B уже приближается к уровню GPT-4o и Qwen3-235B-A22B NT, при этом модель доступна для локального запуска.


🟡Попробовать https://chat.qwen.ai/?model=Qwen3-30B-A3B-2507
🟡HF: https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8
🟡ModelScope: https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

@ai_machinelearning_big_data

#AI #ML #qwen #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Новые модели OpenAI нашли в релизе Transformers 4.55

GPT-OSS — долгожданysq опенсорс для продвинутого reasoning и агентных задач.

🧠 Представленно два варианта:
GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
GPT-OSS-20B — 21B параметров, работает на 16GB GPU (или даже локально!)

💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4), что обеспечивает быстрое и дешёвое инференс-время (активны только 3.6B и 5.1B параметров).

✔️ Особенности:
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Чередуются full-attn и sliding-window слои
• Модель хорошо работает с CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
• Открытая лицензия Apache 2.0 (есть небольшое policy-дополнение)

Младшая модель может запускаться даже на локальном железе — идеально для on-device и edge-сценариев.

📎 Пример кода инференса уже доступен — достаточно 16GB GPU с mxfp4!

🏴‍☠️Лицензирование: Apache 2.0

https://github.com/huggingface/transformers/releases/tag/v4.55.0

@ai_machinelearning_big_data


#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 — ловите еще один апдейт от Qwen: LLM с поддержкой 256K контекста

🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов

🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ

Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами


🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

@ai_machinelearning_big_data

#AI #ML #qwen #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выложила в открытый доступ Hunyuan-GameCraft — инструмент для генерации интерактивных игровых видео с высокой реалистичностью.

Что это значит:
• Из одной картинки сцены и команд пользователя (клавиатура, мышь) создаётся полноценное игровое видео от первого или третьего лица.
• Движения плавные и точные: можно контролировать скорость, угол поворота и строить сложные траектории, а не только примитивную анимацию.
• Среда тоже живая — облака, дождь, снег, вода и другие эффекты генерируются динамически.
• Картинка остаётся чёткой даже при резких перемещениях — сохраняется информация о сцене.
• Работает быстро и дёшево: за счёт оптимизаций и квантования 13B-модель тянет даже RTX 4090, без дорогого рендера и сложного 3D-моделирования.

Построен на базе HunyuanVideo.

🟠Project Page: https://hunyuan-gamecraft.github.io
🟠Code: https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
🟠Technical Report: https://arxiv.org/abs/2506.17201
🟠Hugging Face: https://huggingface.co/tencent/Hunyuan-GameCraft-1.0

#AI #GameDev #VideoGeneration #HunyuanVideo #OpenSource #Tencent #GamingAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Бесплатная книга от инженера Google — Agentic Design Patterns

400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.

📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом

По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.

📚 Читать

@ai_machinelearning_big_data


#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳 А вот и обновленная DeepSeek-V3.1-Terminus

Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.

Доступна в приложении и в веб-версии и через API.

🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

@ai_machinelearning_big_data


#DeepSeek #opensource #llm
🚀 День релизов: Qwen выпустили Qwen3-Omni — первый нативный end-to-end *omni-modal AI*

Модель обрабатывает текст, изображения, аудио и видео в одной модели.

На бенчмарках выглядит так, как будто все модальности работают одинаково качественно.

⚡️ Особенности
- Первое место на 22 из 36 аудио- и мультимодальных бенчмарков
- Поддержка: 119 языков текста,
- Минимальная задержка — 211 мс
- Обработка аудио до 30 минут длиной
- ПОзволяет гибко настраивать через системные промпты
- Встроенный tool calling

🌟 Open-source релизы
Компания выложила три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner

👉 Попробовать можно здесь:
💬 Chat: https://chat.qwen.ai/?models=qwen3-omni-flash
💻 GitHub: https://github.com/QwenLM/Qwen3-Omni
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 Demo: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

@ai_machinelearning_big_data


#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM