Forwarded from Machinelearning
Архитектура YOLO (You Only Look Once) получила своё название благодаря подходу, при котором нейронная сеть анализирует всё изображение целиком за один проход, чтобы определить присутствие и расположение объектов. Это отличается от других методов, которые сначала выделяют потенциальные области с объектами, а затем отдельно классифицируют их, что требует нескольких обработок одного изображения
YOLOE сохраняет принцип однократного взгляда на изображение для детекции объектов, но вносит архитектурные улучшения, направленные на повышение точности и эффективности модели.
▪ Ключевые отличия от классического YOLO:
- Оптимизированная архитектура: В YOLOE внедрены новые подходы для более эффективной обработки признаков, что позволяет улучшить качество детекции без значительного увеличения вычислительных затрат.
- Повышенная точность: Улучшенные модули и методы, такие как ре-параметризация отдельных блоков, способствуют более точному обнаружению объектов, включая мелкие и сложно различимые элементы.
- Скорость и эффективность: YOLOE сохраняет высокую скорость инференса, делая его пригодным для задач в реальном времени, при этом обеспечивая конкурентоспособное соотношение производительности и точности.
YOLOE представляет собой современное и улучшенное решение для задач детекции объектов, совмещающее лучшие стороны классического YOLO с новыми архитектурными подходами.
#yoloe #opensource #ml #ai #yolo #objectdetection
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Forwarded from Machinelearning
Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.
▪ Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
▪ Практика: Примеры кода на Python и C++ для управления роботами.
▪Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
▪Задания: Реальные практические задачи (например, управление манипулятором робота).
▪ Начинающие робототехники: Освоить кинематику, динамику, управление.
▪ Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
▪ Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
▪Технологические энтузиасты
С курсом можно пройти путь от нуля до создания рабочего прототипа.
С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).
P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡
#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Интерфейс, похожна стандартные среды RL (например, OpenAI Gym/Gymnasium), но адаптированный для игры Pokémon Red/Blue.
Если хотите позалипать на выходных и попробовать различные RL-алгоритмы для обучения Ai игре в покемонов.
В основе лежит эмулятор Game Boy, реализованный на Python — библиотека pyboy.
Основная цель — создать и обучить ИИ-агентов, способных самостоятельно играть в Pokémon: исследовать мир, ловить покемонов, тренировать их, сражаться с другими тренерами и проходить игру.
Игроку любителю потребуется ~400 шагов, чтобы поймать первого покемона, Клоду 3.7 понадобилось ~450 🤗
🔗 Github
@ai_machinelearning_big_data
#AIagents #ml #ai #opengym
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Function (fxn) — фреймворк, который компилирует Python-функции в нативный код с производительностью, сравнимой с Rust.
🧠 Как это работает?
- Использует символическое трассирование на CPython для анализа функций
- Генерирует промежуточное представление (IR)
- Транслирует IR в C++ или Rust, а затем компилирует в бинарный код
- Поддерживает платформы: Linux, Android, WebAssembly и др.
📦 Пример:
@compile
def fma(x: float, y: float, z: float) -> float:
return x * y + z
После компиляции вы получаете нативный бинарник, который можно запускать без интерпретатора Python.
🔗 Подробнее
🔗 Github
@pro_python_code
#Python #Rust #fxn #Compiler #Performance #AI #ML #Wasm
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥3
Forwarded from Machinelearning
Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio — это 3 компонента:
Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты).
В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
@ai_machinelearning_big_data
#AI #ML #KimiAudio #MoonshotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2
Forwarded from Machinelearning
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2