Машинное обучение RU

🌟 MatAnyone: модель для выделения по маске людей на видео.

MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.

MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.

При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.

Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.

В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:

🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);

🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.

⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.

▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py

📌Лицензирование: S-Lab License 1.0.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VideoMatte #MatAnyone

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🔥1🥰1

1.87K views14:19

🔥 Phi-4-multimodal-instruct — это легковесная открытая мультимодальная модель, разработанная Microsoft!

🌟 Она способна обрабатывать текстовые, визуальные и аудио входные данные, генерируя текстовые выходы. Модель поддерживает контекст длиной до 128 тысяч токенов и была улучшена с помощью методов, таких как супервизорное дообучение, прямая оптимизация предпочтений и обучение с подкреплением на основе обратной связи от человека (RLHF), что обеспечивает точное следование инструкциям и повышенные меры безопасности!

🔗 Ссылка: *клик*

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤2👏2

2.34K views07:04

Машинное обучение RU

🔥

Epigram — это открытый и бесплатный новостной агрегатор, использующий искусственный интеллект для предоставления кратких и понятных сводок новостей из надежных источников!

🌟 Платформа позволяет пользователям получать персонализированную ленту новостей, основанную на их интересах, и предоставляет возможность углубленного анализа статей с помощью AI. Интерфейс Epigram интуитивно понятен и адаптирован для использования на различных устройствах, обеспечивая удобный доступ к новостям в любое время и в любом месте.

🔐 Лицензия: AGPL-3.0

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🤬1

2.44K views12:03

Машинное обучение RU

✔ Разбор задач с собеседований по статистике для Дата Саентистов

В современных собеседованиях на позицию Data Scientist кандидатов проверяют не только практические навыки программирования, но и глубокое понимание статистических методов.

В данной статье рассмотрены часто встречающиеся задач, которые могут встретиться на интервью. Разберём каждую задачу с теоретической точки зрения, а также продемонстрируем пример кода на Python.

📌 Читать

@machinelearning_ru

👍6❤2🔥2

2.26K viewsedited 06:09

Машинное обучение RU

🔥

Huginn — это система с открытым исходным кодом для создания агентов, которые выполняют автоматические задачи в интернете от вашего имени!

💡 Эти агенты могут читать веб-страницы, отслеживать события и предпринимать действия на основе заданных условий. Huginn позволяет создавать и настраивать агентов, которые генерируют и потребляют события, распространяя их по направленному графу. Это похоже на настраиваемую версию сервисов, таких как IFTTT или Zapier, но с полным контролем над данными и процессами на вашем собственном сервере.

🔐 Лицензия: MIT

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1😢1

2.02K views12:04

Машинное обучение RU

Forwarded from Machinelearning

✅

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия: Apache 2.0

▪Model: https://huggingface.co/THUDM/CogView4-6B
▪Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
▪Github: https://github.com/THUDM/CogView4
▪Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data

#AI #CogView4 #OpenSource #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3😁3❤1👍1

2.21K views13:09

Машинное обучение RU

Forwarded from Machinelearning

✔️

OpenAI запускает программу NextGenAI.

OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.

Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.

Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com

✔️

Китай планирует запустить новую политику по продвижению архитектуры RISC-V.

Китай разрабатывает новую политику по расширению применения архитектуры микросхем с открытым исходным кодом RISC-V в попытке снизить свою зависимость от западных технологий микросхем.

В настоящее время многие учреждения разрабатывают чипы на базе RISC-V, а компании, например, Qualcomm уже создали специальные подразделения для популяризации этой архитектуры. Ожидается, что политика будет представлена в этом месяце, а RISC-V станет альтернативой архитектурам x86 и ARM.
reuters.com

✔️

Stability AI и Arm: генеративный звук теперь на смартфонах и без интернета.

Stability AI в сотрудничестве с Arm представила возможность генерации высококачественных звуковых эффектов и аудиосэмплов прямо на мобильных устройствах, без необходимости подключения к интернету. Это стало возможным благодаря использованию библиотек Arm KleidiAI и технологии Stable Audio Open от Stability AI.

Так время генерации аудио на ARM-устройствах сократилось в 30 раз, с 240 до 8 секунд на процессорах Armv9. Увидеть демонстрацию работы Stable Audio Open можно будет на выставке MWC в Барселоне 3 марта 2025 года.
stability.ai

✔️

Operator от Opera: AI-агенты в браузере.

Opera анонсировала браузер Operator, который сам выполняет задачи пользователя в интернете. Он содержит встроенный ИИ-агент, способный покупать товары, искать информацию и выполнять другие действия по запросу пользователя. Operator также способен управлять подписками и онлайн-аккаунтами - он найдет все активные подписки и предложит отменить ненужные. Operator может автоматически оплачивать счета и загружать банковские выписки.

В отличие от обычных браузеров, Operator анализирует DOM Tree и структуру страницы, чтобы быстро и эффективно выполнять задачи. Пользователь может видеть весь процесс и контролировать его.
Operator скоро станет доступен в рамках программы Opera Feature Drop.
blogs.opera.com

✔️

Amazon готовится выпустить конкурента GPT-o

Amazon разрабатывает новую модель ризонинга - Nova, которая должна составить конкуренцию OpenAI и Anthropic. Релиз Nova запланирован в июне этого года и будет отличаться высокой производительностью и экономической эффективностью.

Amazon ставит перед собой цель войти в топ-5 лучших ИИ-моделей по результатам внешних оценок, с фокусом в задачах, связанных с разработкой программного обеспечения и математическим мышлением. Разработкой занимается команда AGI под руководством Rohit Prasad.
businessinsider.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🔥1

2.04K views07:04

Машинное обучение RU

Теперь мы можем запустить AGI дома!! 🤯

🔥8🤔2👎1😱1

2.64K views15:05

Машинное обучение RU

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Micro Agent — это инструмент командной строки, который использует возможности искусственного интеллекта для автоматической генерации и исправления кода!

💡 Его основная задача — создавать тесты и писать код, соответствующий этим тестам, обеспечивая разработчикам эффективный и надежный процесс разработки.

🔐 Лицензия: MIT

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.17K views12:03

Машинное обучение RU

Forwarded from Machinelearning

🌟 AMD Instella: открытая языковая модель, обученная на ROCm и оборудовании AMD.

Instella - полностью опенсорсная модель с 3 млрд. параметров, обученная с нуля на GPU AMD Instinct MI300X. Instella не только превосходит существующие LLM сопоставимого размера, но и показывает конкурентоспособную производительность по сравнению с Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.

Разработка Instella основана на опыте AMD с OLMo, на которой была доказана возможность обучения LLM на стеке AMD. В процессе создания Instella прошлые наработки были масштабированы для создания модели с 3 млрд. параметров. Она обучалась на 128 GPU MI300X с использованием 4,15 трлн. токенов. В процессе применялись методы FlashAttention-2, Torch Compile и FSDP с гибридным шардированием.

Процесс обучения Instella состоял из 4-х этапов, постепенно наращивая возможности модели от базового понимания естественного языка до следования инструкциям и соответствия предпочтениям человека.

Первый этап претрейна задействовал 4 трлн. токенов из набора данных OLMoE-mix-0924 (код, академические тексты, математика и общие знания). Второй этап - 57 млрд. токенов из датасетов Dolmino-Mix-1124 и SmolLM-Corpus (python-edu).

На третьем этапе проводилась SFT модели с использованием 8,9 млрд. токенов текстовых пар "инструкция-ответ". Наконец, для приведения модели в соответствие с предпочтениями человека был выполнен четвертый этап - DPO модели Instella-3B-SFT с использованием 0,76 млрд токенов.

Instella получила 36 слоев, каждый из которых имеет 32 attention heads и поддерживает длину последовательности до 4096 токенов.

Финальный вариант Instella-3B превосходит существующие открытые модели в среднем на 8,08%.

▶️ Состав релиза:

🟢

Instella-3B-Stage1 - претрейн-чекпоинт после первого этапа обучения;

🟢

Instella-3B - чекпоинт после второго этапа;

🟢

Instella-3B-SFT - версия модели после SFT;

🟢

Instella-3B-Instruct - финальная версия после DPO;

🟠

Instella-GSM8K-synthetic - датасет, использованный на 2 этапе обучения;

🟠

Код для трейна и инференса

📌 Лицензирование: ReasearchRAIL License.

🟡

Статья

🟡

Коллекция на HF

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RoCM #AMD #Instella

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

1.65K views09:08

Машинное обучение RU

⚡️ PyTorch Tutorials

Pytorch плейлист с уроками, посвящённый нейронным сетям и основам глубокого обучения.

В серии видео автор наглядно демонстрирует, как работают нейронные сети, объясняет принципы алгоритмов обратного распространения ошибки и градиентного спуска, а также рассказывает о математических основах, лежащих в основе современных систем искусственного интеллекта.

Благодаря визуализациям и интуитивному подходу материал становится доступным как для новичков, так и для тех, кто хочет углубиться в тему машинного обучения.

▪ Видео

❤9👎2👍1🤬1

2.1K views08:03

Машинное обучение RU

Forwarded from Machinelearning

📌LADDER: как научить LLM решать сложные задачи без учителя.

Tufa Labs опубликовала пейпер фреймворка LADDER, который дает возможность языковым моделям самостоятельно улучшать навыки решения сложных задач.

Технология имитирует человеческое обучение: ИИ разбивает проблемы на простые шаги, создаёт «учебный план» из упрощённых вариантов и постепенно наращивает мастерство решения. Например, модель Llama 3.2 с 3 млрд. параметров, изначально решавшая лишь 1% интегралов студенческого уровня, после обучения по методу LADDER достигла 82% точности.

Самые интересные результаты LADDER показал на тесте MIT Integration Bee — ежегодном соревновании по интегральному исчислению. На нем модель Qwen2.5 (7B), доработанная с помощью LADDER, набрала 73%, обойдя GPT-4o (42%) и большинство студентов, а с применением TTRL — результат вырос до 90%. Это превзошло даже показатели OpenAI o1, хотя последний не использовал числовую проверку решений.

TTRL (Test-Time Reinforcement Learning) — это метод «микрообучения», который позволяет языковым моделям адаптироваться к сложным задачам прямо во время их решения.

В основе LADDER - принцип рекурсивной декомпозиции: модель разбивает непосильную задачу на цепочку постепенно усложняющихся шагов, создавая собственную «учебную программу». Столкнувшись со сложным интегралом, ИИ генерирует его упрощённые версии — снижает степень полинома, убирает дробные коэффициенты или заменяет составные функции базовыми. Каждый такой вариант становится ступенью, ведущей к решению целевой задачи.

Работа фреймворка делится на три этапа:

Первый — генерация «дерева вариантов»: модель создаёт десятки модификаций задачи, ранжируя их по сложности.

Второй — верификация: каждое решение проверяется численными методами (например, сравнение значений интеграла в ключевых точках).

Третий — обучение с подкреплением: система поощряет успешные стратегии, используя баллы за правильные ответы и штрафуя за ошибки.

Дополняющее применение TTRL позволяет проводить «экспресс-тренировки» прямо во время теста: ИИ генерирует варианты конкретной задачи и адаптируется к ней за секунды, не требуя вмешательства человека.

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #RL #LADDER #Paper

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2❤1👏1

1.8K views10:29

About

Blog

Apps

Platform