Машинное обучение digest

Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.

Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀

1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах <thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги <reflection> в разделе <thinking>, чтобы сигнализировать об этом и попытаться исправить себя.
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах <output>.

Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей

🤗 Доступна на HF

📚 Набор данных и отчет об обучении будут готовы на следующей неделе.

Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

@ai_machinelearning_big_data

#llama #opensource #llm

4 views10:56

💻

Свежайщая Бесплатня книга "Introduction to Machine Learning"

Внутри множество важных тем. - оптимизация с серьёзными математическими выкладками,
- разборах метода главных компонент (PCA) с детальным анализом.

Так же внутри основные темы, такие как линейные модели и деревья решений, также освещены. Это отличное пособие для тех, кто хочет изучить как основы, так и более сложные аспекты машинного обучения.

📚 Книга

Please open Telegram to view this post

VIEW IN TELEGRAM

4 views11:32

Машинное обучение digest

🌟 MAPF-GPT: Имитационное обучение для многоагентного поиска путей.

MAPF-GPT - это метод решения задачи планирования движения агентов (MAPF) с помощью обучения с подкреплением. Он включает в себя четыре основных этапа: создание сценариев MAPF, генерацию решений, токенизацию решений и выполнение основного цикла обучения.

Практическая ценность MAPF-GPT - его способность решать задачи многоагентного планирования маршрутов в децентрализованном режиме, без необходимости в дополнительных модулях коммуникации или планирования.

Эти способности делают MAPF-GPT перспективным решением для реальных секторов: склады и логистические центры, транспортные системы, железнодорожная диспетчеризация и другие сферы, где требуется координация движения множества агентов в общем пространстве.

Для создания сценариев MAPF используется инструмент POGEMA (Probabilistic Obstacle Generation and Environment Modeling Algorithm), который позволяет генерировать карты с препятствиями и создавать экземпляры задачи MAPF. Для обучения моделей было создано 3,75 миллиона экземпляров задачи MAPF на картах размером от 17x17 до 21x21 с 16, 24 или 32 агентами.

За генерацию решений отвечает алгоритм La-CAM (Learning-based Constraint Acquisition and Modeling), - один из лучших решателей задачи MAPF. Алгоритм генерирует планы движения для каждого агента, которые затем используются для создания пар "наблюдение-действие".

Токенизация решений преобразует пары "наблюдение-действие" в последовательность специальных символов, которые затем используются для обучения модели. Модель состоит из 256 токенов, которые кодируют местное наблюдение агента. Первая часть наблюдения включает в себя информацию о карте в окрестности агента, а вторая часть включает в себя информацию об агенте и ближайших агентах.

Всего в словаре используется 67 различных токенов, включая токены для числовых значений (стоимость пути), и токены для буквальных значений (действия).
Диапазон числовых значений составляет [-20. .. 20], в соответствии с размерами карт, используемых в наборе данных для обучения.

Командой разработки метода представлены 3 модели:

🟢

MAPF-GPT-2M. 2 млн. параметров, время обучения 12 часов, самая компактная и эффективная по ресурсам. Подходит для простых задач;

🟢

MAPF-GPT-6M. 6 млн. параметров, время обучения - 50 часов, баланс между точностью и производительностью;

🟢

MAPF-GPT-85M. 85 млн. параметров, время обучения - 85 часов, самая крупная и лучшая по качеству решений модель в наборе.

📌Лицензирование : MIT License.

🟡

Arxiv

🟡

Набор моделей

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MAPF #MIPT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4 views14:14

Машинное обучение digest

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 OpenVLA: Open-Source Vision-Language-Action модели.

OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.

OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

🟢

openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟢

openvla-7b-finetuned-libero-spatial - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO;

🟢

openvla-7b-finetuned-libero-object - файнтюн с помощью LoRA на датасете LIBERO-Object;

🟢

openvla/openvla-7b-finetuned-libero-10 - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

▶️Установка :

# Create venv 
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation

📌Лицензирование : MIT License.

🟡

Страница проекта

🟡

Arxiv

🟡

Набор моделей

🖥

Github

@ai_machinelearning_big_data

#AI #ML #OpetVLA #Robotics

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views07:19

Машинное обучение digest

Новостной дайджест

✔️

Groq запустила LLaVA v1.5 7B, мультимодальную модель, которая работает в 4 раза быстрее, чем GPT-4o от OpenAI.

LLaVA v1.5 7B может отвечать на вопросы по изображениям, генерировать подписи и вступать в диалог с использованием текста, голоса и картинок.
Это первый опыт Groq с мультимодальными моделями, и более высокая скорость инференса в задачах с изображениями, аудио и текста может привести к созданию более совершенных ассистентов ИИ.
Groq предлагает эту модель бесплатно в режиме "Preview Mode" для разработчиков.
groq.com

✔️

Deep Seek-V2.5: open-source модель, сочетающая функции чата и понимание кода.

DeepSeek выпустила DeepSeek-V2.5, мердж своих моделей DeepSeek-V2-Chat и DeepSeek-Coder-V2.
DeepSeek-V2.5 унаследовала способности от оригинальных моделей к общению и работе с кодом и улучшила производительность в задачах написания текстов и следования инструкциям за счет более точного следования предпочтениям человека.

Модель показала высокие результаты в нескольких бенчмарках, особенно в тестах на китайском и английском языках.

в DeepSeek-V2.5 были сделаны улучшения в области безопасности и генерации кода: уменьшено влияние политик безопасности на обычные вопросы и на 5,1 % улучшен результат в заданиях на завершение кода.
Модель доступна онлайн и на HuggingFace.
platform.deepseek.com

✔️

vLLM v0.6.0: 2,7-кратное повышение пропускной способности и 5-кратное сокращение задержки.

vLLM выпустила новую версию v0.6.0, которая значительно быстрее и эффективней по сравнению с предыдущей версией.
Это достигнуто благодаря серии оптимизаций: разделение API-сервера и движка инференса, пакетная планировка нескольких потоков вывода одновременно и асинхронная обработка инференса.
blog.vllm.ai

✔️

Релиз фреймворка SGLang v0.3: 7-кратное ускорение DeepSeek MLA, 1,5-кратное ускорение torch.compile, поддержка LLaVA-OneVision.

SGLang - это фреймворк для LLM и VLM. Он делает взаимодействие с моделями быстрым и контролируемым за счет совместной разработки бэкэндной среды и фронтэнда.

В версии SGLang v0.3 получил поддержку оптимизаций для MLA: поглощение весов, групповые ядра декодирования, FP8 batched MatMul и FP8 KV cache quantization.

Вторым важным обновлением является интеграция torch.compile для линейных/нормальных/активационных слоев и объединение его FlashInfer attention и sampling kernels.
Torch.compile включен для размеров пакетов от 1 до 32 и поддерживает непрерывную пакетную обработку, а так же RadixAttention для кэширования префиксов.
lmsys.org

✔️

Chatbot Arena, на которую опирается AI-сообщество, не самый лучший бенчмарк.

Бенчмарк, созданный LMSYS, стал популярным инструментом для сравнения производительности различных моделей ИИ, но его методология вызывает вопросы о репрезентативности и объективности результатов.

Основная проблема Chatbot Arena заключается в том, что он полагается на субъективные оценки пользователей, которые могут предпочитать определенный стиль ответов или не замечать галлюцинации модели.

LMSYS пытается смягчить эти предубеждения, используя автоматизированные системы оценки, такие как MT-Bench and Arena-Hard-Auto, которые используют модели OpenAI GPT-4 и GPT-4 Turbo для ранжирования качества ответов. Однако, эффективность этих систем в полной мере не доказана.

Растущие коммерческие связи LMSYS и спонсорство от венчурных фирм, инвестирующих в некоторые из тестируемых моделей, также вызывают вопросы о беспристрастности платформы.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

4 views11:17

Машинное обучение digest

🌟 LLaVaOLMBitNet1B: первая тернарная мультимодальная LLM от IntelLabs.

LLaVaOLMoBitnet1B - мультимодальная модель, способная принимать в качестве входных данных изображение + текст (запрос) и отдавать согласованные текстовые ответы на выходе.

Архитектура модели состоит из 3-х частей:

🟢CLIP ViT-L/14 на 100М параметров, состоящий из 24 слоев с размером скрытого слоя 1024;
🟢MLP, состоящий из 2-х линейных слоев с размером скрытого слоя 2048 с активацией GELU;
🟢Тернарная LLM (OLMoBitNet1B) с 1.1 миллиардом параметров, состоящая из 16 слоев, в которых все линейные слои заменены на слои BitLinear158.

Модель была обучена в 2 фазы. Первая - предварительное обучение для выравнивания функций и вторая фаза - тонкой настройки инструкций.

Фаза предварительного обучения состояла из 1 эпохи на отфильтрованном наборе данных 595 тыс. концептуальных текстовых аннотаций, с обновлением весов только проекционного слоя.
Для второй фазы точной настройки инструкций использовалась 1 эпоха с набором данных LLaVa-Instruct-150K с обновлением и весов слоя проекции и весов LLM.

⚠️ Примечание: Модель в репозитории IntelLabs на Huggingface находится в режиме акцепта доступа. После отправки запроса пройдет какое-то время, прежде чем владелец репозитория одобрит запрос.

▶️Локальная установка и запуск:

# Clone repositry
git clone https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

# Move to folder & intall requirements
cd LlavaOLMoBitnet1B
pip install -r requirements.txt

# Run inference
python llava_olmo.py

▶️Чтобы задать свой промпт и указать путь до целевого изображения, измените параметры в файле llava_olmo.py:

text = "Be concise. Describe what is in the image"

url = "https://URL_TO_IMAGE.jpg"

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Модель

@ai_machinelearning_big_data

#AI #Intel #ML #LlavaBitNet

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5 views08:25

Машинное обучение digest

Forwarded from Machinelearning

🌟 OLMoE: Открытые языковые модели на основе Mixture-of-Experts.

OLMoE (Open Mixture-of-Experts Language Models) - это метод создания языковых моделей, использующий разреженно активированные смеси экспертов (Mixture-of-Experts, MoE). Следуя этому методу была создана и опубликована базовая модель и 2 ее вариации:

🟢

OLMoE-1B-7B;

🟠

OLMoE-1B-7B-SFT - промежуточная версия базовой модели, прошедшая этап SFT-посттрейна, но без Instruct-дообучения;

🟢

OLMoE-1B-7B-Instruct

Модель предварительно обучалась на 5,1 трлн. токенов с 7 млрд. общих параметров, из которых только 1,3 млрд. активируются для каждого входного токена.
Такая конфигурация дает аналогичную стоимость инференса, как при использовании моделей с 1 млрд. параметров (напр. TinyLlama 1B), но требует больше VRAM для хранения 7 млрд общих параметров.

В создании OLMoE-1B-7B была использована архитектура decoder-only трансформера, в которой feedforward network была заменена на Mixture-of-Experts модуль, состоящий из набора меньших feedforward network, собранных в массивы k-экспертов. Ими управляет маршрутизатор (его роль выполняет обученный линейный слой), определяющий, какие из k-экспертов будут активированы для каждого входящего токена. Инференсы k-экспертов умножаются на вероятности маршрутизатора и потом суммируются, образуя общий инференс MoE-модуля.

Претрейн модели выполнялся на очищенных от дубликатов датасетах DCLM и Dolma 1.7 (Github, Wikipedia, наборы научных статей). На следующем этапе инструктивного дообучения были добавлены данные по программированию и математике, чтобы сбалансировать эти области знаний для повышения точности MoE.

Проведенные после обучения эксперименты показывают, что OLMoE-модели обучаются примерно в 2 раза быстрее, чем обычные LLM с эквивалентными активными параметрами.

▶️Пример инференса базовой модели на Transformers:

# NOTE! Install the `transformers` & `torch` libraries first
from transformers import OlmoeForCausalLM, AutoTokenizer
import torch

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Load different ckpts via passing e.g. `revision=step10000-tokens41B`
# also check allenai/OLMoE-1B-7B-0924-SFT & allenai/OLMoE-1B-7B-0924-Instruct
model = OlmoeForCausalLM.from_pretrained("allenai/OLMoE-1B-7B-0924").to(DEVICE)
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMoE-1B-7B-0924")
inputs = tokenizer("Bitcoin is", return_tensors="pt")
inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
out = model.generate(**inputs, max_length=64)
print(tokenizer.decode(out[0]))
# > # Bitcoin is a digital currency that is created and held electronically. 
#No one controls it. Bitcoins aren’t printed, like dollars or euros – they’re produced by people and businesses running computers all around the world, using software that solves mathematical

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Dataset

🟡

Набор моделей

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #MoE

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views10:02

Машинное обучение digest

🟢

OLMoE-1B-7B;

🟠

OLMoE-1B-7B-SFT - промежуточная версия базовой модели, прошедшая этап SFT-посттрейна, но без Instruct-дообучения;

🟢

# NOTE! Install the `transformers` & `torch` libraries first
from transformers import OlmoeForCausalLM, AutoTokenizer
import torch

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Load different ckpts via passing e.g. `revision=step10000-tokens41B`
# also check allenai/OLMoE-1B-7B-0924-SFT & allenai/OLMoE-1B-7B-0924-Instruct
model = OlmoeForCausalLM.from_pretrained("allenai/OLMoE-1B-7B-0924").to(DEVICE)
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMoE-1B-7B-0924")
inputs = tokenizer("Bitcoin is", return_tensors="pt")
inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
out = model.generate(**inputs, max_length=64)
print(tokenizer.decode(out[0]))
# > # Bitcoin is a digital currency that is created and held electronically. 
#No one controls it. Bitcoins aren’t printed, like dollars or euros – they’re produced by people and businesses running computers all around the world, using software that solves mathematical