This media is not supported in your browser
VIEW IN TELEGRAM
ReproModel — GUI, который упрощает эффективность исследований, предоставляя стандартизированные модели, загрузчики данных и процедуры обработки.
Он включает в себя полный спектр уже существующих бенчмарков, экстрактор кода и дескриптор LLM.
Этот набор инструментов помогает исследователям модульно структурировать свою разработку и сравнивать производительность каждого этапа конвейера воспроизводимым способом.
По заявлению разработчика, инструмент помогает сократить время разработки, расчета и обучение модели как минимум на 40%.
#opensource #train #LLM #SOTA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤8🔥4
Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения.
Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.
Эта методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.
Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:
Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.
SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.
Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.
Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.
В репозитории проекта представлены примеры кода для SFT и RLHF претрейна LLM:
# # import from source
git clone https://github.com/zyushun/Adam-mini
cd Adam-mini
pip install -e .
# Then use Adam-mini optimizer as follows
from adam_mini import Adam_mini
optimizer = Adam_mini(
named_parameters = model.named_parameters(),
lr = lr,
betas = (beta1,beta2),
eps = eps,
weight_decay = weight_decay,
model_sharding = True,
dim = model_config.dim,
n_heads = model_config.n_heads,
n_kv_heads = model_config.n_kv_heads,
)
# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW
@ai_machinelearning_big_data
#AI #ML #Adam #Pytorch #Train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥19❤6😍1🐳1
Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.
Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними.
Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.
В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
По результатам StackFLOW показал конкурентоспособные результаты.
В репозитории проекта размещены три варианта запуска проекта локально (демонстрация с окклюзиями, демонстрация оптимизации с несколькими объектами и демо с оптимизацией полной последовательности) подробные инструкции по самостоятельной тренировке и оценке на датасетах BEHAVE и InterCap.
@ai_machinelearning_big_data
#AI #3D #Reconstruction #VideoTo3D #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍15❤7🥰3⚡1
ХlabsAI и SimpleTuner опубликовали обновления в своих наборах скриптов, добавив поддержку модели FLUX.
LoRA for FLUX dev
accelerate launch train_flux_lora_deepspeed.py --config "train_configs/test_lora.yaml"
ControlNet for FLUX dev
accelerate launch train_flux_deepspeed_controlnet.py --config "train_configs/test_canny_controlnet.yaml"
В ближайших планах публикация весов ControlNet для FLUX:
Рекомендации по ресурсам для LoRA:
Наблюдения, сделанные автором SimpleTuner в ходе экспериментов:
@ai_machinelearning_big_data
#AI #FLUX #ML #Train #LoRA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤9🔥3
SALSA (Stable Armijo Line Search Adaptation) — метод, разработанный для оптимизации Learning Rate (LR) во время обучения.
Основная концепция метода построена вокруг выполнения линейного поиска для определения наилучшего возможного LR для каждого шага обучения, что дает быструю сходимость и улучшенное обобщение.
Чтобы уменьшить вычислительную нагрузку, Salsa предлагает пошаговый миниатюрный линейный поиск. В нем LR постепенно увеличивается с каждым шагом, а критерий линейного поиска постоянно переоценивается.
Дополнительно, Salsa включает экспоненциальное сглаживание в процесс линейного поиска и устанавливает два экспоненциальных скользящих средних для скорости обучения. Это помогает стабилизировать оптимизацию и уменьшить нестабильность от мини-пакетирования.
Экспериментальные результаты показывают, что Salsa превосходит другие методы оптимизации: 50% сокращение final loss и 1,25 average rank в языковых и графических задачах.
Вычислительные издержки Salsa всего на 3% выше, чем у базового LR метода, что можно воспринимать как незначительным увеличением, учитывая показатели производительности. Salsa достаточно универсален, чтобы использоваться с различными оптимизаторами, и особенно эффективен при обучении современных архитектур, которые чувствительны к скорости обучения.
# Clone repository:
git clone https://github.com/TheMody/No-learning-rates-needed-Introducing-SALSA-Stable-Armijo-Line-Search-Adaptation.git
# Create & activate env:
conda env create -f environment.yml
conda activate sls3
# Install dependencies:
pip install pytorch numpy transformers datasets tensorflow-datasets wandb
# NOTE: custom optimizer is in \salsa\SaLSA.py,comparison version are in \salsa\adam_sls.py:
from salsa.SaLSA import SaLSA
self.optimizer = SaLSA(model.parameters())
# NOTE: typical pytorch forward pass needs to be changed to:
def closure(backwards = False):
y_pred = model(x)
loss = criterion(y_pred, y)
if backwards: loss.backward()
return loss
optimizer.zero_grad()
loss = optimizer.step(closure = closure)
@ai_machinelearning_big_data
#AI #LLM #ML #Train #SALSA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤9🔥5
LeLaN - метод, использующий модели Owl-ViT2 и OpenVLA для маркировки видеоданных из реальной среды с помощью языковых инструкций для навигации по объектам.
Политика навигации по объектам, обученная на этих данных, показала высокие результаты в задаче навигации по незнакомым объектам в разных условиях: внутри и снаружи помещений.
LeLaN использует аннотации VLM для маркировки видеоданных из различных источников: наборы данных о навигации роботов, видеоролики с экскурсиями с YouTube и данные из носимых видеорегистраторов. Эти аннотации предоставляют инструкции, охватывающие широкий спектр объектов с разной степенью детализации в их описаниях.
В процессе обучения политика навигации оптимизируется по трем направлениям:
После обучения LeLaN была проведена серия экспериментов из более 1000 испытаний, проведенных в реальных условиях.
Результаты показывают, что LeLaN превосходит существующие методы zero-shot политик навигации по способности ориентироваться в различных средах, надежности в условиях нечетких команд, способности следовать за пешеходами и навыке избегать столкновений.
Код, предлагаемый в репозитории LeLaN, разбит на две части: обучение модели на собственных данных и локальное развертывание с предварительно обученными моделями LeLaN на роботизированной платформе с NVIDIA Jetson Orin.
# Clone repository:
git clone https://github.com/NHirose/learning-language-navigation.git
# Set up the conda env:
conda env create -f train/train_lelan.yml
conda activate lelan
# Install the lelan packages:
pip install -e train/
# Install the `diffusion_policy` package:
git clone git@github.com:real-stanford/diffusion_policy.git
pip install -e diffusion_policy/
# Training lelan w/o collision avoidance
python train.py -c ./config/lelan.yaml
@ai_machinelearning_big_data
#AI #ML #LLM #Navigation #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍11🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Unsloth Studio - это локальный комбайн, который объединяет подготовку данных, обучение, инференс и экспорт модели в одном месте.
Под капотом кастомные Triton-ядра с собственным backprop. По сравнению со стандартными CUDA-реализациями это дает 2х прирост скорости обучения и снижение потребления по VRAM на 70%.
Поддерживаются полный файн-тюнинг, претрейн, LoRA, QLoRA, 4-bit, 16-bit и FP8. Всего совместимо более 500 моделей, включая Llama 4, Qwen 3.5 и Gemma 3.
Для работы с данными есть визуальный нодовый редактор Data Recipes. Studio принимает PDF, DOCX, CSV и JSONL, генерирует синтетические датасеты и автоматически конвертирует данные в форматы ChatML или Alpaca.
Помимо стандартного SFT, Studio умеет в GRPO, которая не требует отдельной critic-модели и потребляет на 80% меньше VRAM, что делает обучение ризонинг-моделей реалистичным на локальном железе.
Модели на 8B и 70B параметров (например, Llama 3.1, Llama 3.3, DeepSeek-R1) можно файн-тюнить на одной RTX 4090 или 5090, а не на кластере, но есть и поддержка multi-GPU.
В режиме инференса Studio умеет: tool calling, выполнение кода прямо в чате, работу с изображениями, аудио, PDF и DOCX. Из коробки - веб-поиск и автонастройка параметров инференса.
Экспорт результатов - одной кнопкой в GGUF, vLLM или Ollama. Studio сама мерджит LoRA-адаптеры с базовой моделью.
Работает на Windows, Linux и macOS (на Mac пока только инференс, поддержка MLX-обучения анонсирована), есть Docker. AMD-пользователи могут обучать через Unsloth Core, поддержка в Studio обещана позже.
@ai_machinelearning_big_data
#AI #ML #LLM #Framework #Train #UnslothStudio
Please open Telegram to view this post
VIEW IN TELEGRAM
👌100🔥48👍30❤🔥21❤16👏10💯7
Институт Аллена выпустил BAR - рецепт посттрейна, в котором доменные эксперты обучаются по отдельности, а затем собираются в единую MoE-модель через обучаемый роутер.
Метод снимает давнюю проблему: как добавить модели новый навык, не переобучая её целиком и не разрушая то, что она уже умела.
Замена код-эксперта на версию, обученную на более качественных данных с RL, даёт +16.5 пунктов на кодинге при почти нулевом влиянии на другие домены. Добавление RL к существующему math-эксперту - +13 пунктов.
Стоимость обновления одного домена масштабируется линейно, а не квадратично, как в монолитном пайплайне, где любое улучшение требует прогона всех доменов заново
Основа BAR - прогрессивное размораживание общих параметров по стадиям. На mid-training они остаются заморожены, а на этапе SFT размораживаются эмбеддинги и хэд: без этого эксперт не умеет вводить новые специальные токены (например, для вызова функций).
На RLVR размораживается всё, включая внимание. Каждый эксперт при этом учится на смеси доменных и общих SFT-данных: чистый доменный SFT ломает следование инструкциям и общие знания.
После обучения эксперты сливаются простым усреднением разошедшихся общих параметров, а роутер дообучается на стратифицированной 5%-й выборке SFT-данных.
Тестовая модель BAR-5x7B на основе Olmo 2 7B с экспертами по математике, коду, tool use и безопасности набирает 49.1 балла против 47.8 у монолитного переобучения на стадии посттрейна и 46.7 у BTX, где эксперты обучаются как полностью независимые плотные модели.
Ai2 выложил полный набор чекпоинтов, на которых валидировался метод: исходную 7B-модель как точку старта, базовый двухэкспертный MoE, а также промежуточные и финальные версии доменных экспертов - по математике и программированию в двух вариантах (после SFT и после SFT+RLVR), плюс экспертов по tool-use и безопасности, обученных только через SFT. Завершает набор итоговая пятиэкспертная MoE-модель с обученным роутером, объединяющая все домены.
@ai_machinelearning_big_data
#AI #ML #LLM #Train #BAR #Ai2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55🤓32👍13👏12❤8💯5😁1
Исследовательская команда ИИ-поисковика опубликовала техотчёт о деталях создания своего веб-поискового агента на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B.
При бюджете в 4 вызова инструмента итоговая Qwen3.5-397B-SFT-RL показывает 73,9% точности на FRAMES и стоит 2 цента за запрос против 67,8% за 8,5 цента у GPT-5.4 и 62,4% за 15,3 цента у Sonnet 4.6.
Сначала SFT закрепляет целевое поведение: следование инструкциям, формат ответа, языковую согласованность, корректные отказы.
Затем RL с GRPO оттачивает точность поиска и эффективность вызовов инструментов, не трогая поведение, заданное на первой стадии.
Попытка оптимизировать эти цели совместно в один этап обычно ломает либо качество поиска, либо продакшен-требования.
Первый - синтетические многошаговые вопросы с проверяемым ответом: из затравочного запроса выстраивают цепочку связанных сущностей, формулируют вопрос, а единственность ответа подтверждают несколько независимых решателей.
Второй - диалоги общего назначения, где требования к формату и инструкциям превращают в набор атомарных рубрик, проверяемых без субъективной оценки.
Итоговая смесь берётся в пропорции 90/10 в пользу верифицируемых QA, чтобы более лёгкий сигнал рубрик не перетягивал градиент на себя.
В основе системы вознаграждений - агрегирование со шлюзом по корректности: скор Bradley-Terry-модели учитывается только при условии, что базовый бинарный сигнал равен 1 (то есть ответ корректен или все рубрики выполнены).
Это блокирует взлом награды, когда стилистически удачная реплика компенсирует фактическую ошибку.
Штраф за эффективность привязан к GRPO: число вызовов инструмента и длина генерации сравниваются с победителями внутри группы, а не с фиксированной нормой.
На FRAMES при 1 вызове инструмента старшая Qwen3.5 показывает 57,3% (это +5,7 пункта к GPT-5.4 и +4,7 к Sonnet 4.6). Разрыв увеличивается в диапазоне 2–7 вызовов, а это и есть рабочий режим продакшена.
Расчёт использует публичные цены API без учёта кэширования. Perplexity отдельно оговаривает, что внутренние оптимизации инференса (повторное использование KV-кэша, префиксное кэширование, квантование MoE) снижают реальную стоимость ещё сильнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Train #Research #Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔72👍41👏27❤13🔥7🤓7✍1🤣1😎1