Forwarded from Machinelearning
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Deepseek #JanusFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2
Forwarded from Machinelearning
Парижский стартап H Company выпустил семейство мультимодальных моделей Holo3, предназначенных для управления графическими интерфейсами.
H Company (ранее Holistic AI) публично вышла на рынок в начале 2024 года. Основатели: Шарль Кантор, бывший исследователь Стэнфорда, и Лоран Сифр, ветеран Google DeepMind и один из ключевых участников проекта AlphaGo.
Посевной раунд составил $220 млн - один из крупнейших в истории европейского венчура. Среди инвесторов: Эрик Шмидт, Юрий Мильнер, Бернар Арно, Ксавье Ньель, а также Amazon, Samsung и UiPath.
Старшая Holo3-122B-A10B доступна только на платформе H Company по цене 40 центов за миллион входящих и 3 доллара за миллион выходных токенов.
Младшая версия Holo3-35B-A3B выложена на Hugging Face под лицензией Apache 2.0 и также доступна бесплатно через Inference API с ограничением в 10 PRM. В платном режиме - 0,25/1.8 доллара за миллион входных/выходных токенов.
Сначала по заданным сценариям генерируются синтетические примеры навигации по интерфейсам.
Затем данные расширяются за пределы исходных условий, чтобы модель учитывала нестандартные ситуации.
На финальном этапе все примеры проходят курируемый отбор и обучение с подкреплением.
Для тренировки H Company построила генератор синтетических корпоративных сред, в котором агенты создают веб-приложения по спецификациям сценариев, формируя верифицируемые задачи разной сложности.
На базе этих сред разработан H Corporate Benchmarks - набор из 486 многошаговых задач в 4 категориях: электронная коммерция, бизнес-ПО, инструменты совместной работы и межприложенческие сценарии.
Последние требуют координации между несколькими системами одновременно (скажем, извлечь цены из PDF, сопоставить их с бюджетами сотрудников и автоматически разослать персонализированные письма с одобрением или отказом).
Флагманская Holo3-122B-A10B набрала 78,85% на бенчмарке OSWorld-Verified - это лучший результат на ведущем тесте взаимодействия с рабочим столом.
@ai_machinelearning_big_data
#AI #ML #MMLM #Holo3 #HCompany
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2