Machinelearning

🌟 ColPali: комбайн для построения многовекторных эмбедингов из документов с помощью VLM.

ColPali - это набор моделей, фреймворк и коллекция преднастроенных методов тонкой настройки для обработки документов разной модальности с учетом текстового и визуального содержания. ColPali позиционирует себя как замену сложных и хрупких конвейеров OCR.

▶️ Модель ColPali - файнтюн PaliGemma-3B с улучшенной архитектурой и уникальной стратегии обучения, которая генерирует многовекторные преставления текста и изображений в ColBERT-стиле.

▶️ Фреймворк ColPali - набор кода для инференса и обучения моделей ColPali. Поддерживаются версии 1.1, 1.2 и модель Сolqwen2-v0.1 (ретривер на базе Qwen2-VL-2B-Instruct, построенный по аналогии с ColPali).

▶️

ColPali Cookbooks - репозиторий с набором блокнотов для изучения, файнтюна и адаптации ColPali к RAG-системам в задачах:

🟢Создание собственных карт сходства для интерпретации выборки ColPali;

🟢Генерации карт сходства для интерпретации ColQwen2;

🟢Файнтюн ColPali с помощью LoRA и опционального квантования 4-bit/8-bit.

Для локального запуска ColPali Cookbooks понадобится поддержка Jupyter Notebook в IDE или их можно попробовать в Google Collab.

📌Лицензирование кода : MIT License.

📌Лицензирование моделей: MIT License.

🟡

🟡

🟡

🖥

🖥

Github ColPali Cookbooks

@ai_machinelearning_big_data

#AI #ML #VLM #Vidore #Colpali #Cookbooks

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥6❤4🤔1

9.57K views10:01

Machinelearning

📌Туториал по файнтюну Qwen2-VL-7B с использованием экосистемы Hugging Face.

Статья на HF из цикла Open-Source AI Cookbook c подробным пошаговым описанием и примерами кода процесса тонкой настройки VLM Qwen2-VL-7B в области ответов на вопросы по изображениям с использованием библиотеки Transformer Reinforcement Learning (TRL). В качестве целевого датасета используется ChartQA, который содержит диаграммы разных типов в паре с вопросами и ответами.

Для обучения модели демонстрируется методы Supervised Fine-Tuning (SFT) с использованием библиотеки TRL, QLoRA, которая квантует веса LoRA, обеспечивая более низкие требования к памяти и повышенную эффективность обучения.

Отдельным разделом выделен процесс подготовки данных к обучению с помощью функции collate_fn, которая выполняет корректное извлечение и пакетную обработку данных и их форматирование для модели. Обучение модели осуществляется с помощью класса SFTTrainer.

В результате модель научилась отвечать на вопросы в соответствии с используемым датасетом. Оценить готовый файнтюн можно в демо на HF Space.

Дополнительно, в качестве альтернативы тонкой настройке, рассматривается использование промтинга с добавлением системного сообщения для контекстуализации ввода для модели, чтобы улучшить точность ее ответов.

▶️ Блокнот на Google Collab для практических экспериментов. Для его запуска понадобится платный тариф с GPU А100.

▶️Структура туториала по разделам:

🟢

Установка среды

🟢

Загрузка датасета

🟢

Загрузка модели и проверка производительности

🟢

Файнтюн модели с помощью TRL

🟠

Загрузка квантованной модели для обучения

🟠

Настройка QLoRA и SFTConfig

🟠

Обучение модели

🟢

Тестирование готовой модели

🟢

Сравнение обученной модели с базовой + промптинг

🟢

Дополнительные ресурсы для более глубокого изучения VLM

🔜

Статья на HuggingFace

@ai_machinelearning_big_data

#AI #ML #VLM #HuggingFace #Tutorial

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤5🔥5🥰1😁1🙈1

10.3K views13:00

Machinelearning

🌟 LLaVA-CoT: VLM с пошаговыми рассуждениями.

LLaVA-CoT – модель VLM, разработанная на базе Llama-3.2-11B-Vision-Instruct и обученная для автономного многоступенчатого процесса рассуждения. В отличие от классического метода CoT, LLaVA-CoT независимо выполняет последовательные этапы: обобщение, визуальная интерпретация, логическое рассуждение и формирование вывода. Эта структура позволяет LLaVA-CoT значительно повысить точность при решении визуальных задач, требующих интенсивных рассуждений.

LLaVA-CoT обучалась на кастомном наборе данных LLaVA-CoT-100k, который объединил примеры из различных источников VQA и аннотации структурированных рассуждений.

Используя всего 100 тыс. обучающих примеров и простой метод масштабирования во время инференса, LLaVA-CoT не только превосходит свою базовую модель на 8,9% на наборе тестов мультимодальных рассуждений, но и Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🟡

Demo

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #LlaVACoT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥33👍9❤4

8.81K views09:01

Machinelearning

🌟 Динамическое 4-битное квантование VLM с повышенной точностью от Unsolth .

Unsloth представил практический метод динамического 4-битного квантования VLM, который решает проблему снижения точности популярных алгоритмов квантования AWQ, Bitsandbytes, GPTQ и HQQ.

В эксперименте использовался Bitsandbytes в качестве основы для всех линейных слоев, но квантование определенных параметров было динамически отключено. Этот подход позволил добиться значительного повышения точности при использовании всего на 10% больше VRAM по сравнению с стандартным 4-битным квантованием Bitsandbytes.

В результате, этот метод позволяет сохранить точность модели, близкую к 16-битной точности, при значительном сокращении размера модели.

Тестирование на VL-моделях Llama 3.2 Vision, Qwen2 Vision и Pixtral, показали значительные преимущества по сравнению со стандартным 4-битным квантованием. Например, квантование Qwen2 Vision 2B до 4 бит приводило к полной поломке модели, в то время как метод динамического квантования позволял восстановить точность при увеличении использования памяти всего на 450 МБ.

Аналогичным образом, получилось восстановить точность Llama 3.2 Vision 11B и Pixtral 12B, которые также деградировали на стандартном 4-битном квантовании.

▶️В открытый доступ на HF опубликованы модели, участвующие в исследовании:

🟢

Llama-3.2-11B-Vision-Instruct-unsloth-bnb-4bit (7.23 GB)

🟢

Llama-3.2-11B-Vision-unsloth-bnb-4bit (7.23 GB)

🟠

Qwen2-VL-2B-Instruct-unsloth-bnb-4bit (1.81 GB)

🟠

Qwen2-VL-7B-Instruct-unsloth-bnb-4bit (6.3 GB)

🟠

QwQ-32B-Preview-unsloth-bnb-4bit

🟢

Pixtral-12B-2409-unsloth-bnb-4bit (8.42GB)

⚠️ К каждой модели в Model Card можно найти блокнот для запуска в Google Collab и созданные сообществом GGUF-версии.

📌Лицензирование моделей:

🟠Семейство Llama: Llama 3.2 Community License Agreement
🟢Семейство Qwen: Apache 2.0 License.
🟢Pixtral: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

🟡

Сообщество в Discord

@ai_machinelearning_big_data

#AI #ML #VLM #Unsolth #Quantization

Please open Telegram to view this post

VIEW IN TELEGRAM

👍53🔥14❤6

11.4K views11:43

Machinelearning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ PaliGemma 2: Новое семейство VLMs от Google.

PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).

PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.

В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.

Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.

В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.

Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.

Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.

▶️Пример инференса модели paligemma2-10b-ft-docci-448 на Transformers:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])

📌Лицензирование: Gemma License.

🟡

Статья

🟡

Коллекция на HF

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #VLM #Google #PaliGemma

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥9❤5❤‍🔥1

9.92K views11:30

Machinelearning

🌟 ShowUI-2B: VLM для взаимодействия с графическими интерфейсами.

ShowUI-2B - VLM на базе Qwen2-VL-2B, которая оптимизирована для взаимодействия с GUI. Она обладает глубоким пониманием пользовательских интерфейсов и навигации по ним на веб- и мобильных платформах.

Модель обрабатывает комбинацию визуальных и текстовых данных для создания соответствующих действий GUI. Она интерпретирует скриншоты и текстовые инструкции для определения точек и последовательности взаимодействия.

В качестве входных данных ShowUI-2B может принимать: скриншоты интерфейсов,
текстовые инструкции (или запросы), системные промпты, определяющие области действия и
последовательности действий.

Результат инференса модели: координаты расположения элементов пользовательского интерфейса [x,y], действия (щелчок, ввод, выбор и т.д.), значения для ввода текста и
целевые позиции для взаимодействия.

Для мобильных интерфейсов ShowUI-2B обрабатывает касания, свайпы и ввод текста.

Прикладные сферы применения :

🟢Автоматизированное тестирование интерфейса;
🟢Агенты автоматизации задач;
🟢Интерактивные учебные пособия и системы рекомендаций;
🟢UX\UI-задачи приложений и веб-сайтов.

ShowUI-2B продемонстрировала высокую эффективность в задачах zero-shot grounding (75.1% точности) и навигации по GUI на различных платформах (Web, Mobile, Online).

⚠️ Модель поддерживает интеграцию с Computer Use OOTB, проектом Desktop GUI Agent, который позволяет управлять действиями на PC с помощью LLM, запущенной локально или через API.

▶️Установка и запуск с GradioUI:

# Clone the Repository
git clone https://github.com/showlab/ShowUI.git
cd ShowUI

# Install Dependencies
pip install -r requirements.txt

# Start the GradioUI
python app.py

# Go to local URL:  http://127.0.0.1:7860

📌Лицензирование: MIT License.

🟡

Модель

🟡

Demo

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #ShowUI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post