Machinelearning

🌟 Mini-Omni : Мультимодальная речевая модель.

Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.

Функциональные возможности модели:

🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;

🟢генерация текста и аудио одновременно;

🟢потоковое воспроизведение аудио;

🟢пакетное преобразование "speech-to-text" и "speech-to-speech".

Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.

Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.

Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.

В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.

▶️Установка:

# Create & activate venv
conda create -n omni python=3.10
conda activate omni

# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni

# Install required packages
pip install -r requirements.txt

# start server
python3 server.py --ip '0.0.0.0' --port 60808

Запуск с Streamlit UI:

# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

Запуск с Gradio UI:

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

📌Лицензирование : MIT License.

🟡

Arxiv

🟡

Demo

🟡

Модель

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #Speech2Speech #MiniOmni

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27👍21🔥8

10K views16:38

Machinelearning

# Create & activate venv
conda create -n omni python=3.10
conda activate omni

# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni

# Install required packages
pip install -r requirements.txt

# start server
python3 server.py --ip '0.0.0.0' --port 60808

Запуск с Streamlit UI:

# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

Запуск с Gradio UI:

API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py

📌Лицензирование : MIT License.

🟡

Arxiv

🟡

Demo

🟡

Модель

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #Speech2Speech #MiniOmni

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥11❤8🆒1

9.42K views13:04

Machinelearning

🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.

LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.

В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.

В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.

Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.

▶️Технические параметры модели:

🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.

📌Лицензирование : MIT License

🟡

Arxiv

🟡

Модель

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #LongLLaVA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤5🔥4

11K views08:06

Machinelearning

⚡️ Molmo: семейство state-of-art MMLM.

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

🟢

ответы на вопросы;

🟢

обнаружение и сегментация по текстовому запросу;

🟢

подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;

🟢

расширение возможностей VR.

▶️

Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

▶️

Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

▶️

MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.

📌Лицензирование : Apache 2.0

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

Arxiv

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #Molmo #MoE #MMLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM