Машинное обучение RU
17.7K subscribers
1.58K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
⚡️ Zamba2-2.7B: небольшая гибридная языковая модель на Mamba.

Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.

Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.

Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.

⚠️ Внимание:

🟠модель не имеет встроенной модерации и не подвергалась дополнительному цензурированию;
🟠модель не была дообучена для выполнения инструкций или выполнений функций чата, поэтому не стоит ожидать хороших результатов от нее в этих задачах;
🟠не рекомендуется использовать модель без поддержки Mamba, поскольку это приведет к значительному увеличению задержки и использования памяти.

Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.

▶️Локальный запуск :

# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e

# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d

# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))


📌Лицензирование : Apache 2.0 license


🟡Страница проекта
🟡Arxiv
🟡Модель на HF
🖥Github [ Stars: 10 | Issues: 0 | Forks: 0]


@ai_machinelearning_big_data

#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 YandexART освоил реставрацию архивных видеоматериалов

Модель научили избегать генерацию несуществующих деталей и сохранять историческую достоверность. Это было достигнуто благодаря поэтапному обучению на материалах низкого качества.

Нейросеть способна добавлять фактуру и недостающие детали на размытые и нечеткие кадры, восстанавливая такие элементы, как кирпичная кладка на стенах, узоры на одежде и детали автомобилей. Кроме того, технология позволяет увеличивать разрешение и резкость изображения.

Технология может найти применение в работе с историческими видеоархивами, открывая новые возможности для исследователей, архивистов и специалистов по обработке видео.

@machinelearning_ru
8👍4🔥1
🧠 Подробный гайд, о том, как использовать SAM 2 для сегментации видео

https://blog.roboflow.com/sam-2-video-segmentation/

@machinelearning_ru
🔥6👍32
🚨Tora: Ориентированный на траекторию диффузионный преобразователь для генерации видео

В этой статье представлен Tora, первый ориентированный на траекторию DiT-фреймворк, который одновременно объединяет текстовые, визуальные и траекторийные условия для генерации видео

🌟𝐏𝐫𝐨𝐣: http://ali-videoai.github.io/tora_video/
🚀𝐀𝐛𝐬: http://arxiv.org/abs/2407.21705

@machinelearning_ru
🔥53👍2
Sora: Инновационный фреймворк для генерации звука на основе текстовых описаний

Представляем Sora, новаторский фреймворк для генерации звуковых файлов на основе текстовых описаний. Sora использует передовые алгоритмы машинного обучения для преобразования текстовых запросов в реалистичные звуки и аудиофрагменты.

Основные особенности Sora:

Интерпретация текстовых описаний: Sora анализирует текстовые описания и преобразует их в звуковые файлы, что открывает новые возможности для создания аудиоконтента.

Высокое качество звука: Фреймворк обеспечивает высокое качество и реалистичность генерируемых звуков, что делает его идеальным для использования в различных приложениях, от игр до медиапроектов.

Гибкость и настройка: Sora позволяет настраивать параметры генерации звука для достижения нужного результата, предоставляя полный контроль над процессом.

Пример использования Sora:

from sora import SoundGenerator

# Создание экземпляра генератора звука
generator = SoundGenerator()

# Генерация звука на основе текстового описания
sound = generator.generate("шум дождя на фоне городских улиц")

# Сохранение сгенерированного звука
sound.save("rainy_city.mp3")

🖥 GitHub

@machinelearning_ru
👍7👎32🔥2
Это репозиторий для Llama 3.1 - то же самое, что nanoGPT для GPT-2. то есть это минимальная реализация архитектуры Llama 3.1 без зависимостей, и ее можно очень просто обучать, настраивать и выводить. Это можно сравнить с официальным выпуском кода от Metal и реализацией huggingface, которые содержат более сложные зависимости и намного больше кода (например, fair).

В настоящее время код основан на базовой модели 8B в Llama 3.1.

WIP., активно разрабатываемый, не готовый к прайм-тайму.

https://github.com/karpathy/nano-llama31/tree/master

@machinelearning_ru
👍84🔥3
⚽️ Гайд по созданию CV системы по отслеживанию мяча

https://blog.roboflow.com/tracking-ball-sports-computer-vision/

@machinelearning_ru
👍62🔥2🤬1
🔥 Если вам нужен рабочий пример скрипта для измерения перформанса вашего железа, это отличный вариант.

Этот скрипт поддерживает:

- NVIDIA: V100, A100, H100, ...
- AMD: MI 250, MI300X, ...
- Intel Gaudi2+

https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/benchmarks/mamf-finder.py

@machinelearning_ru
👍93🔥1
Forwarded from Machinelearning
Новостной дайджест

✔️Jimeng AI: сервис от ByteDance для генерации видео запущен на матрикового Китае.

ByteDance запустила сервис для генерации видео на основе искусственного интеллекта под названием Jimeng AI, намереваясь конкурировать с Sora от OpenAI и аналогичными продуктами .
Разработанное Faceu Technology, которая является частью бизнеса ByteDance Jianying, известного по приложению CapCut, Jimeng AI доступно в Apple App Store для китайских пользователей.
Программное обеспечение позволяет пользователям создавать видео и изображения на основе текстовых подсказок. Jimeng AI предлагает планы подписки, начинающиеся от 69 юаней в месяц (примерно 10 USD). О планах вывода сервиса на международный рынок сведений нет.
news18.com

✔️LG представляет первую в Южной Корее AI-модель с открытым исходным кодом.

LG AI Research представила Exaone 3.0, LLM третьего поколения этой серии.
Exaone 3.0 достигла высших мировых рейтингов в бенчмарках реальных сценариев использования, кодированию и математике, превзойдя Llama 3.1 от Meta и Gemma 2 от Google.
Модель двуязычна, способна понимать как корейский, так и английский языки и обучена на более чем 60 миллионах параметрах из различных специализированных областей. LG AI Research планирует расширить это до более чем 100 миллионов параметров концу 2024 года.
Облегченная версия Exaone 3.0 выпускается как модель с открытым исходным кодом для поддержки исследований и разработок в экосистеме искусственного интеллекта. LG также планирует интегрировать Exaone 3.0 в свои продукты и услуги и изучает возможности глобального партнерства для расширения его применения в реальных отраслях.
asianews.network

✔️Mistral AI запустила файнтюн моделей, раннюю версию Agents и SDK для разработки приложений генеративного ИИ.

Файнтюн моделей Mistral Large 2 и Codestral (base prompting, few-shot prompting, обучение на своих датасетах) добавлен в платформе La Plateforme.
Альфа-версия «Агентов» позволяют создавать роли и рабочие процессы с помощью простых инструкций и примеров для использования в Le Chat или через API.
SDK MistralAi 1.0, поддерживает Python и Typescript.
Все новинки Mistal доступны только пользователям с платной подпиской в интерфейсе La Plateforme на сайте Mistral.
mistral.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
⚡️ Минимальный и быстрый пример генерации текста с помощью Llama 3.1 в MLX.

Минимум: 1 файл, ~200 строк простого кода, 3 зависимости
Скорость: более 100 токенов в секунду с 4-битным 8B на M2 Ultra

Код: https://gist.github.com/awni/cf42588b8c084c3d93d7373b604c7f9c

@machinelearning_ru
👍62🔥2
⚡️ Снижение цен на API за последние 30 дней для лучших SOTA LLM

@machinelearning_ru
👍32🔥2
Forwarded from Machinelearning
🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

Предусмотрено два режима взаимодействия:
🟠голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;
🟠аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

🟢Qwen2-Audio-7B

🟢Qwen2-Audio-7B-Instruct

Инференс на transformers в cli возможен в нескольких режимах:

🟠простой инференс модели Qwen2-Audio;
🟠пакетный инференс (например, несколько текстовых запросов к аудиофайлу);
🟠инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);
🟠инференс голосового чата.


▶️Локальный запуск с GradioUI:


# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers

# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt

# run Gradio web UI
python demo/web_demo_audio.py



📌Лицензирование : Apache 2.0


Страница проекта
Коллекция моделей на HF
Arxiv
Сообщество в Discord
Demo
Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

#AI #LLM #ML #Qwen2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2