Машинное обучение RU – Telegram

Машинное обучение RU

@machinelearning_ru

17.7K subscribers

1.57K photos

207 videos

11 files

2.04K links

Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw

Download Telegram

About

Blog

Apps

Platform

Машинное обучение RU

17.7K subscribers

Машинное обучение RU

Sora: Инновационный фреймворк для генерации звука на основе текстовых описаний

Представляем Sora, новаторский фреймворк для генерации звуковых файлов на основе текстовых описаний. Sora использует передовые алгоритмы машинного обучения для преобразования текстовых запросов в реалистичные звуки и аудиофрагменты.

Основные особенности Sora:

Интерпретация текстовых описаний: Sora анализирует текстовые описания и преобразует их в звуковые файлы, что открывает новые возможности для создания аудиоконтента.

Высокое качество звука: Фреймворк обеспечивает высокое качество и реалистичность генерируемых звуков, что делает его идеальным для использования в различных приложениях, от игр до медиапроектов.

Гибкость и настройка: Sora позволяет настраивать параметры генерации звука для достижения нужного результата, предоставляя полный контроль над процессом.

Пример использования Sora:

from sora import SoundGenerator

# Создание экземпляра генератора звука
generator = SoundGenerator()

# Генерация звука на основе текстового описания
sound = generator.generate("шум дождя на фоне городских улиц")

# Сохранение сгенерированного звука
sound.save("rainy_city.mp3")

🖥 GitHub

@machinelearning_ru

👍7👎3❤2🔥2

2.71K views08:17

Машинное обучение RU

OpenAI’s DALL-E 3-Like AI For Free, Forever!

https://www.youtube.com/watch?v=-7crpGKEA2g

@machinelearning_ru

OpenAI’s DALL-E 3-Like AI For Free, Forever!

❤️ Check out Weights & Biases and sign up for a free demo here: https://wandb.me/papersllm

Flux is available here:
https://blackforestlabs.ai/

Try it:
1. https://fal.ai/models/fal-ai/flux-pro
2. https://replicate.com/black-forest-labs/flux-pro

Run it yourself…

👍2❤1

2.54K views19:40

Машинное обучение RU

Это репозиторий для Llama 3.1 - то же самое, что nanoGPT для GPT-2. то есть это минимальная реализация архитектуры Llama 3.1 без зависимостей, и ее можно очень просто обучать, настраивать и выводить. Это можно сравнить с официальным выпуском кода от Metal и реализацией huggingface, которые содержат более сложные зависимости и намного больше кода (например, fair).

В настоящее время код основан на базовой модели 8B в Llama 3.1.

WIP., активно разрабатываемый, не готовый к прайм-тайму.

https://github.com/karpathy/nano-llama31/tree/master

@machinelearning_ru

👍8❤4🔥3

2.69K views20:36

Машинное обучение RU

⚽️ Гайд по созданию CV системы по отслеживанию мяча

https://blog.roboflow.com/tracking-ball-sports-computer-vision/

@machinelearning_ru

👍6❤2🔥2🤬1

2.55K views09:23

Машинное обучение RU

🔥 Если вам нужен рабочий пример скрипта для измерения перформанса вашего железа, это отличный вариант.

Этот скрипт поддерживает:

- NVIDIA: V100, A100, H100, ...
- AMD: MI 250, MI300X, ...
- Intel Gaudi2+

https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/benchmarks/mamf-finder.py

@machinelearning_ru

👍9❤3🔥1

2.59K views09:59

Машинное обучение RU

Forwarded from Machinelearning

Новостной дайджест

✔️Jimeng AI: сервис от ByteDance для генерации видео запущен на матрикового Китае.

ByteDance запустила сервис для генерации видео на основе искусственного интеллекта под названием Jimeng AI, намереваясь конкурировать с Sora от OpenAI и аналогичными продуктами .
Разработанное Faceu Technology, которая является частью бизнеса ByteDance Jianying, известного по приложению CapCut, Jimeng AI доступно в Apple App Store для китайских пользователей.
Программное обеспечение позволяет пользователям создавать видео и изображения на основе текстовых подсказок. Jimeng AI предлагает планы подписки, начинающиеся от 69 юаней в месяц (примерно 10 USD). О планах вывода сервиса на международный рынок сведений нет.
news18.com

✔️LG представляет первую в Южной Корее AI-модель с открытым исходным кодом.

LG AI Research представила Exaone 3.0, LLM третьего поколения этой серии.
Exaone 3.0 достигла высших мировых рейтингов в бенчмарках реальных сценариев использования, кодированию и математике, превзойдя Llama 3.1 от Meta и Gemma 2 от Google.
Модель двуязычна, способна понимать как корейский, так и английский языки и обучена на более чем 60 миллионах параметрах из различных специализированных областей. LG AI Research планирует расширить это до более чем 100 миллионов параметров концу 2024 года.
Облегченная версия Exaone 3.0 выпускается как модель с открытым исходным кодом для поддержки исследований и разработок в экосистеме искусственного интеллекта. LG также планирует интегрировать Exaone 3.0 в свои продукты и услуги и изучает возможности глобального партнерства для расширения его применения в реальных отраслях.
asianews.network

✔️Mistral AI запустила файнтюн моделей, раннюю версию Agents и SDK для разработки приложений генеративного ИИ.

Файнтюн моделей Mistral Large 2 и Codestral (base prompting, few-shot prompting, обучение на своих датасетах) добавлен в платформе La Plateforme.
Альфа-версия «Агентов» позволяют создавать роли и рабочие процессы с помощью простых инструкций и примеров для использования в Le Chat или через API.
SDK MistralAi 1.0, поддерживает Python и Typescript.
Все новинки Mistal доступны только пользователям с платной подпиской в интерфейсе La Plateforme на сайте Mistral.
mistral.ai

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.12K views10:02

Машинное обучение RU

⚡️ Минимальный и быстрый пример генерации текста с помощью Llama 3.1 в MLX.

Минимум: 1 файл, ~200 строк простого кода, 3 зависимости
Скорость: более 100 токенов в секунду с 4-битным 8B на M2 Ultra

Код: https://gist.github.com/awni/cf42588b8c084c3d93d7373b604c7f9c

@machinelearning_ru

A minimal, fast implementation of Llama 3.1 in MLX.

A minimal, fast implementation of Llama 3.1 in MLX. - l3min.py

👍6❤2🔥2

2.39K views15:53

Машинное обучение RU

⚡️ Снижение цен на API за последние 30 дней для лучших SOTA LLM

@machinelearning_ru

👍3❤2🔥2

2.36K viewsedited 07:17

Машинное обучение RU

Forwarded from Machinelearning

🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

Предусмотрено два режима взаимодействия:

🟠

голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;

🟠

аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

🟢

🟢

Qwen2-Audio-7B-Instruct

Инференс на transformers в cli возможен в нескольких режимах:

🟠простой инференс модели Qwen2-Audio;

🟠

пакетный инференс (например, несколько текстовых запросов к аудиофайлу);

🟠

инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);

🟠

инференс голосового чата.

▶️Локальный запуск с GradioUI:


# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers

# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt

# run Gradio web UI
python demo/web_demo_audio.py

📌Лицензирование : Apache 2.0

▪Страница проекта
▪Коллекция моделей на HF
▪Arxiv
▪Сообщество в Discord
▪Demo
▪Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

#AI #LLM #ML #Qwen2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥2

1.89K views08:47

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

🖼 Живые портреты🔥

LivePortrait: Эффективная анимация портретов с возможностью сшивания и управления ретаргетингом

🧬code: https://github.com/KwaiVGI/LivePortrait
🍇runpod serverless: https://github.com/camenduru/live-portrait-i2v-tost
🍇runpod template: https://github.com/camenduru/liveportrait-runpod
🍊jupyter: https://github.com/camenduru/LivePortrait-jupyter

@machinelearning_ru

👍3❤2🔥2

2.19K views08:51

Машинное обучение RU

Как сократить расходы на инференс LLM? Кейс компании “Актион”
22 августа, 16:00

Selectel проводет вебинар, на котором расскажет, как команда «Актион» сократила расходы на GPU на 60% и увеличила пропускную способность в 36 раз благодаря решению Compressa на инфраструктуре Selectel.

Вместе с коллегами из Compressa и «Актион» обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM. Сравним производительность LLM и стоимость токенов до и после оптимизации. Разберем кейс «Актион» и Compressa по обработке 100 000+ генераций в день всего на одной GPU-карте и узнаем, как удалось сократить расходы на инференс LLM.

Мероприятие бесплатное. Посмотреть программу вебинара и зарегистрироваться можно по ссылке: https://slc.tl/xkpd9

Реклама АО «Селектел». ИНН: 7810962785
Erid: 2VtzquuKHNc

👍1

2.09K views08:49

Машинное обучение RU

Forwarded from Machinelearning

🌟Parler-TTS: качественный синтез речи по тексту на английском языке.

Parler-TTS - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.

Parler-TTS - это авторегрессионная модель, основанная на трансформерах, которая генерирует аудиотокены в причинно-следственном порядке. Код для инференса Parler-TTS оптимизирован для быстрой генерации благодаря совместимости с SDPA и Flash Attention 2.

Архитектура Parler-TTS состоит из трех частей: текстовый кодировщик (Flan-T5), декодер и аудиокодек DAC. Текстовый кодировщик преобразует текст в скрытые состояния, декодер генерирует аудиотокены на основе этих состояний, а аудиокодек восстанавливает аудиосигнал из аудиотокенов.

Модели:

🟢

Parler-TTS Mini - 880 миллионов параметров

🟢

Parler-TTS Large - 2,3 миллиарда параметров

Характеристиками речи (пол, темп речи, высота тона и реверберация) можно управлять непосредственно через текстовый промпт. Например:

🟠Добавьте промпт "very clear audio" для создания аудио высокого качества, а "very noisy audio" - для высокого уровня фонового шума;
🟠Пунктуация может использоваться для управления просодией генерации - используйте запятые, чтобы добавить небольшие паузы в речь.

▶️Установка и запуск:

# Clone repository and install dependences:
pip install git+https://github.com/huggingface/parler-tts.git

# Inference with random voice
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)y

📌Лицензирование : Apache-2.0 license

🟡

Модель Parler-TTS Mini

🟡

Модель Parler-TTS Large

🟡

🟡

🟡

Google Collab (файнтюн)

🟡

🖥

Github [ Stars: 3.4K | Issues: 49 | Forks: 338]

@ai_machinelearning_big_data

#AI #Parler #ML #TTS

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

1.7K views10:52

Машинное обучение RU

Сейчас много говорят про машинное обучение, и у каждого свое видение. Мои друзья из VK сделали классный канал, где команды, занимающиеся ML, делятся своим опытом. Каждый месяц там появляются новые посты о сервисах, продуктах, процессах создания моделей, и даже атмосфере внутри команд. Всё по-настоящему и без прикрас!

Вот что мне особенно запомнилось:
- Про современные подходы к кластеризации текста с помощью больших языковых моделей
- Про создание персонального эмбеддинга пользователя

Если вам тоже интересно машинное обучение, обязательно загляните в канал. #ML #машиннообучение #подписывайся

👍6❤4🔥3

2.19K views11:02

Машинное обучение RU

Media is too big

VIEW IN TELEGRAM

🍏🍎🍒 FruitNeRF: CV система поиска и подсчета фруктов на основе нейронного поля Radiance Field

Использует NeRFs для подсчета фруктов любого типа в 3D пространстве.
Код является расширением Nerf studio!

Статья: https://arxiv.org/abs/2408.06190
Проект: https://meyerls.github.io/fruit_nerf/
Код: https://github.com/meyerls/FruitNeRF

@machinelearning_ru

🔥15❤4👍3

2.55K views07:16

Машинное обучение RU

🔥 Выпущен Keras 3.5.0

- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через keras.Model.save(), а также загружать .keras модели с Hub с помощью keras.saving.load_model().

- Обеспечена совместимость с NumPy 2.0.

- Добавлены новые методы и операции.

- Исправлены ошибки и улучшена производительность.

📌Github

@machinelearning_ru

👍7❤2🔥2😁1

2.25K viewsedited 07:14

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

Представляем FLUX. LoRa - Explorer 🧭✨

FLUX "LoRA the Explorer" — эта нейросеть, может похвастаться одним из самых точных пониманий промпта и отличается исключительной работой с текстом.

▶️ https://huggingface.co/spaces/multimodalart/flux-lora-the-explorer

@machinelearning_ru

👍6❤2🔥2

2.47K views10:52

Машинное обучение RU

Forwarded from Анализ данных (Data analysis)

Media is too big

VIEW IN TELEGRAM

🌟

NVIDIA Kaolin — библиотека PyTorch для ускорения работы с 3D

pip install kaolin==0.16.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-{TORCH_VERSION}_cu{CUDA_VERSION}.html

Библиотека NVIDIA Kaolin предоставляет PyTorch API для работы с различными 3D-представлениями и включает коллекцию GPU-оптимизированных операций, таких как модульный рендеринг, быстрые преобразования между представлениями и других операций.

🖥

🟡

Страничка NVIDIA Kaolin

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4

2.11K views15:49