Машинное обучение RU

This media is not supported in your browser

🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt

▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

▶️Инференс с помощью CLI:

bash run_VEnhancer.sh

▶️Инференс с помощью GradioUI:

python gradio_app.py

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 224 | Issues: 8 | Forks: 13]

@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍7🔥2

2.05K views16:07

Машинное обучение RU

🎧 SongCreator: Lyrics-based Universal Song Generation

Универсальный генератор песен на основе лирики.

Модель включает в себя два новых иннструмента: тщательно разработанную модель языка двойной последовательности (DSLM) для сбора информации о вокале и аккомпанементе для генерации песен, а также инструмент маскировки внимания для DSLM, который позволяет модели понимать, генерировать и редактировать песни.

Обширные тесты демонстрируют эффективность SongCreator: во всех восьми задачах генерации показывает лучшие или конкурентоспособные результаты в этой области.

В частности, он с большим отрывом превосходит предыдущие работы в задачах «текст-песня» и «текст-вокал». Кроме того, он способен самостоятельно управлять акустическими условиями вокала и аккомпанемента в создаваемой песне с помощью различных промотав, что свидетельствует о его потенциальной применимости.

▪HF: https://huggingface.co/papers/2409.06029
▪Page : https://songcreator.github.io/

@machinelearning_ru

👍6❤5🥰1

1.95K viewsedited 09:50

Машинное обучение RU

Forwarded from Machinelearning

Новостной дайджест

✔️

Salesforce представила Industries AI: 100+ готовых возможностей искусственного интеллекта для решения задач в 15 отраслях бизнеса.

Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов.

Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов.
salesforce.com

✔️

NotebookLM: экспериментальная RAG-функция Google, которая делает подкаст из любого документа, текста или URL.

Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д.
С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое.

Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview.
techcrunch.com

✔️

Anthropic добавила "Workspaces" в консоли API для команд.

Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне.

С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API.
anthropic.com

✔️

Adobe анонсировала генерацию видео в своих продуктах в этом году.

Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте.
Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок.

Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года.
techcrunch.com

✔️ Stanford Research: AI-ресечеры превосходят человеческих экспертов в генерировании новых идей.

Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи.

Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP.

Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми.

Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике.
arxiv.org

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤2🔥2

1.72K views06:11

Машинное обучение RU

⚡️

RePlay: рекомендательный фреймворк для экспериментов и производственного использования

Представляет инструментарий с открытым исходным кодом для создания рекомендательных систем, поддерживающий различные бэкенды обработки данных и аппаратные архитектуры.

📝https://arxiv.org/abs/2409.07272
👨🏽‍💻https://github.com/sb-ai-lab/RePlay

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2

2.14K views12:00

Машинное обучение RU

⚡️ GitHub добавил gpt-o1-preview в Copilot

При работе GPT-4o придерживается очевидных решений и нуждается в помощи разработчика, чтобы направить Copilot на решение необходимых задачю

Результаты показывают, что логические возможности o1-позволяют получить более эффективный и качественный код и Луше справляются со сложными задачами.

https://github.blog/news-insights/product-news/openai-o1-in-github-copilot/

@machinelearning_ru

The GitHub Blog

First Look: Exploring OpenAI o1 in GitHub Copilot

We've tested integrating OpenAI o1-preview with GitHub Copilot. Here's a first look at where we think it can add value to your day to day.

👍8❤3🔥2

2.26K viewsedited 14:42

Машинное обучение RU

OpenAI o1: ChatGPT Supercharged!

https://www.youtube.com/watch?v=SBDbfCcCeHk

@machinelearning_ru

YouTube

OpenAI o1: ChatGPT Supercharged!

❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/paper

📝OpenAI o1 preview:
https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/o1/

📝 Link to our Material Synthesis paper: https://users.cg.tuwien.a…

❤5

2.18K views07:25

Машинное обучение RU

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

🎮 Компания Tencent презентовала инновационный продукт под названием GameGen-O, который стал первым в мире генератором игр с открытым миром. Эта новая нейронная сеть способна создавать различные функции игрового движка, включая разработку персонажей, событий и динамического окружения без каких-либо ограничений.

GameGen-O обладает уникальной способностью генерировать видеоконтент, предоставляя пользователям возможность взаимодействовать с ним, предсказывать будущие события и автоматически генерировать последующие кадры. Например, если игрок поворачивает персонажа вправо, искусственный интеллект создает соответствующее окружение и продолжает генерировать контент в этом направлении.

Хотя некоторые моменты могут выглядеть размытыми, общий эффект все равно производит сильное впечатление.

🌐page: https://gamegen-o.github.io
🧬code: (coming soon) https://github.com/GameGen-O/GameGen-O/

@machinelearning_ru

👍10❤6🔥2

2.6K views18:42

Машинное обучение RU

CrossViewDiff может генерировать высококачественные изображения уличных фотографий из спутниковых снимков, используя модель диффузии!

https://opendatalab.github.io/CrossViewDiff/

@machinelearning_ru

👍4❤2🔥2

2K views07:37

Машинное обучение RU

Forwarded from Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .

PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.

PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:

🟢ID-кодер перенесен из структуры MLP в структуру Transformer;

🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;

🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;

🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;

🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно.

В PuLID for FLUX есть два критически важных гиперпараметра:

timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.

true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.

Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.

Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:

🟠

собственная реализация сообщества ComfyUI;

🟠

diffusers-based implementation.

⚠️ Важно!

🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;

🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1

▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Demo

🟡

Google Collab

🖥

Github

@ai_machinelearning_big_data

#AI #ML #FLUX #GenAI #PuLID

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🥰2

1.92K views15:07

Машинное обучение RU

1:10

This media is not supported in your browser

VIEW IN TELEGRAM

GeoCalib 📸

Калибровка одного изображения с помощью геометрической оптимизации (ECCV 2024)

https://github.com/cvg/GeoCalib

@machinelearning_ru

❤5👍3🔥2

2.32K views15:05

Машинное обучение RU

Forwarded from Machinelearning

⚡️ XVERSE-MoE-A36B: большая языковая модель на архитектуре MoE.

XVERSE-MoE-A36 - мультиязычная LLM, разработанная с нуля Shenzhen Yuanxiang Technology. Модель основана на архитектуре Mixture-of-Experts, имеет 255 млрд. параметров, из которых 36 млрд. активируются в процессе работы.

XVERSE-MoE-A36B предназначена для решения задач: генерация текста, машинный перевод, анализ тональности, реферирование текста, вопрос-ответ, применение в интеллектуальных системах обслуживания клиентов, образовательных помощниках и анализе данных.

Модель использует структуру decoder-only Transformer, где слой Feedforward Network разделен на специализированные экспертные слои.

Отличительной особенностью модели является использование набора общих и не общих экспертов, каждый из которых составляет 1/4 от размера стандартного FFN. Общие эксперты всегда активны во время вычислений, а не общие - активируются выборочно маршрутизатором.

Для обучения модели использовался массив данных на 40 языках, включая китайский, английский, русский и испанский. В процессе обучения использовалась стратегия динамического изменения набора данных с изменением скорости обучения (LR).

Тестирование модели проводилось на наборах данных MMLU, C-Eval, CMMLU, RACE-M, PIQA, GSM8K, MATH, MBPP и HumanEval.

Результаты показывают, что XVERSE-MoE-A36B превосходит другие модели MoE с открытым исходным кодом по производительности и эффективности.

▶️

Технические параметры модели:

🟢total parameters: 255.4B;
🟢active parameters: 36.5B;
🟢total layers: 50;
🟢dimensionality: 6144;
🟢attention heads: 48;
🟢feed-forward dimensionality: 4096;
🟢non-shared experts: 64;
🟢shared experts: 2;
🟢top-k sampling: 6.

⚠️ Важно! Несмотря на название, модель - 255B, ее физический размер ~ 512 Gb

▶️Установка и запуск:

# Clone repository:
git clone https://github.com/xverse-ai/XVERSE-MoE-A36B
cd XVERSE-MoE-A36B

# Install the dependencies:
pip install -r requirements.txt

# Inference with Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('Attraction of Omsk: The Forbidden City', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

# Inference with WebUI:
python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'