Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
📚 Справочник-шпаргалка по методологиям и паттернам на Python

Это обширный гайд на «Хабре», который расскажет о:

паттернах (порождающих, структурных, поведенческих);
разработке через тестирование (TDD);
разработке, основанной на описании поведения (BDD);
предметно-ориентированном проектировании (DDD).

🔗 Ссылка

@machinelearning_ru
5👍1🔥1
🚀 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

git clone https://github.com/Stable-X/StableNormal.git
cd StableNormal
pip install -r requirements.txt

Github

@machinelearning_ru
👍21
Forwarded from Machinelearning
🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt


▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y


▶️Инференс с помощью CLI:

bash run_VEnhancer.sh


▶️Инференс с помощью GradioUI:

python gradio_app.py



🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]


@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7🔥2
🎧 SongCreator: Lyrics-based Universal Song Generation

Универсальный генератор песен на основе лирики.

Модель включает в себя два новых иннструмента: тщательно разработанную модель языка двойной последовательности (DSLM) для сбора информации о вокале и аккомпанементе для генерации песен, а также инструмент маскировки внимания для DSLM, который позволяет модели понимать, генерировать и редактировать песни.

Обширные тесты демонстрируют эффективность SongCreator: во всех восьми задачах генерации показывает лучшие или конкурентоспособные результаты в этой области.

В частности, он с большим отрывом превосходит предыдущие работы в задачах «текст-песня» и «текст-вокал». Кроме того, он способен самостоятельно управлять акустическими условиями вокала и аккомпанемента в создаваемой песне с помощью различных промотав, что свидетельствует о его потенциальной применимости.

HF: https://huggingface.co/papers/2409.06029
Page : https://songcreator.github.io/

@machinelearning_ru
👍65🥰1
Forwarded from Machinelearning
Новостной дайджест

✔️ Salesforce представила Industries AI: 100+ готовых возможностей искусственного интеллекта для решения задач в 15 отраслях бизнеса.

Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов.

Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов.
salesforce.com

✔️ NotebookLM: экспериментальная RAG-функция Google, которая делает подкаст из любого документа, текста или URL.

Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д.
С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое.

Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview.
techcrunch.com

✔️ Anthropic добавила "Workspaces" в консоли API для команд.

Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне.

С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API.
anthropic.com

✔️ Adobe анонсировала генерацию видео в своих продуктах в этом году.

Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте. 
Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок. 

Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года.
techcrunch.com

✔️ Stanford Research: AI-ресечеры превосходят человеческих экспертов в генерировании новых идей.

Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи.

Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP.

Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми.

Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике.
arxiv.org


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥2
⚡️ RePlay: рекомендательный фреймворк для экспериментов и производственного использования

Представляет инструментарий с открытым исходным кодом для создания рекомендательных систем, поддерживающий различные бэкенды обработки данных и аппаратные архитектуры.

📝https://arxiv.org/abs/2409.07272
👨🏽‍💻https://github.com/sb-ai-lab/RePlay

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
⚡️ GitHub добавил gpt-o1-preview в Copilot

При работе GPT-4o придерживается очевидных решений и нуждается в помощи разработчика, чтобы направить Copilot на решение необходимых задачю

Результаты показывают, что логические возможности o1-позволяют получить более эффективный и качественный код и Луше справляются со сложными задачами.

https://github.blog/news-insights/product-news/openai-o1-in-github-copilot/

@machinelearning_ru
👍83🔥2
🎮 Компания Tencent презентовала инновационный продукт под названием GameGen-O, который стал первым в мире генератором игр с открытым миром. Эта новая нейронная сеть способна создавать различные функции игрового движка, включая разработку персонажей, событий и динамического окружения без каких-либо ограничений.

GameGen-O обладает уникальной способностью генерировать видеоконтент, предоставляя пользователям возможность взаимодействовать с ним, предсказывать будущие события и автоматически генерировать последующие кадры. Например, если игрок поворачивает персонажа вправо, искусственный интеллект создает соответствующее окружение и продолжает генерировать контент в этом направлении.

Хотя некоторые моменты могут выглядеть размытыми, общий эффект все равно производит сильное впечатление.

🌐page: https://gamegen-o.github.io
🧬code: (coming soon) https://github.com/GameGen-O/GameGen-O/

@machinelearning_ru
👍106🔥2
CrossViewDiff может генерировать высококачественные изображения уличных фотографий из спутниковых снимков, используя модель диффузии!

https://opendatalab.github.io/CrossViewDiff/

@machinelearning_ru
👍42🔥2
Forwarded from Machinelearning
🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .

PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.

PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:

🟢ID-кодер перенесен из структуры MLP в структуру Transformer;

🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;

🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;

🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;

🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно.

В PuLID for FLUX есть два критически важных гиперпараметра:

timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.

true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.

Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.

Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:

🟠собственная реализация сообщества ComfyUI;
🟠diffusers-based implementation.

⚠️ Важно!

🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;

🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1

▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Demo
🟡Google Collab
🖥Github


@ai_machinelearning_big_data

#AI #ML #FLUX #GenAI #PuLID
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🥰2