Forwarded from Анализ данных (Data analysis)
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
🔗 HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗 Github: https://github.com/THUDM/CogVideo
🔗 Paper: https://arxiv.org/abs/2408.06072
🔗 Подробнее про модели: https://xn--r1a.website/ai_machinelearning_big_data/5429
@data_analysis_ml
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
🔗 HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗 Github: https://github.com/THUDM/CogVideo
🔗 Paper: https://arxiv.org/abs/2408.06072
🔗 Подробнее про модели: https://xn--r1a.website/ai_machinelearning_big_data/5429
@data_analysis_ml
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.
AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.
Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.
Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).
MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.
AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.
Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.
⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)
# Baseline
bash run_sample_video.sh configs/sample.py
# AdaCache
bash run_sample_video.sh configs/sample_adacache.py
# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py
@ai_machinelearning_big_data
#AI #ML #DiT #AdaCache #Text2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
AlphaFold 3 — конвейер логического вывода системы ИИ, разработанной Google DeepMind, которая произвела революцию в области прогнозирования структуры белков.
Пакет AlphaFold 3 включает в себя все необходимое для теоретического моделирования структуры белка. Для запуска системы необходимо сконфигурировать входной файл JSON, содержащий информацию о белке, например, его идентификатор и аминокислотную последовательность.
Вместе с программным конвейером инференса доступна подробная документация по входным и выходным данным системы, решению известных проблем, настройкам производительности и установке с последующим запуском с помощью Docker.
Для локального использования понадобится ОС Linux (AlphaFold 3 не поддерживает другие операционные системы) примерно 1 ТB дискового пространства для хранения генетических баз данных (рекомендуется SSD), 64 GB RAM, GPU NVIDIA с Compute Capability 8.0 или выше.
Исходные данные, содержащие 5120 токенов, могут поместиться на одном NVIDIA A100 80 ГБ или одном NVIDIA H100 80 ГБ.
⚠️ Получение параметров модели возможно через подачу заявки в Google DeepMind, доступ предоставляется в течении 2-3 дней по итогам рассмотрения обращения.
⚠️ Любая публикация, основанная на результатах, полученных с использованием AlphaFold 3, должна ссылаться на статью «Accurate structure prediction of biomolecular interactions with AlphaFold 3».
⚠️ AlphaFold 3 не является официально поддерживаемым продуктом Google и ее результаты не предназначены, не проверены и не одобрены для клинического использования.
@ai_machinelearning_big_data
#AI #ML #DeepMind #AlfaFold3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.
Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:
Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).
Для автоматического определения отношений между датасетами применяли 4 метода:
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.
Набор правил, разработанных для каждого типа отношений.
Метод машинного обучения, основанный на классификации.
Генеративная модель, также используемая для классификации.
Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже
Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.
@ai_machinelearning_big_data
#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM