Generative Ai

Forwarded from Spark in me (Alexander)

Несколько раз в последнее время ставил тот же софт на ПК для работы с GPU. Плюс меня спрашивали как настраивать сервер для работы с нейросетями.

Поэтому список полезных ссылок на форумы, скриптов и файлов:
- Ссылка на посты про сборку сервера и установку драйверов GPU
-- https://xn--r1a.website/snakers4/702
-- https://xn--r1a.website/snakers4/149
- Скрипт для настройки сервера с GPU от fast.ai
(внимание, там theano, старая версия keras, дрова и cuda / cudnn лучше всегда ставить самому на своей машине)
-- resources.spark-in.me/gpu_deep_install.sh
- Софт, который использую я
-- resources.spark-in.me/vds_w_gpu.sh

Disclaimer
- Для исследования данных и отладки лучше использовать jupyter notebook
- Для запуска скриптов на несколько суток - лучше написать отдельный отлаженный .py скрипт, который не будет зависеть от вас, и повесить его на отдельную сессию tmux

И программа всех времен и народов для упрощения жизни - tmux
-- https://xn--r1a.website/snakers4/720

#data_science
#digest

Spark in me

Полезно, если вы играетесь с нейросетями и у вас дома уже есть сервер с видеокартой.
- Форум http://forums.fast.ai/t/making-your-own-server/174
- Лучшие посты
http://forums.fast.ai/t/making-your-own-server/174/184
http://forums.fast.ai/t/making-your-own-server/174/195…

126 views04:26

Generative Ai

Forwarded from Machinelearning

⚡️

Новые разработки команды FAIR в области ИИ.

Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:

🟢

Motivo - базовая модель для управления виртуальными воплощенными агентами.

Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.

🟡

Paper

🟡

Demo

🟡

Github

🟢

Video Seal - система для нанесения водяных знаков на видео.

Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.

🟡

Paper

🟡

Demo

🟡

Github

🟢

Flow Matching - генеративная парадигма для множества модальностей.

Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.

🟡

Paper

🟡

Github

🟢

Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.

Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.

🟡

Paper

🟡

Github

🟡

Dataset

🟢

Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.

Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.

🟡

Paper

🟡

Github

🟢

Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.

DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.

🟡

Paper

🟡

Github

🟢

Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.

Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.

🟡

Paper

🟡

Github

🟢

EvalGym - библиотека для оценки text-to-image моделей.

Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.

🟡

Paper

🟡

Github

🟢

CLIP 1.2 - улучшенная версия vision-language энкодера.

🟡

Paper

🟡

Github

🟡

Dataset