382K subscribers
4.43K photos
851 videos
17 files
4.87K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Facebook open sourced Horizon, an end-to-end applied reinforcement learning platform built on #PyTorch 1.0. Horizon uses RL to optimize systems in large-scale production environments and we're excited to make it accessible to anyone using #RL at scale.

https://code.fb.com/ml-applications/horizon/
1
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения.

TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.

Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.

На Github опубликованы адаптации метода:

- адаптация под Pytorch
- адаптация под JAX

🟡Arxiv
🖥 GitHub for Pytorch [ Stars: 277 | Issues: 3 | Forks: 12 ]
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]

@ai_machinelearning_big_data

#Pytorch #Jax #TTT #LLM #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
43🔥26👍10🎉21
🌟 MAR+DiffLoss: Autoregressive Image Generation without Vector Quantization

Основная идея метода заключается в применении процедуры диффузии для моделирования вероятностных распределений по токенам. Такой подход исключает традиционную категориальную кросс-энтропийную функцию потерь в пользу функции Diffusion Loss. Так устраняется необходимость в сложных и зачастую несовершенных токенизаторах с дискретными значениями, чувствительных к Gradient Approximation и субоптимальному качеству реконструкции.

В прикладной реализации используется сеть денойзинга, небольшая MLP-сеть, которая работает на основе вектора, производимого авторегрессивной моделью. Эта сеть обучена предсказывать распределение для каждого токена через функцию денойзинг-диффузии.

В результате MAR+DiffLoss модель может быстро генерировать изображения высокого качества , используя внутренние преимущества скорости моделирования последовательностей.

Одним из полученных достижений в ходе исследования стала способность модели генерировать изображения со скоростью менее 0,3 секунды на изображение при достижении впечатляющего показателя Fréchet Inception Distance (FID) менее 2,0 на наборе данных ImageNet.

Для тестирования демонстрации метода предлагается настроенный ноутбук для Google Collab. Помимо этого, в репозитории на Github размещены инструкции и код для самостоятельной тренировки моделей и запуску оценочного бенчмарка на датасете ImageNet.

⚠️ Внимание, тренировочный процесс крайне ресурсоемкий.

▶️Pre-trained модели выложены на Dropbox:
🟢MAR-B (280M)
🟢MAR-L (479M)
🟢MAR-H (943M)


📌Лицензирование : MIT license


🟡Arxiv
🟡Результаты бенчмарка
🟡Demo Collab
🖥Github [ Stars: 184 | Issues: 0 | Forks: 7]


@ai_machinelearning_big_data

#AI #ML #Diffusion #Pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥72