🎮 Вышла Pixels2Play (P2P) — открытая foundation-модель для игрового AI в реальном времени
Исследователи представили Pixels2Play (P2P) — открытую универсальную AI-модель, способную играть в коммерческие 3D-игры в реальном времени, анализируя непосредственно сырые пиксели экрана и действуя параллельно с живыми игроками.
Модель поддерживает игры с высокими требованиями к реакции и точности, включая проекты на Roblox и Steam, и демонстрирует устойчивую производительность в динамичных игровых сценариях.
🎥 Демонстрации геймплея и примеры доступны на странице проекта:
https://elefant-ai.github.io/open-p2p/
📚 В основе работы — исследование по имитационному обучению (behavior cloning). Авторы показали, что одна из ключевых проблем этого подхода — каузальная путаница (causal confusion) — может быть значительно снижена за счёт масштабирования как модели, так и обучающего датасета.
🧠 Проект сопровождается статьёй
“Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing”, где подробно разбираются архитектура модели и научные выводы.
🌍 Важный момент: проект полностью открыт. В открытом доступе опубликованы:
код обучения и инференса,
крупномасштабный датасет,
документация и дополнительные материалы.
🔗 Полезные ссылки:
📄 Статья: https://arxiv.org/abs/2601.04575
💻 Код: https://github.com/elefant-ai/open-p2p
🤗 Данные: https://huggingface.co/datasets/elefantai/p2p-full-data
📝 Блог: https://blog.player2.game/p/scaling-behavior-cloning-improves
🌐 Сайт проекта: https://elefant-ai.github.io/open-p2p/
@toshoseti
Исследователи представили Pixels2Play (P2P) — открытую универсальную AI-модель, способную играть в коммерческие 3D-игры в реальном времени, анализируя непосредственно сырые пиксели экрана и действуя параллельно с живыми игроками.
Модель поддерживает игры с высокими требованиями к реакции и точности, включая проекты на Roblox и Steam, и демонстрирует устойчивую производительность в динамичных игровых сценариях.
🎥 Демонстрации геймплея и примеры доступны на странице проекта:
https://elefant-ai.github.io/open-p2p/
📚 В основе работы — исследование по имитационному обучению (behavior cloning). Авторы показали, что одна из ключевых проблем этого подхода — каузальная путаница (causal confusion) — может быть значительно снижена за счёт масштабирования как модели, так и обучающего датасета.
🧠 Проект сопровождается статьёй
“Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing”, где подробно разбираются архитектура модели и научные выводы.
🌍 Важный момент: проект полностью открыт. В открытом доступе опубликованы:
код обучения и инференса,
крупномасштабный датасет,
документация и дополнительные материалы.
🔗 Полезные ссылки:
📄 Статья: https://arxiv.org/abs/2601.04575
💻 Код: https://github.com/elefant-ai/open-p2p
🤗 Данные: https://huggingface.co/datasets/elefantai/p2p-full-data
📝 Блог: https://blog.player2.game/p/scaling-behavior-cloning-improves
🌐 Сайт проекта: https://elefant-ai.github.io/open-p2p/
@toshoseti
arXiv.org
Scaling Behavior Cloning Improves Causal Reasoning: An Open Model...
Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an...
🔥3
Soprano — это ультра-лёгкая on-device модель text-to-speech (TTS), созданная для выразительного, высокоточного синтеза речи с беспрецедентной скоростью. Soprano была спроектирована со следующими особенностями:
* До 2000x real-time generation на GPU и 20x real-time на CPU
* Lossless streaming с задержкой менее 15 ms на GPU и менее 250 ms на CPU
* Менее 1 GB memory usage благодаря компактной архитектуре на 80M parameters
* Infinite generation length с автоматическим text splitting
* Высокая выразительность и кристально чистая генерация аудио с частотой 32kHz
* Широкая поддержка CUDA, CPU и MPS devices на Windows, Linux и Mac
* Поддержка WebUI, CLI и OpenAI-compatible endpoint для простого и production-ready inference
HF: https://huggingface.co/ekwek/Soprano-80M
Demo: https://huggingface.co/spaces/ekwek/Soprano-TTS
@toshoseti
* До 2000x real-time generation на GPU и 20x real-time на CPU
* Lossless streaming с задержкой менее 15 ms на GPU и менее 250 ms на CPU
* Менее 1 GB memory usage благодаря компактной архитектуре на 80M parameters
* Infinite generation length с автоматическим text splitting
* Высокая выразительность и кристально чистая генерация аудио с частотой 32kHz
* Широкая поддержка CUDA, CPU и MPS devices на Windows, Linux и Mac
* Поддержка WebUI, CLI и OpenAI-compatible endpoint для простого и production-ready inference
HF: https://huggingface.co/ekwek/Soprano-80M
Demo: https://huggingface.co/spaces/ekwek/Soprano-TTS
@toshoseti
huggingface.co
ekwek/Soprano-80M · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥3👍1
https://huggingface.co/meituan/EvoCUA-32B-20260105
https://huggingface.co/meituan/EvoCUA-8B-20260105
🥇 #1 Open-Source Model on OSWorld: Achieves 56.7% task completion rate, #1 among all open-source models
@toshoseti
https://huggingface.co/meituan/EvoCUA-8B-20260105
🥇 #1 Open-Source Model on OSWorld: Achieves 56.7% task completion rate, #1 among all open-source models
@toshoseti
https://github.com/CTO92/PyFlame
PyTorch, но для Cerebras Waffer Scale Engine.
Cerebras Wafer-Scale Engine (WSE) — это самый большой в мире процессор для искусственного интеллекта и машинного обучения.
Основные особенности:
Размер: WSE изготавливается из целой кремниевой пластины (wafer) размером примерно 21x21 см, в то время как обычные процессоры вырезаются из такой пластины небольшими кусочками. Это примерно в 56 раз больше, чем крупнейшие GPU от NVIDIA.
Архитектура: Чип содержит сотни тысяч процессорных ядер, объединённых в единую систему. Например, WSE-3 (последняя версия) имеет:
- 900,000 ядер
- 44 ГБ встроенной памяти на чипе
- Пропускную способность памяти в 7000 раз выше, чем у GPU
Для чего используется: WSE специально разработан для обучения и работы больших нейронных сетей. Огромный размер позволяет размещать целые модели ИИ прямо на чипе, что радикально ускоряет вычисления за счёт быстрого доступа к данным.
Преимущества: Сверхбыстрая коммуникация между ядрами, нет необходимости передавать данные между отдельными чипами, что устраняет узкие места в производительности.
Сложность производства: Создание такого гигантского чипа — технологический подвиг, так как обычно большие пластины режут на части именно из-за высокого процента брака.
@toshoseti
PyTorch, но для Cerebras Waffer Scale Engine.
Cerebras Wafer-Scale Engine (WSE) — это самый большой в мире процессор для искусственного интеллекта и машинного обучения.
Основные особенности:
Размер: WSE изготавливается из целой кремниевой пластины (wafer) размером примерно 21x21 см, в то время как обычные процессоры вырезаются из такой пластины небольшими кусочками. Это примерно в 56 раз больше, чем крупнейшие GPU от NVIDIA.
Архитектура: Чип содержит сотни тысяч процессорных ядер, объединённых в единую систему. Например, WSE-3 (последняя версия) имеет:
- 900,000 ядер
- 44 ГБ встроенной памяти на чипе
- Пропускную способность памяти в 7000 раз выше, чем у GPU
Для чего используется: WSE специально разработан для обучения и работы больших нейронных сетей. Огромный размер позволяет размещать целые модели ИИ прямо на чипе, что радикально ускоряет вычисления за счёт быстрого доступа к данным.
Преимущества: Сверхбыстрая коммуникация между ядрами, нет необходимости передавать данные между отдельными чипами, что устраняет узкие места в производительности.
Сложность производства: Создание такого гигантского чипа — технологический подвиг, так как обычно большие пластины режут на части именно из-за высокого процента брака.
@toshoseti
GitHub
GitHub - CTO92/PyFlame
Contribute to CTO92/PyFlame development by creating an account on GitHub.
🔥4
То шо нейросети
Soprano — это ультра-лёгкая on-device модель text-to-speech (TTS), созданная для выразительного, высокоточного синтеза речи с беспрецедентной скоростью. Soprano была спроектирована со следующими особенностями: * До 2000x real-time generation на GPU и 20x…
Выпустили training code, теперь можно натренировать собственную модельку.
Soprano-Factory: https://github.com/ekwek1/soprano-factory
Soprano-Encoder: https://huggingface.co/ekwek/Soprano-Encoder
@toshoseti
Soprano-Factory: https://github.com/ekwek1/soprano-factory
Soprano-Encoder: https://huggingface.co/ekwek/Soprano-Encoder
@toshoseti
GitHub
GitHub - ekwek1/soprano-factory: Soprano-Factory: Train your own 2000x realtime text-to-speech model
Soprano-Factory: Train your own 2000x realtime text-to-speech model - ekwek1/soprano-factory
🔥1
Forwarded from Denis Sexy IT 🤖
Нашел подборку тестов языковых моделей для слабых GPU – если у вас слабенький компьютер или вы на ноуте, вам сюда:
https://huggingface.co/spaces/k-mktr/gpu-poor-llm-arena
На первом месте сейчас Qwen 3 (14B, 4-bit) – хорошая моделька чтобы начать с LLM дома
https://huggingface.co/spaces/k-mktr/gpu-poor-llm-arena
На первом месте сейчас Qwen 3 (14B, 4-bit) – хорошая моделька чтобы начать с LLM дома
Lookup memory in LLM by DeepSeek
Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Video: https://www.youtube.com/watch?v=btDV86sButg
@toshoseti
Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Video: https://www.youtube.com/watch?v=btDV86sButg
@toshoseti
GitHub
Engram/Engram_paper.pdf at main · deepseek-ai/Engram
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models - deepseek-ai/Engram
🔥1
🎉 LFM2.5-1.2B-Thinking вышла на Hugging Face
Быстрое рассуждение на устройстве, меньше 1 ГБ памяти!
Что нового:
⭐️ Отличное следование инструкциям, лучший, по утверждениям авторов, в классе tool use и математика. Модель обходит Qwen3-1.7B (thinking mode) и LFM2-2.6B-Exp на большинстве бенчмарков и генерирует меньше токенов - ниже задержки при инференсе в продакшене.
🔁 Doom looping - частая проблема reasoning-моделей, особенно маленьких. Авторы предложили быстрый фикс:
preference alignment (DPO: 5 кандидатов с разной температурой + 1 greedy для отбраковки циклов),
RLVR (штраф за повторения на основе n-грамм).
В итоге доля doom-циклов снизилась с 15,74% до 0,36%.
📱 Укладывается в ~900 МБ памяти на телефоне и работает быстрее, чем чистые трансформеры (например, Qwen3-1.7B) и SSM-гибриды (Granite-4.0-H-1B). Идеально для tool use, математики, инструкций и агентных сценариев.
🧩 Вместо единого обучения «всё сразу» авторы дообучали доменно-специфичные чекпойнты и затем итеративно сливали их. Такой подход даёт тонкий контроль над целевыми навыками и очень эффективен для небольшой команды с параллельными рабочими потоками.
Блог: https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb
Модель: https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking
@toshoseti
Быстрое рассуждение на устройстве, меньше 1 ГБ памяти!
Что нового:
⭐️ Отличное следование инструкциям, лучший, по утверждениям авторов, в классе tool use и математика. Модель обходит Qwen3-1.7B (thinking mode) и LFM2-2.6B-Exp на большинстве бенчмарков и генерирует меньше токенов - ниже задержки при инференсе в продакшене.
🔁 Doom looping - частая проблема reasoning-моделей, особенно маленьких. Авторы предложили быстрый фикс:
preference alignment (DPO: 5 кандидатов с разной температурой + 1 greedy для отбраковки циклов),
RLVR (штраф за повторения на основе n-грамм).
В итоге доля doom-циклов снизилась с 15,74% до 0,36%.
📱 Укладывается в ~900 МБ памяти на телефоне и работает быстрее, чем чистые трансформеры (например, Qwen3-1.7B) и SSM-гибриды (Granite-4.0-H-1B). Идеально для tool use, математики, инструкций и агентных сценариев.
🧩 Вместо единого обучения «всё сразу» авторы дообучали доменно-специфичные чекпойнты и затем итеративно сливали их. Такой подход даёт тонкий контроль над целевыми навыками и очень эффективен для небольшой команды с параллельными рабочими потоками.
Блог: https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb
Модель: https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking
@toshoseti
www.liquid.ai
LFM2.5-1.2B-Thinking: On-Device Reasoning Under 1GB | Liquid AI
Today, we are releasing LFM2.5-1.2B-Thinking, a reasoning model that runs entirely on-device. It fits within 900 MB of memory on a phone and delivers both the fastest inference speed and the best quality for its size. What required a data center two years…
🔥4👍3❤1
Я все собирался это померить и посчитать, а чувак сел и посчитал. Мои догадки оправдались: 80% токенов если не больше, оно вообще не про контекст задачи.
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Тот самый ролик, где нейросеть пыталась сгенерировать Уилла Смитта со спагетти.
Если хочется понять темп прогресса в AI-видео - достаточно вспомнить, что было 2,5 года назад.
@ai_machinelearning_big_data
Если хочется понять темп прогресса в AI-видео - достаточно вспомнить, что было 2,5 года назад.
@ai_machinelearning_big_data
🔥8
Media is too big
VIEW IN TELEGRAM
Один из моих пет-проектов: генератор текстовых приключений на базе ИИ.
Идея простая: загружаешь любимые книги или тексты, а система сама создает фреймворк мира и лору по ним. При создании приключения создает сюжетные арки, персонажей, предметы, ключевые события, итп и собирает из этого интерактивную игру с динамическими механиками.
Что под капотом:
Адаптивный геймплей : движок обрабатывает любые действия игрока в рамках игрового мира (в SFW рамках)
Скрытый Директор : отдельный LLM-слой, который незаметно влияет на историю и подталкивает игрока к нужным сюжетным точкам, не ломая погружение
Визуал в реальном времени : картинка генерируется на лету через API Odyssey AI (технология world modeling)
Пока это ранний прототип — есть что улучшать: скорость, стабильность, UI/UX. Но ядро работает, и дальше, наверное, будет интереснее.
@toshoseti
Идея простая: загружаешь любимые книги или тексты, а система сама создает фреймворк мира и лору по ним. При создании приключения создает сюжетные арки, персонажей, предметы, ключевые события, итп и собирает из этого интерактивную игру с динамическими механиками.
Что под капотом:
Адаптивный геймплей : движок обрабатывает любые действия игрока в рамках игрового мира (в SFW рамках)
Скрытый Директор : отдельный LLM-слой, который незаметно влияет на историю и подталкивает игрока к нужным сюжетным точкам, не ломая погружение
Визуал в реальном времени : картинка генерируется на лету через API Odyssey AI (технология world modeling)
Пока это ранний прототип — есть что улучшать: скорость, стабильность, UI/UX. Но ядро работает, и дальше, наверное, будет интереснее.
@toshoseti
🔥16👍5