🎨 Qwen-Image: магия точных текстов через MMDiT
Alibaba выпустили Qwen-Image — 20B параметров MMDiT модель, которая наконец решила проблему качественного текстового рендеринга в генерациях изображений.
китайский и английский языки теперь полностью сохраняют структуру и семантику в генерациях
- Многострочные макеты и параграфы без искажений
- Консистентное редактирование с сохранением реализма
- Вместо дорисовки текста поверх картинки модель генерирует его как органичную часть изображения.
Это решает главную проблему ИИ-генераторов — кривые буквы и нечитаемые надписи.
Основана на архитектуре Qwen2.5-VL с поддержкой контекста до 256K токенов. Модель понимает связь между визуальным и текстовым контентом на уровне пикселей.
Особенно полезно для создания баннеров, презентаций и маркетинговых материалов, где текст должен выглядеть профессионально.
Лидирует на GenEval, DPG, OneIG-Bench для генерации + GEdit, ImgEdit, GSO для редактирования.
Особенно впечатляет LongText-Bench и ChineseWord — здесь конкуренты просто не играют.
Попробовать уже можно в Qwen Chat через режим "Image Generation"
GitHub
HF
Demo
#Qwen #TextRendering #MMDiT #Alibaba
———
@tsingular
Alibaba выпустили Qwen-Image — 20B параметров MMDiT модель, которая наконец решила проблему качественного текстового рендеринга в генерациях изображений.
китайский и английский языки теперь полностью сохраняют структуру и семантику в генерациях
- Многострочные макеты и параграфы без искажений
- Консистентное редактирование с сохранением реализма
- Вместо дорисовки текста поверх картинки модель генерирует его как органичную часть изображения.
Это решает главную проблему ИИ-генераторов — кривые буквы и нечитаемые надписи.
Основана на архитектуре Qwen2.5-VL с поддержкой контекста до 256K токенов. Модель понимает связь между визуальным и текстовым контентом на уровне пикселей.
Особенно полезно для создания баннеров, презентаций и маркетинговых материалов, где текст должен выглядеть профессионально.
Лидирует на GenEval, DPG, OneIG-Bench для генерации + GEdit, ImgEdit, GSO для редактирования.
Особенно впечатляет LongText-Bench и ChineseWord — здесь конкуренты просто не играют.
Попробовать уже можно в Qwen Chat через режим "Image Generation"
GitHub
HF
Demo
#Qwen #TextRendering #MMDiT #Alibaba
———
@tsingular
🔥6👍3👏2
Буря мглою небо кроет, вихри снежные крутя...
По версии Qwen. :)
Ну, спасибо хоть Пушкина в подписи не забыл.
#Qwen #Image
———
@tsingular
По версии Qwen. :)
Ну, спасибо хоть Пушкина в подписи не забыл.
#Qwen #Image
———
@tsingular
😁9👍5💯1
Kaggle запускает Game Arena для тестирования ИИ-агентов в играх
Kaggle представил новую платформу для оценки алгоритмов через игровые сценарии.
Game Arena позволяет разработчикам тестировать своих ИИ-агентов в различных играх и сравнивать результаты с другими участниками.
Платформа использует механизмы прозрачности для честной оценки - адаптивную настройку сложности и анализ данных в реальном времени.
Ключевая проблема: риск "натаскивания на тест" может искажать реальную оценку способностей алгоритмов.
Отбор игр происходит по критериям: баланс сложности, потенциал для машинного обучения и разнообразие сценариев.
Теперь ИИ-агенты смогут играть в шахматы, покер и тетрис, чтобы доказать свою крутость. Главное - не дать им освоить азартные игры. 🎮
Хотя... :)
#Kaggle #GameArena #benchmarks
------
@tsingular
Kaggle представил новую платформу для оценки алгоритмов через игровые сценарии.
Game Arena позволяет разработчикам тестировать своих ИИ-агентов в различных играх и сравнивать результаты с другими участниками.
Платформа использует механизмы прозрачности для честной оценки - адаптивную настройку сложности и анализ данных в реальном времени.
Ключевая проблема: риск "натаскивания на тест" может искажать реальную оценку способностей алгоритмов.
Отбор игр происходит по критериям: баланс сложности, потенциал для машинного обучения и разнообразие сценариев.
Теперь ИИ-агенты смогут играть в шахматы, покер и тетрис, чтобы доказать свою крутость. Главное - не дать им освоить азартные игры. 🎮
Хотя... :)
#Kaggle #GameArena #benchmarks
------
@tsingular
👍4🔥3❤2⚡1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
***AI o4 - вы что подумали?
А вот и нет! Чтобы вам жизнь медом не казалась, а нейминг от Альтмана тренировал вашу и без того короткую память, китайцы теперь тоже именуют модели как o4!!!!
В общем пост про XBAI o4 - еще одна LLM с открытым исходным кодом (Apache 2.0) от китайской лаборатории искусственного интеллекта. Китайцы клянуцца что:
XBai o4 ПОЛНОСТЬЮ превосходит в сложных рассуждениях (complex reasoning capabilities ) OpenAI-o3-mini в режиме Medium. См картинку.
Это модель на 32.8 миллиарда параметров, выпущенная китайцами из MetaStone AI, которые выпустили свою первую модель в марте - MetaStone-L1-7B, затем последовали MetaStone-S1 1.5B, 7B и 32B в июле, а теперь XBai o4 в августе.
В твитторах очень мало информации о MetaStone AI. В их документах указана связь с USTC, Университетом науки и техники Китая. Один из исследователей подтвердил, что их генеральный директор - выходец из KWAI. www.wenxiaobai.com указан как "официальный сайт", на который ведет ссылка из XBai-o4 README на GitHub.
Взрослые мальчики уже запустили модель на Маке и пишут, что впечатления чуть хуже, чем от Qwen3-Coder-30B-A3B-Instruct или GLM-4.5 Air.
Однако факт остается фактом, малоизвестные китайцы, просто, тихо и без понтов говяжих, выпускают модель за моделью, которые дышат в затылок приподразхайпленным монстрам с обеих сторон Тихого океана.
Фарш тут: https://huggingface.co/MetaStoneTec/XBai-o4
Код тут: https://github.com/MetaStone-AI/XBai-o4/
В LM Studio тоже заводится, требует 25 ГБ памяти для 6-бит версии.
@cgevent
А вот и нет! Чтобы вам жизнь медом не казалась, а нейминг от Альтмана тренировал вашу и без того короткую память, китайцы теперь тоже именуют модели как o4!!!!
В общем пост про XBAI o4 - еще одна LLM с открытым исходным кодом (Apache 2.0) от китайской лаборатории искусственного интеллекта. Китайцы клянуцца что:
XBai o4 ПОЛНОСТЬЮ превосходит в сложных рассуждениях (complex reasoning capabilities ) OpenAI-o3-mini в режиме Medium. См картинку.
Это модель на 32.8 миллиарда параметров, выпущенная китайцами из MetaStone AI, которые выпустили свою первую модель в марте - MetaStone-L1-7B, затем последовали MetaStone-S1 1.5B, 7B и 32B в июле, а теперь XBai o4 в августе.
В твитторах очень мало информации о MetaStone AI. В их документах указана связь с USTC, Университетом науки и техники Китая. Один из исследователей подтвердил, что их генеральный директор - выходец из KWAI. www.wenxiaobai.com указан как "официальный сайт", на который ведет ссылка из XBai-o4 README на GitHub.
Взрослые мальчики уже запустили модель на Маке и пишут, что впечатления чуть хуже, чем от Qwen3-Coder-30B-A3B-Instruct или GLM-4.5 Air.
Однако факт остается фактом, малоизвестные китайцы, просто, тихо и без понтов говяжих, выпускают модель за моделью, которые дышат в затылок приподразхайпленным монстрам с обеих сторон Тихого океана.
Фарш тут: https://huggingface.co/MetaStoneTec/XBai-o4
Код тут: https://github.com/MetaStone-AI/XBai-o4/
В LM Studio тоже заводится, требует 25 ГБ памяти для 6-бит версии.
@cgevent
😁6❤3🔥1
Наглядная иллюстрация к разговору о количестве параметров в LLM
Скачок в качестве ответов 0.6B -> 6B будет заметен сразу.
А вот дальше, скажем, на переходе от 600B к, прости господи, 6T,- большинство даже не заметят.
Вообще, кому в здравом уме может понадобится модель больше?
Для большинства задач 600B будет достаточно! 😎
#иллюстрации #size #юмор
------
@tsingular
Скачок в качестве ответов 0.6B -> 6B будет заметен сразу.
А вот дальше, скажем, на переходе от 600B к, прости господи, 6T,- большинство даже не заметят.
Вообще, кому в здравом уме может понадобится модель больше?
Для большинства задач 600B будет достаточно! 😎
#иллюстрации #size #юмор
------
@tsingular
✍7👍5😁5🗿2👨💻1
Coflex - автоматизация проектирования ASIC для LLM
Вышел open-source фреймворк Coflex, который автоматически оптимизирует ASIC чипы под LLM.
Ключевая фишка - снижение вычислительной сложности с O(n³) до почти линейной O(nm²).
По сути это исследователь, который разбирается в железной архитектуре и ищет сходимость узлов программной архитектуры с микросхемной топологией.
В каждой оптимизационной итерации фреймворк рассчитывает потери с точки зрения количества ошибок и эффективности железа в части задержек в прохождении сигнала и подбирает оптимальное соотношение.
Система использует Sparse Gaussian Processes для навигации по пространству с 10¹⁸ конфигураций аппаратного и программного обеспечения.
Вместо медленного полного перебора создает "карту" всего пространства через небольшой набор репрезентативных точек.
Доступен на GitHub
Paper
АСИКИ для LLM!
Биткоин фермеры опасносте.
#Coflex #ASIC
———
@tsingular
Вышел open-source фреймворк Coflex, который автоматически оптимизирует ASIC чипы под LLM.
Ключевая фишка - снижение вычислительной сложности с O(n³) до почти линейной O(nm²).
По сути это исследователь, который разбирается в железной архитектуре и ищет сходимость узлов программной архитектуры с микросхемной топологией.
В каждой оптимизационной итерации фреймворк рассчитывает потери с точки зрения количества ошибок и эффективности железа в части задержек в прохождении сигнала и подбирает оптимальное соотношение.
Система использует Sparse Gaussian Processes для навигации по пространству с 10¹⁸ конфигураций аппаратного и программного обеспечения.
Вместо медленного полного перебора создает "карту" всего пространства через небольшой набор репрезентативных точек.
Доступен на GitHub
Paper
АСИКИ для LLM!
Биткоин фермеры опасносте.
#Coflex #ASIC
———
@tsingular
❤3🔥3🤯3⚡1
ИИ раскрыл новые физические законы на задаче по анализу пылевой плазмы
Команда из Emory University показала, как правильно обученная нейросеть может находить новые физические законы в экспериментальных данных.
Модель была обучена на реальных экспериментальных данных (3D-трекинг лазерной томографией), а не на симуляциях с синтетическими параметрами.
Результат — точность R² > 0.99 при предсказании траекторий частиц и открытие неожиданных отклонений от классической теории.
Техническая архитектура:
- 3 независимые нейросети для разных типов сил: межчастичные взаимодействия, внешние силы, демпфирование
- Встроенные физические симметрии в архитектуру (трансляционная инвариантность в xy-плоскости)
- "Weak form" loss function — фильтрация ускорений через интегрирование вместо зашумленных производных
- Масштабирование O(N²) для N частиц
Неожиданные открытия:
- Эффективная длина экранирования λ зависит от размера частиц (вопреки теории)
- Заряд частиц q ∼ m^p, где p = 0.30-0.80 (теория предсказывает p = 1/3)
- Показатель p растет с давлением газа — намек на коллизионные эффекты
Подход экспериментально проверен и опубликован в PNAS.
Технология применима для изучения явлений от колец Сатурна до земной ионосферы.
Кто-то тут недавно спрашивал, - когда уже ИИ начнет открытия в реальном мире делать,- получите, распишитесь.
#MachineLearning #Physics #Plasma #ScientificML
———
@tsingular
Команда из Emory University показала, как правильно обученная нейросеть может находить новые физические законы в экспериментальных данных.
Модель была обучена на реальных экспериментальных данных (3D-трекинг лазерной томографией), а не на симуляциях с синтетическими параметрами.
Результат — точность R² > 0.99 при предсказании траекторий частиц и открытие неожиданных отклонений от классической теории.
Техническая архитектура:
- 3 независимые нейросети для разных типов сил: межчастичные взаимодействия, внешние силы, демпфирование
- Встроенные физические симметрии в архитектуру (трансляционная инвариантность в xy-плоскости)
- "Weak form" loss function — фильтрация ускорений через интегрирование вместо зашумленных производных
- Масштабирование O(N²) для N частиц
Неожиданные открытия:
- Эффективная длина экранирования λ зависит от размера частиц (вопреки теории)
- Заряд частиц q ∼ m^p, где p = 0.30-0.80 (теория предсказывает p = 1/3)
- Показатель p растет с давлением газа — намек на коллизионные эффекты
Подход экспериментально проверен и опубликован в PNAS.
Технология применима для изучения явлений от колец Сатурна до земной ионосферы.
Кто-то тут недавно спрашивал, - когда уже ИИ начнет открытия в реальном мире делать,- получите, распишитесь.
#MachineLearning #Physics #Plasma #ScientificML
———
@tsingular
👍13🔥6⚡3❤1🤔1🐳1
Напоминаю, сегодня в 20:30 эфирим на тему новинок AWS.
https://xn--r1a.website/tsingular/4646
Всё самое интересное от мирового лидера облачных ИИ сервисов.
Стрим будет тут
Если у вас есть вопросы заранее, - накидайте в комменты, - зададим на стриме вместе Владимиру.
#AWS #эфиры
———
@tsingular
https://xn--r1a.website/tsingular/4646
Всё самое интересное от мирового лидера облачных ИИ сервисов.
Стрим будет тут
Если у вас есть вопросы заранее, - накидайте в комменты, - зададим на стриме вместе Владимиру.
#AWS #эфиры
———
@tsingular
✍5❤2💯1
Intuit превратили GenOS в конвейер ИИ-агентов для 100М пользователей
Один из интересных кейсов на AWS Summit - как Intuit разработали и прокачали свою собственную операционную систему GenOS для работы с бухгалтерией.
Представьте если бы, например, 1С выпустила свою операционную систему с ИИ агентами.
GenOS эволюционировала от экспериментов до промышленной платформы агентной автоматизации за 2 года.
Теперь это полноценная ОС для создания ИИ-приложений: собственные финансовые LLM плюс интеграция с GPT, Claude, Amazon Nova.
Agent Starter Kit за 5 недель привлёк 900+ разработчиков и 100+ команд. Агенты уже работают в QuickBooks (автообработка дебиторки), TurboTax (автоконвертация налоговых изменений в код).
Техническая начинка из 4 компонентов:
- GenWorkbench (IDE для агентов),
- GenRuntime (интеллектуальный слой планирования),
- GenSRF (защита от prompt injection),
- GenUX (150+ UI-компонентов).
Система обрабатывает 60 млрд ML-транзакций в день.
#Intuit #GenOS #agents
———
@tsingular
Один из интересных кейсов на AWS Summit - как Intuit разработали и прокачали свою собственную операционную систему GenOS для работы с бухгалтерией.
Представьте если бы, например, 1С выпустила свою операционную систему с ИИ агентами.
GenOS эволюционировала от экспериментов до промышленной платформы агентной автоматизации за 2 года.
Теперь это полноценная ОС для создания ИИ-приложений: собственные финансовые LLM плюс интеграция с GPT, Claude, Amazon Nova.
Agent Starter Kit за 5 недель привлёк 900+ разработчиков и 100+ команд. Агенты уже работают в QuickBooks (автообработка дебиторки), TurboTax (автоконвертация налоговых изменений в код).
Техническая начинка из 4 компонентов:
- GenWorkbench (IDE для агентов),
- GenRuntime (интеллектуальный слой планирования),
- GenSRF (защита от prompt injection),
- GenUX (150+ UI-компонентов).
Система обрабатывает 60 млрд ML-транзакций в день.
#Intuit #GenOS #agents
———
@tsingular
✍3🔥3👍2
Коллекция из 300+ кейсов ML-систем от 80+ компаний
Репозиторий собрал практические примеры дизайна машинного обучения от Netflix, Uber, Google и десятков других компаний.
Каждый кейс показывает реальные решения: как справились с масштабированием, какие архитектурные хаки применили, где споткнулись.
Особенно ценны примеры борьбы с bias'ами в моделях и методы оценки эффективности в разных индустриях.
Материалы структурированы по отраслям и типам ML-задач. Можно быстро найти релевантный опыт для своего проекта.
Теперь не нужно изобретать велосипед - кто-то уже наступил на все грабли за вас.
#ML #кейсы
------
@tsingular
Репозиторий собрал практические примеры дизайна машинного обучения от Netflix, Uber, Google и десятков других компаний.
Каждый кейс показывает реальные решения: как справились с масштабированием, какие архитектурные хаки применили, где споткнулись.
Особенно ценны примеры борьбы с bias'ами в моделях и методы оценки эффективности в разных индустриях.
Материалы структурированы по отраслям и типам ML-задач. Можно быстро найти релевантный опыт для своего проекта.
Теперь не нужно изобретать велосипед - кто-то уже наступил на все грабли за вас.
#ML #кейсы
------
@tsingular
🔥4⚡3✍3
Меньше чем через час начинаем эфир на тему новинок с AWS Summit 2025.
https://xn--r1a.website/tsingular/4646
Стрим будет тут
#AWS #эфиры
———
@tsingular
https://xn--r1a.website/tsingular/4646
Стрим будет тут
#AWS #эфиры
———
@tsingular
👍6⚡2❤2
Anthropic релизнули Opus 4.1
SWE-bench 74.5% против 72.5% у Opus 4
в API: claude-opus-4-1-20250805
С его ценой, - кто-нибудь вообще использует его?
Хотя, конечно, по метрикам хорош.
#Claude #Opus
———
@tsingular
SWE-bench 74.5% против 72.5% у Opus 4
в API: claude-opus-4-1-20250805
С его ценой, - кто-нибудь вообще использует его?
Хотя, конечно, по метрикам хорош.
#Claude #Opus
———
@tsingular
👍2🔥2❤1
OpenAI выпустили открытки
HF: gpt-oss-120b - 64Гига (2х 5090)
HF: gpt-oss-20b - 16гигов
128K токенов контекста
q4 нарезка
Apache 2.0
Demo
#OpenAI #OSS
———
@tsingular
HF: gpt-oss-120b - 64Гига (2х 5090)
HF: gpt-oss-20b - 16гигов
128K токенов контекста
q4 нарезка
Apache 2.0
Demo
#OpenAI #OSS
———
@tsingular
👍7🔥4💯2
Forwarded from Denis Sexy IT 🤖
Го смотреть стрим игры в шахматы между Opus 4 и Gemini 2.5 Pro:
https://youtu.be/Kd2SszjZwr0?si=fde-RnB48xaxICD9
https://youtu.be/Kd2SszjZwr0?si=fde-RnB48xaxICD9
YouTube
Game Arena: Gemini 2.5 Pro vs Claude Opus 4 (Round 1) | Kaggle
Get ready for an epic AI chess showdown in the Kaggle Game Arena! This match is part of our inaugural 3-day exhibition tournament, where eight of the world’s most advanced language models compete to see which one reigns supreme.
Each model brings its own…
Each model brings its own…
❤1👍1
Media is too big
VIEW IN TELEGRAM
🎙 Запись эфира: AWS Summit, AI-агенты и будущее ИИ
Сегодня обсудили с Владимиром Проворовым ( @itismyjob ) главные тренды в развитии AI, как на AWS Summit так и за его пределами.
Ключевые темы:
- Amazon Bedrock AgentCore - 7 новых сервисов для создания агентов с разделяемой памятью и маркетплейсом инструментов для ИИ агентов
- S3 Vectors - масштабные векторный базы данных для агентов работающих с миллионами документов
- Kiro IDE - новый конкурент Cursor, Trae & ClaudeCode - ИИ агент, который создает код с учетом архитектурных требований
- Intuit - стартап обрабатывающий 60 млрд налоговых транзакций с помощью МЛ, создавший свою операционку для ИИ агентов.
Так же обсудили последние новости и модели
- OpenAI выпустила две открытые модели GPT-OSS (20B и 120B параметров) - уровня O3, но весом всего 64 ГБ
- Anthropic обновил Opus до версии 4.1
Коснулись инфраструктуры будущего:
- Гонка за создание дата-центров на миллион GPU (8 в мире, включая Китай)
- Маск строит кластер Colossus в палатках чтобы в этой гонке не отставать
- Энергетический вопрос становится критическим - компании ищут регионы с дешевым электричеством
Главный инсайт: Мы входим в технологический резонанс - AI помогает создавать более мощные модели и железо, которые позволят создать еще более мощный AI.
Отставание на год может означать отставание навсегда.
Youtube
Rutube
#эфиры #AWS
------
@tsingular
Сегодня обсудили с Владимиром Проворовым ( @itismyjob ) главные тренды в развитии AI, как на AWS Summit так и за его пределами.
Ключевые темы:
- Amazon Bedrock AgentCore - 7 новых сервисов для создания агентов с разделяемой памятью и маркетплейсом инструментов для ИИ агентов
- S3 Vectors - масштабные векторный базы данных для агентов работающих с миллионами документов
- Kiro IDE - новый конкурент Cursor, Trae & ClaudeCode - ИИ агент, который создает код с учетом архитектурных требований
- Intuit - стартап обрабатывающий 60 млрд налоговых транзакций с помощью МЛ, создавший свою операционку для ИИ агентов.
Так же обсудили последние новости и модели
- OpenAI выпустила две открытые модели GPT-OSS (20B и 120B параметров) - уровня O3, но весом всего 64 ГБ
- Anthropic обновил Opus до версии 4.1
Коснулись инфраструктуры будущего:
- Гонка за создание дата-центров на миллион GPU (8 в мире, включая Китай)
- Маск строит кластер Colossus в палатках чтобы в этой гонке не отставать
- Энергетический вопрос становится критическим - компании ищут регионы с дешевым электричеством
Главный инсайт: Мы входим в технологический резонанс - AI помогает создавать более мощные модели и железо, которые позволят создать еще более мощный AI.
Отставание на год может означать отставание навсегда.
Youtube
Rutube
#эфиры #AWS
------
@tsingular
3👍14❤🔥7🔥6⚡2✍1
Media is too big
VIEW IN TELEGRAM
ElevenLabs запустили генератор музыки
Компания ElevenLabs, известная своими генераторами голоса и переводчиками, представила ИИ-генератор музыки.
Инструмент создаёт оригинальные композиции с использованием нейронок и вариационных автоэнкодеров.
Русский поддерживает.
Отменяем подписку на Suno, тут оркестры уровня Ханса Циммера завезли!
UPD: качество такое в плане голоса и акцентов, - идеально генерить пародии.
Угадаете песнь в комментарии?
Подписку на Suno не отменяем :)
#ElevenLabs #music
———
@tsingular
Компания ElevenLabs, известная своими генераторами голоса и переводчиками, представила ИИ-генератор музыки.
Инструмент создаёт оригинальные композиции с использованием нейронок и вариационных автоэнкодеров.
Русский поддерживает.
Отменяем подписку на Suno, тут оркестры уровня Ханса Циммера завезли!
UPD: качество такое в плане голоса и акцентов, - идеально генерить пародии.
Угадаете песнь в комментарии?
Подписку на Suno не отменяем :)
#ElevenLabs #music
———
@tsingular
👍5🔥2❤1⚡1