эйай ньюз
84.4K subscribers
1.84K photos
979 videos
7 files
2.17K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
🔥FLUX.2 [max]

Парни из BFL зарелизили свой самую мощную модель! Она лучше FLUX.2-flex и FLUX.2-pro, но уступает Nano Banana Pro на text2image и нескольким другим моделям на image edit.

* Grounded generation — ищет в интернете актуальный контекст в реальном времени: результаты вчерашних матчей, текущую погоду, исторические события с точными деталями. Просто добавьте в запрос фразу «Search the internet» — и магия начнётся.

* До 10 референсных изображений. Продукты, персонажи и стили остаются консистентными.

На лидерборде lmarena.ai модель занимает 3 и 7 место:
🔹 #3 на Text-to-Image
🔹 #7 на Image Edit

А на лидерборде artificialanalysis.ai:
🔹 #2 Text-to-Image и на Image Edit

Доступна только по API (ссылка на fal), лоры тренить тоже нельзя.

Скидывайте свои тесты в комменты.

@ai_newz
150🔥19👍11❤‍🔥32🫡2😁1
Желтый воротник под розовым как-то не очень. Мог бы и получше черипик выбрать (upd - в твитторе уже исправили).

@ai_newz
😁10120🤯8😍1
Вот так-то лучше.

@ai_newz
1😁27927🤩12👍1🔥1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
вышло.. GPT Image 1.5

Реализм сильно улучшили, модель с ризонингом. Это заявка на конкуренцию с Nano Banana Pro.

Заявлено, что модель работает в 4x раза быстрее чем GPT-Image-1. Но это оказалось неправдой.

Картинка на 1.5MP генерится 60-65 сек – против ~90 сек у GPT-Image-1. Ускрорение есть, но это все равно супер медленно. Нана банана генерит в 2 раза быстрее.

На лидербордах GPT-Image-1.5 пока нет. Думаю, что будет где-то между Nano Banan Pro и Nano Banan.

UPD: предварительно GPT-Image-1.5 стал Top-1 на обоих лидербордах 😮. Ждем пока появится больше голосов, чтобы рейтинг стал более confident.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
81🔥41😁26👍233🦄2😱1
SAM-Audio: находка для шпиона

Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.

Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.

В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.

Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.

При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.

Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).

Блогпост
Демо
GitHub

@ai_newz
🤯8260👍33🔥16❤‍🔥5
Вышла Gemini 3 Flash

Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.

Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.

Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).

Блогпост

@ai_newz
1👍102🔥6040😍41😁1
mini-SGLang — оптимизированный минималистичный инференс движок

Кодбаза способна на полноценный инференс Qwen 3 (Dense) и Llama 3 на уровне производительности большого SGLang, в котором на два порядка больше кода. Проект предназначен как и для обучения работе современных инференс движков, так и как минималистичная кодбаза для ресёрча.

В ~5,000 строк кода на Python влезают основные оптимизации SGLang и довольно много функционала. Движок поддерживает как онлайн (по OpenAI API) так и оффлайн инференс, инференс на нескольких GPU, context caching. Но в то же время многим пришлось пожертвовать — выкинули поддержку большинства моделей, поддержку MoE, поддержку AMD и т.д. Но сама идея иметь минималистичную версию проекта с такой же архитектурой для экспериментирования и онбординга новых контрибьюторов мне нравится, хотелось бы больше такого.

Блогпост
https://github.com/sgl-project/mini-sglang

@ai_newz
59👍39🔥15🤯1😍1
Kandinsky 5.0 Video на text-to-video арене

На арене появились результаты моделей Kandinsky 5.0 Video Lite и Pro.

Pro-версия — ТОП-1 открытая модель в мире.

На общем фоне Pro-версия уступает SOTA-моделям от Google, OpenAI, Alibaba и KlingAI. Но можно говорить о паритете с Luma Ray 3 и Minimax Hailuo 2.3 (отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла). Lite-версия (2B параметров) оказалась лучше первой версии Sora.

Стоит отметить, что сам факт выхода российской генеративной модели на международную арену и её конкуренция с другими игроками — событие довольно редкое, я бы сказал, неожиданное.

По архитектуре это довольно немаленький (19B) DiT с кросс атеншеном на текст. При этом VAE на базе HunyuanVideo. Генерит в 24fps видео длиной 5 или 10 секунд В HD (1280x768)

Веса
GitHub
Техрепорт

@ai_newz
2👍243🔥9836😁13🤯9🦄3
Команда Три Дао снова применяет чёрную магию оптимизации, на этот раз для ускорения тренировки MoE. SonicMoE почти в два раза быстрее лучших открытых кернелов для MoE, при этом используя почти в два раза меньше памяти для хранения активаций. На практике это повышает эффективность тренировки в полтора раза — 64 H100 с SonicMoE тренируют 7B MoE модель с такой же скоростью как 96 H100 с предыдущей лучшей имплементацией.

Пейпер

Код

@ai_newz
🔥11326🤯14👍7🫡1
Forwarded from Denis Sexy IT 🤖
Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а эко-графика

Потому что текст из LLM и генеративные АИ-картинки оставляют намного меньший отпечаток карбона в мире, чем реальные художники и писатели ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁189🔥77🦄238💯6👍4😱2💔2
Нейродайджест за неделю (#99)

LLM
- Вышла Gemini 3 Flash — Выносит 2.5 Pro, на паре бенчей обгоняет даже Gemini 3 Pro, будучи значительно дешевле. Гибридный ризонер, уже доступен в API и продуктах Google.

Генеративные модели
- FLUX.2 [max] Уступает Nano Banana Pro, но может хорошо работать с 10 референсами.
- GPT Image 1.5 — Улучшили реализм и добавили ризонинг как в Nano Banana Pro. Вышла полноценная альтернатива.
- SAM-Audio: находка для шпиона — Meta добавила в SAM аудиомодальность. Теперь можно выделить объект на видео и услышать только его звук, отделив от остального шума.
- Kandinsky 5.0 Video на text-to-video арене — Pro-версия стала топ-1 открытой моделью в мире на T2V-арене, уступая SOTA-моделям, но наравне с Luma Ray 3.

Прочее
- mini-SGLang — Оптимизированный и минималистичный инференс-движок (~5000 строк кода) для образовательных целей и ресёрча, поддерживающий основные фичи SGLang.
- Оптимизация тренировки MoE от DaoLab — Команда Dao AI Lab снова творит магию. SonicMoE почти вдвое быстрее и эффективнее по памяти, чем лучшие открытые кернелы для тренировки MoE.

> Читать дайджест #98

#дайджест
@ai_newz
31👍155🔥5
Яндекс разработал ИИ-инструмент для автоматического анализа видеозаписей с лабораторными мышами. Такие записи — основа когнитивных исследований: по поведению животных ученые изучают работу мозга и разрабатывают методы лечения эмоциональных расстройств. Проблема в том, что ручная разметка одного 10-минутного видео занимает около часа, а для полноценного исследования нужно обработать десятки часов материала. Мои одногруппники в Хайдельбергском университете тоже занимались анализом видео с мышами (статья в Nature), так что об этой проблеме знаю не понаслышке.

Новый инструмент делает эту работу за минуты: система находит ключевые точки на теле мыши и распознает её действия с точностью 89%. Ученые уже сэкономили с его помощью 500 часов ручного труда, но это лишь начало — такая автоматизация позволяет легче масштабировать эксперименты, что ведёт к лучшему качеству. Сейчас компания предоставляет доступ к инструменту по запросу, а в будущем откроет его исходный код для всего научного сообщества. Это позволит исследователям использовать решение в других социальнозначимых проектах.

@ai_newz
👍137🔥5929😁13🤯2❤‍🔥1
Microsoft планирует отказаться от C/C++ к 2030 году

О проекте гигантского переписывания кода стало известно из вакансии, где для него ищут сотрудников. Цель амбициозная — миллион строчек портированного кода на человека в месяц, что было бы невозможно без использования ИИ (да и с ИИ есть сомнения). Заменой послужит Rust, который успешно применяют в компании. На него уже переписали несколько компонентов Windows, а также используют в Azure.

Флаг им в руки, интересно что выйдет из этого гигантского эксперимента по переписыванию кода. Хотя если посмотреть на "успехи" Microsoft в сфере AI и на качество их софта в последнее время, то возникают сомнения по поводу перспектив проекта.

@ai_newz
4😁251🤯68🔥22🫡1513👍6💯5🦄5💔2😱1
Media is too big
VIEW IN TELEGRAM
Qwen-Image-Edit-2511: теперь и у Qwen есть своя Nano Banana

Умеет всё то же, что и аналоги от Google, OpenAI и Flux. Клёво, что Qwen тоже не отстаёт от гонки, причём их релиз вышел под лицензией Apache 2.0. Это обновление старой Qwen Image Edit, версии Qwen Image вдохновлённой Flux Kontext.

Главная фишка релиза — возможности популярных LoRA (например, для улучшения освещения или смены ракурса), интегрированы здесь прямо в базовую модель. Отдельно так же дообучили на полезные для реального дизайна фичи, такие как генерация изометрических проекций и замена материала. С этим в целом и банан явно справляется, но квен все-таки локальная и главное открытая моделька.

Модель с первого дня поддерживается LightX2V, с ускорением в 1.4 раза. А в комбинации с дистилляцией и FP8 обещают ускорение до 42-х раз.

Результаты нужно смотреть на практике, но сам факт появления сильного опенсорс-конкурента — это отлично.

Демо Hugging Face
Демо Qwen Chat
Пейпер
Обнимающее лицо
Гитхаб

@ai_newz
1🔥14624👍18😁1