эйай ньюз
82K subscribers
1.78K photos
942 videos
7 files
2.11K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Kling 2.5 Turbo бросает вызов Veo 3

Вышла новая версия китайской модельки под скромным номером 2.5, что как бы намекает — это ещё не революция, и нам стоит ждать большего.

На деле же мы получаем физику и prompt understanding на уровне, очень близком к SOTA от гугл. Черипики, как всегда, топовые, но это не показатель — с этим справилась даже Luma на своей сомнительной Ray 3. Дополнительных данных нет — ни бенчмарков, ни даже официального блогпоста.

Пока вышла только Turbo-версия. Pro или Standard скорее всего существуют в недрах компании, но не факт что их релизнут. А если они и появятся, выигрыш в качестве не гарантирован — так же, как с Veo и Veo Fast, которые хоть и отличаются в стоимости в 5 раз, но на деле дистиллированная версия выдаёт почти неотличимый от полноценной Veo 3 результат.

Потестить уже сейчас можно на самом klingai.com, а также у независимых провайдеров вроде Fal, Freepik и Higgsfield. Последние, кстати, прикрутили удобный промпт-энхансер, который переводит подсказку в JSON. Там же сейчас можно крутить модельку безлимитно по подписке Creator и выше.

@ai_newz
👍5238🔥19😁61😱1🤩1
Media is too big
VIEW IN TELEGRAM
ChatGPT Pulse

Теперь ChatGPT может проактивно ресёрчить топики которые считает важными и выдавать репорт каждое утро. Темы выбираются на основе недавних чатов, памяти, подключенных приложений и пожеланий пользователей. Уже доступно подписчикам Pro уровня в новой версии мобильного приложения.

@ai_newz
126👍65🔥36🤯21😁6😱6🦄2🙏1
Яндекс решил зайти со стороны no-code и обновил свою AI Studio (не путать с aistudio.google.com). По сути, это платформа, которая позволяет собирать AI-агентов для автоматизации рутины почти без навыков разработки. Под капотом — поддержка мультиагентных сценариев, AI Search (RAG) для работы с документами и поиска в интернете, realtime API для генерации ответа в режиме реального времени и возможность интеграции с внешними сервисами через MCP Hub. Говорят, любая компания может создать в нем шаблон для подключения к своим сервисам по MCP, чтобы все остальные могли быстро подключить к ним своих агентов.

Главная идея здесь в том, чтобы дать инструмент напрямую сотрудникам. Тот же бухгалтер сможет использовать агента для рутинного составления отчётов, значительно повысив личную продуктивность. Но пока, чтобы запустить агента, все равно нужен разработчик, который сможет интегрировать его в условный Telegram-бот. На практике, конечно, главный барьер — не технология, а люди. Не все бухгалтеры готовы переходить на нейросети и скорее предпочтут сделать всё по старинке.

А те, кто шарит, могут и кодом всё написать. Хотя, в теории no-code визуализирует пайплайн и берет на себя ту часть работы, где ты вручную вводишь текст в IDE, плюс вайбкодерам его легче редактировать, что теоретически ускоряет разработку и понижает порог входа. Собрать такую тулу под себя с нуля всё равно сложно.

@ai_newz
3😁12542👍35🫡9🔥4
K2 Vendor Verifier

Команда Kimi решила протестить разных вендоров своей модели на точность тулюза. Каждому провайдеру дают 2 тысячи одинаковых запросов и сравнивают результаты с официальным API. Результаты вышли не очень — у всех протестированных 3rd party провайдеров заметные проблемы. К сожалению, Groq, самого интересного провайдера K2 не затестили.

Подобные тесты уже делали Artificial Analysis с gpt-oss, и обнаружили пропасть между провайдерами по результатам бенчей. Пора делать такие тесты повсеместными для всех моделей и провайдеров, иначе баги инференса будут и дальше тихо портить всем жизнь.

https://github.com/MoonshotAI/K2-Vendor-Verfier

@ai_newz
70👍38🔥9😱5😁2
Media is too big
VIEW IN TELEGRAM
Suno V5 + Suno Studio — RIP Mozart AI

Недавно я писал про Mozart AI, которые пытались сделать AI DAW (Digital Audio Workstation) для музыкантов. Но их продукт, как многие заметили в комментариях, всё ещё сырой. И вот пришёл гигант — Suno (по моему мнению, лучший, лучше чем Udio), выкатил свою новую SOTA-модель V5 и сразу же полноценную Studio-версию. И просто решил все проблемы.

По сути, это всё, что обещал Mozart AI, но уже реализованное и с новыми фичами. Главная из них — можно напеть мелодию, а затем превратить её в отдельную дорожку (stem), как на 10:25.

Что это даёт? Дикий контроль. Теперь продюсер, имея один только ноутбук, может получить реалистичную аудиозапись инструмента, а не MIDI-болванку. Причём со всеми нюансами, которые невозможно запрограммировать: реалистичной динамикой, звуком удара медиатора по струнам или шорохом пальцев гитариста по грифу, и всё это в «комнате» с её естественным эмбиенсом.

Профессионалы, конечно, не будут использовать Suno Studio как основную DAW, но как генератор стемов — это геймченджер.

Многие боятся, что генеративная музыка захламит чарты AI-слопом (треть новой музыки на стримингах уже сгенерирована). Но я думаю, что именно эта технология сделает музыку только лучше. Теперь вместо стерильных, запрограммированных в MIDI инструменталов можно будет генерить реалистичные аудиодорожки, что только поднимет общее качество продакшена.

V5 доступна пока только по подписке. Suno Studio — на тире Premier, но сейчас есть скидка: $15 в месяц на первые 3 месяца вместо $30.

@ai_newz
2🔥158👍4839🦄7😁3💔2
Нейродайджест за неделю (#88)

LLM
- DeepSeek V3.1 Terminus — Вероятно, последний релиз в линейке V3. Выросла по агентским бенчам. Ждём V4 в ближайшие недели.
- ChatGPT Pulse — ChatGPT теперь может проактивно ресёрчить важные для вас темы и выдавать отчёт каждое утро.
- K2 Vendor Verifier — у всех сторонних провайдеров заметные проблемы с точностью.

Генеративные модели
- Kling 2.5 Turbo — Новая версия китайской видеомодели бросает вызов Veo 3. Физика и понимание промпта на уровне, близком к SOTA.
- Suno V5 + Suno Studio — Suno выкатили SOTA-модель и полноценную AI DAW. Главная фича — превращение напетой мелодии в инструментальную дорожку.

Робототехника
- Робот-кунгфуист — Новый гуманоид Unitree G1 от китайцев с улучшенной стабильностью. Быстро встаёт после ударов. Следующий шаг — научиться бить в ответ.

> Читать дайджест #87

#дайджест
@ai_newz
127🔥16👍75🦄1
Bitter Lesson снова в деле. Это главная мысль из доклада Дмитрия Иванова (Yandex B2B Tech) с big tech night. Эволюция AI от простых классификаторов к автономным агентам доказывает: вместо того, чтобы вручную тюнить правила, лучше дать системе больше данных, вычислительных мощностей и свободы.

Началось всё с классификаторов intent'ов и жёстких сценариев — система распознавала тип запроса и запускала соответствующий обработчик. Затем пришла эра файнтюнинга: под определенную задачу обучали специализированную модель, оптимизируя метрики месяцами. Сейчас те же задачи решаются промптами к более общим моделям — многостраничные текстовые инструкции определяют логику работы компонентов, от структуры поисковых ответов до выбора контента. Продуктовые гипотезы проверяются правкой текста за минуты вместо долгого переобучения.

Сейчас идёт переход к следующему этапу — когда мы задаем только минимальные ограничения вместо детальных инструкций. Системы получат только правила-запреты и самостоятельно будут выбирать тактику в заданных рамках. Агенты смогут определять последовательность вызова функций, адаптироваться к контексту и непрерывно обучаться на обратной связи. Каждый шаг эволюции увеличивает автономность за счёт снижения явного контроля разработчика (ну и, конечно, за счет того, что модели становятся более способными), причём большая часть этого пути прошла всего за три последних года. Где же мы будем ещё через три?

@ai_newz
👍78😁3720🫡7🔥2🤯2💯1
Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио

Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.

Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.

Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.

Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и нативный липсинк, конечно же.

Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.

В опенсорс, как и ожидалось, пока не выложили.

Анонс

@ai_newz
👍69🔥4216❤‍🔥10😁1🤯1
Claude Sonnet 4.5

GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.

По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.

Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.

@ai_newz
👍129🔥6429❤‍🔥2🤯2🦄2
Sora 2: Новая SOTA и AI-TikTok

Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта.

Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод.

Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI.

Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос.

Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно.

Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей.

@ai_newz
90👍31🔥21🦄6💔31😍1🫡1
А вот и генерации Sora 2 от людей. Очень хорошая физика, и пальцы не плывут. Но слегка плывут текстуры и бекграунд - есть эдакое нейронное ощущение.

Видно что в трейн закинули все, до чего могли дотянуться, включая копирайтные мультики и игры.

В модели куча цензуры и нельзя подавать фото людей на вход. Говорит на русском.

Очень интересно сколько там параметров (уверен, что это монстр жуткого размера) и на скольких GPU параллельно гоняется каждый запрос.

@ai_newz
🔥75🙏1615👍7😱7😁4🦄2
Сбер опубликовал веса двух моделей: Kandinsky Video Lite для генерации видео и Giga-Embeddings для эмбеддингов. Модели доступны под лицензией Apache 2.0, так что можно спокойно использовать коммерчески.

Kandinsky Video Lite — компактная модель с 2B параметров для генерации видео, поддерживаются видосы вплоть до 10 секунд. При этом она обходит более тяжёлые модели: Wan 2.1 (14B параметров), Wan 2.2 (5B) и даже оригинальную Sora . При этом часто достигает генераций на уровне Wan 2.2 A14B. Для 2B параметров модель вышла очень сильной, главный недостаток — 768x512 разрешение, но это можно обойти постобработкой.

Кроме этого на хабре опубликовали довольно детальный блогпост с подробностями тренировки. Из интересного — в архитектуре Kandinsky 5 используется Qwen 2.5-VL как текстовый энкодер, который расширяет промпт, а дальше фичи пропускаются через дополнительные тренируемые encoder-блоки.

Giga-Embeddings топит всех на ruMTEB с результатом 74.1 и при этом не жертвует качеством при работе с английским. Заточена под RAG-системы — даёт точный семантический поиск и не галлюцинирует. Это делает её идеальной для FAQ ботов и поиска по документации, но и для других задач, вроде дедупликации и кластеризации, она тоже подходит. А открытая лицензия и 3B параметров позволяют быстро интегрировать модель в прод.

Kandinsky Video Lite
Giga Embeddings

@ai_newz
1🔥138😁73👍3613😱3💔3🦄3