эйай ньюз
84.6K subscribers
1.84K photos
981 videos
7 files
2.18K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Яндекс решил зайти со стороны no-code и обновил свою AI Studio (не путать с aistudio.google.com). По сути, это платформа, которая позволяет собирать AI-агентов для автоматизации рутины почти без навыков разработки. Под капотом — поддержка мультиагентных сценариев, AI Search (RAG) для работы с документами и поиска в интернете, realtime API для генерации ответа в режиме реального времени и возможность интеграции с внешними сервисами через MCP Hub. Говорят, любая компания может создать в нем шаблон для подключения к своим сервисам по MCP, чтобы все остальные могли быстро подключить к ним своих агентов.

Главная идея здесь в том, чтобы дать инструмент напрямую сотрудникам. Тот же бухгалтер сможет использовать агента для рутинного составления отчётов, значительно повысив личную продуктивность. Но пока, чтобы запустить агента, все равно нужен разработчик, который сможет интегрировать его в условный Telegram-бот. На практике, конечно, главный барьер — не технология, а люди. Не все бухгалтеры готовы переходить на нейросети и скорее предпочтут сделать всё по старинке.

А те, кто шарит, могут и кодом всё написать. Хотя, в теории no-code визуализирует пайплайн и берет на себя ту часть работы, где ты вручную вводишь текст в IDE, плюс вайбкодерам его легче редактировать, что теоретически ускоряет разработку и понижает порог входа. Собрать такую тулу под себя с нуля всё равно сложно.

@ai_newz
3😁12547👍36🫡9🔥4
K2 Vendor Verifier

Команда Kimi решила протестить разных вендоров своей модели на точность тулюза. Каждому провайдеру дают 2 тысячи одинаковых запросов и сравнивают результаты с официальным API. Результаты вышли не очень — у всех протестированных 3rd party провайдеров заметные проблемы. К сожалению, Groq, самого интересного провайдера K2 не затестили.

Подобные тесты уже делали Artificial Analysis с gpt-oss, и обнаружили пропасть между провайдерами по результатам бенчей. Пора делать такие тесты повсеместными для всех моделей и провайдеров, иначе баги инференса будут и дальше тихо портить всем жизнь.

https://github.com/MoonshotAI/K2-Vendor-Verfier

@ai_newz
72👍41🔥9😱5😁2
Media is too big
VIEW IN TELEGRAM
Suno V5 + Suno Studio — RIP Mozart AI

Недавно я писал про Mozart AI, которые пытались сделать AI DAW (Digital Audio Workstation) для музыкантов. Но их продукт, как многие заметили в комментариях, всё ещё сырой. И вот пришёл гигант — Suno (по моему мнению, лучший, лучше чем Udio), выкатил свою новую SOTA-модель V5 и сразу же полноценную Studio-версию. И просто решил все проблемы.

По сути, это всё, что обещал Mozart AI, но уже реализованное и с новыми фичами. Главная из них — можно напеть мелодию, а затем превратить её в отдельную дорожку (stem), как на 10:25.

Что это даёт? Дикий контроль. Теперь продюсер, имея один только ноутбук, может получить реалистичную аудиозапись инструмента, а не MIDI-болванку. Причём со всеми нюансами, которые невозможно запрограммировать: реалистичной динамикой, звуком удара медиатора по струнам или шорохом пальцев гитариста по грифу, и всё это в «комнате» с её естественным эмбиенсом.

Профессионалы, конечно, не будут использовать Suno Studio как основную DAW, но как генератор стемов — это геймченджер.

Многие боятся, что генеративная музыка захламит чарты AI-слопом (треть новой музыки на стримингах уже сгенерирована). Но я думаю, что именно эта технология сделает музыку только лучше. Теперь вместо стерильных, запрограммированных в MIDI инструменталов можно будет генерить реалистичные аудиодорожки, что только поднимет общее качество продакшена.

V5 доступна пока только по подписке. Suno Studio — на тире Premier, но сейчас есть скидка: $15 в месяц на первые 3 месяца вместо $30.

@ai_newz
2🔥158👍5040🦄7😁3💔2
Нейродайджест за неделю (#88)

LLM
- DeepSeek V3.1 Terminus — Вероятно, последний релиз в линейке V3. Выросла по агентским бенчам. Ждём V4 в ближайшие недели.
- ChatGPT Pulse — ChatGPT теперь может проактивно ресёрчить важные для вас темы и выдавать отчёт каждое утро.
- K2 Vendor Verifier — у всех сторонних провайдеров заметные проблемы с точностью.

Генеративные модели
- Kling 2.5 Turbo — Новая версия китайской видеомодели бросает вызов Veo 3. Физика и понимание промпта на уровне, близком к SOTA.
- Suno V5 + Suno Studio — Suno выкатили SOTA-модель и полноценную AI DAW. Главная фича — превращение напетой мелодии в инструментальную дорожку.

Робототехника
- Робот-кунгфуист — Новый гуманоид Unitree G1 от китайцев с улучшенной стабильностью. Быстро встаёт после ударов. Следующий шаг — научиться бить в ответ.

> Читать дайджест #87

#дайджест
@ai_newz
128🔥16👍75🦄1
Bitter Lesson снова в деле. Это главная мысль из доклада Дмитрия Иванова (Yandex B2B Tech) с big tech night. Эволюция AI от простых классификаторов к автономным агентам доказывает: вместо того, чтобы вручную тюнить правила, лучше дать системе больше данных, вычислительных мощностей и свободы.

Началось всё с классификаторов intent'ов и жёстких сценариев — система распознавала тип запроса и запускала соответствующий обработчик. Затем пришла эра файнтюнинга: под определенную задачу обучали специализированную модель, оптимизируя метрики месяцами. Сейчас те же задачи решаются промптами к более общим моделям — многостраничные текстовые инструкции определяют логику работы компонентов, от структуры поисковых ответов до выбора контента. Продуктовые гипотезы проверяются правкой текста за минуты вместо долгого переобучения.

Сейчас идёт переход к следующему этапу — когда мы задаем только минимальные ограничения вместо детальных инструкций. Системы получат только правила-запреты и самостоятельно будут выбирать тактику в заданных рамках. Агенты смогут определять последовательность вызова функций, адаптироваться к контексту и непрерывно обучаться на обратной связи. Каждый шаг эволюции увеличивает автономность за счёт снижения явного контроля разработчика (ну и, конечно, за счет того, что модели становятся более способными), причём большая часть этого пути прошла всего за три последних года. Где же мы будем ещё через три?

@ai_newz
👍80😁3723🫡7🔥2🤯2💯1
Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио

Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.

Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.

Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.

Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и нативный липсинк, конечно же.

Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.

В опенсорс, как и ожидалось, пока не выложили.

Анонс

@ai_newz
👍70🔥4419❤‍🔥10😁2🤯1
Claude Sonnet 4.5

GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.

По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.

Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.

@ai_newz
👍131🔥6433❤‍🔥2🤯2🦄2
Sora 2: Новая SOTA и AI-TikTok

Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта.

Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод.

Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI.

Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос.

Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно.

Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей.

@ai_newz
97👍33🔥21🦄6💔31😍1🫡1
А вот и генерации Sora 2 от людей. Очень хорошая физика, и пальцы не плывут. Но слегка плывут текстуры и бекграунд - есть эдакое нейронное ощущение.

Видно что в трейн закинули все, до чего могли дотянуться, включая копирайтные мультики и игры.

В модели куча цензуры и нельзя подавать фото людей на вход. Говорит на русском.

Очень интересно сколько там параметров (уверен, что это монстр жуткого размера) и на скольких GPU параллельно гоняется каждый запрос.

@ai_newz
🔥7618🙏16😱8👍7😁4🦄2
Сбер опубликовал веса двух моделей: Kandinsky Video Lite для генерации видео и Giga-Embeddings для эмбеддингов. Модели доступны под лицензией Apache 2.0, так что можно спокойно использовать коммерчески.

Kandinsky Video Lite — компактная модель с 2B параметров для генерации видео, поддерживаются видосы вплоть до 10 секунд. При этом она обходит более тяжёлые модели: Wan 2.1 (14B параметров), Wan 2.2 (5B) и даже оригинальную Sora . При этом часто достигает генераций на уровне Wan 2.2 A14B. Для 2B параметров модель вышла очень сильной, главный недостаток — 768x512 разрешение, но это можно обойти постобработкой.

Кроме этого на хабре опубликовали довольно детальный блогпост с подробностями тренировки. Из интересного — в архитектуре Kandinsky 5 используется Qwen 2.5-VL как текстовый энкодер, который расширяет промпт, а дальше фичи пропускаются через дополнительные тренируемые encoder-блоки.

Giga-Embeddings топит всех на ruMTEB с результатом 74.1 и при этом не жертвует качеством при работе с английским. Заточена под RAG-системы — даёт точный семантический поиск и не галлюцинирует. Это делает её идеальной для FAQ ботов и поиска по документации, но и для других задач, вроде дедупликации и кластеризации, она тоже подходит. А открытая лицензия и 3B параметров позволяют быстро интегрировать модель в прод.

Kandinsky Video Lite
Giga Embeddings

@ai_newz
1🔥139😁73👍3617😱3💔3🦄3
Tinker — первый продукт Thinking Machines

Становится понятно на что Мира Мурати привлекла два миллиарда. Tinker это облачное API для файнтюна LLM направленное на ресёрчеров. Оно берёт берёт на себя менеджмент инфраструктуры, при этом оставляет контроль над данными и алгоритмами.

Выглядит это так: пользователям дают крайне простой интерфейс в виде forward_backward, sample, optim_step и ещё парочки функций для сохранения/загрузки тюнов. Остальное (трейнинг луп, энвайроменты и т.д.) можно спокойно запускать у себя на ноутбуке. Результаты тренировки можно скачать.

Пока что тренировать можно только LoRA, поддержку полноценного файнтюна тоже обещают, но полноценный тюн будет явно дороже. Судя по ресёрчу Thinking Machines, LoRA не отличаются по качеству от полноценных файнтюнов на небольших датасетах. Но у LoRA есть большое преимущество по эффективности — для их тренировки нужно на 30% меньше флопс, кроме этого использование LoRA даёт дополнительную экономию при тренировке большого количества за раз.

Из моделей пока доступны последние версии Llama 3 (кроме 405B) и Qwen 3, для части из них даже доступны Base модели. Пока что доступ по вейтлисту. В первое время сервис будет бесплатным, ввести оплату обещают уже в ближайшие недели.

Вышел очень крутой продукт, надеюсь цена будет не конской. Ну и следующий шаг компании очевиден — API для инференса, чтобы эти модельки где-то можно было запускать.

Блогпост

@ai_newz
98👍51🔥26😁5🤯2😱1💯1🦄1
Нейродайджест за неделю (#89)

LLM
- Claude Sonnet 4.5 — GPT-5 Codex побыл лучшей моделью для кодинга всего две недели. Anthropic прокачали Клода в кодинге и агентных задачах, может автономно работать до 30-ти часов (но это не точно).
- Tinker от Thinking Machines — Первый продукт от стартапа Миры Мурати. Это облачное API для файнтюна LLM, нацеленное на ресёрчеров и упрощающее менеджмент инфраструктуры.

Генеративные модели

- Wan 2.5 — Китайский нейрокомбайн. Модель стала мультимодальной (Text, Image, Video, Audio) и теперь умеет генерировать видео по аудио, с нативным липсинком и движением в такт музыке.
- Sora 2: Новая SOTA и AI-TikTok — OpenAI выкатили новую SOTA-видеомодель, но вау-эффекта уже меньше. Качество в черипиках и реальных генерациях высокое, но все ещё сохранились нейронные косячки. Главное нововведение — отдельное приложение-лента в стиле TikTok и генерация AI-аватаров с голосом.
- Kandinsky Video Lite и Giga-Embeddings — Сбер выложил в открытый доступ две модели: Kandinsky Video Lite (компактная 2B видеомодель, обходящая более тяжёлых конкурентов) и Giga-Embeddings (эмбеддинги для русского языка, заточенные под RAG).

> Читать дайджест #88

#дайджест
@ai_newz
1👍4829🔥164
Что показали на OpenAI DevDay

Главный анонс — мини-приложения в ChatGPT. На старте их семь, анонсировали ещё 11. Чатгпт будет периодически сам подсказывать подходящее приложение по контексту диалога. Фича открыта почти всем авторизованным пользователям вне ЕС, каталог приложений и приём заявок на публикацию приложений от разработчиков обещают до конца года.

Приложения собираются на веб-технологиях поверх MCP. Примеры с исходниками уже есть на GitHub. Обещают кучу способов монетизации своих приложений, OpenAI всё ещё плотно хотят свой апстор, несмотря на провал GPTs.

AgentKit и ChatKit. AgentKit — набор для сборки и продакшен-запуска агентов с визуальным конструктором, коннекторами и встроенными инструментами оценки. ChatKit — готовый встраиваемый чат-интерфейс, чтобы быстро дать пользователю доступ к вашему агенту прямо в продукте. Описывать флоу агента теперь можно в новом визуальном интерфейсе Agent Builder, теперь создание агентов доступнее.

В API тоже насыпали моделей. Sora 2 и Sora 2 Pro теперь доступны в API. Pro версия отличается длиной генерации в 15 секунд вместо 10 и поддержкой 1080p. Цена 10 центов за секунду для обычной модели, что дешевле даже Veo 3 Fast. Pro версия стоит 30 центов за секунду 720p видео и 50 центов за 1080p. На удивление адекватная цена для такого уровня качества.

А вот GPT-5 Pro обвинить в разумном прайсинге нельзя. $15/$120 за миллион токенов для ризонера это крайне много, с такой ценой модель продолжит оставаться очень нишевой.

Кроме этого вышли мини варианты gpt-realtime и gpt-imagе, чтобы удешевлять продакшен-кейсы. Как у них с качеством всё ещё неясно, но цена неплохая.

@ai_newz
1🔥70👍3937🙏4🦄2
Nvidia будет частью нового раунда финансирования xAI

Особенность раунда в том, что акций xAI инвесторы не получают. Всё идёт через SPV (Special Purpose Vehicle), специально созданную компанию, которая приобретёт GPU для Colossus 2 и будет сдавать их в аренду xAI. В чём-то это похоже на схему OpenAI со Stargate. Доля Nvidia составит 2 миллиарда, а в целом размер раунда ожидается в 20 миллиардов — 7.5 будут акциями SPV, остальное в долг.

@ai_newz
😁9525👍19🦄12🔥4🫡4😱3😍1