Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио
Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.
Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.
Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.
Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и нативный липсинк, конечно же.
Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.
В опенсорс, как и ожидалось, пока не выложили.
Анонс
@ai_newz
Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.
Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.
Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.
Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и нативный липсинк, конечно же.
Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.
В опенсорс, как и ожидалось, пока не выложили.
Анонс
@ai_newz
👍69🔥42❤16❤🔥10😁1🤯1
Claude Sonnet 4.5
GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.
По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.
Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.
@ai_newz
GPT-5 Codex уже побыла лучшей моделью для кодинга уже целых две недели, так что пришло время для нового лидера. Клода ещё больше прокачали в кодинге и агентных тасках, где видно достаточно сильный прирост по бенчам. Цену сохранили прежнюю, Anthropic всё ещё упорно отказывается сбрасывать цены, в отличие от всех конкурентов.
По заявлениям Anthropic, новый Sonnet может автономно работать над задачей до 30 часов, предыдущий рекорд — 7 часов. Я не уверен как именно это измеряют, поэтому конкретно к этой части отношусь скептично.
Вместе с моделью обновили Claude Code до версии 2.0. Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением, так что их можно легко откатить. Кроме этого обновили интерфейс и сделали расширение для VS Code. И наконец-то добавили возможность видеть оставшиеся лимиты использования моделей.
@ai_newz
👍129🔥64❤29❤🔥2🤯2🦄2
Sora 2: Новая SOTA и AI-TikTok
Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта.
Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод.
Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI.
Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос.
Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно.
Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей.
@ai_newz
Sora 2 вышла и, похоже, это новая SOTA. Хотя чем дальше развиваются видеомодели, тем меньше становятся различия между ними. Как и в прошлый раз, Sora вышла с опозданием — после Veo 3 и Kling 2.5 она уже не вызывает такого вау-эффекта. Интересно, что будет на практике и как у неё с пониманием промпта.
Чтобы привнести хоть какую-то инновацию, OpenAI выкатили отдельное приложение для Sora — по сути, свой генеративный TikTok. Кто такое будет смотреть, не совсем понятно, хотя ленты и так уже наполовину генеративные. Вместе с этим челы переизобрели Elements, которые уже почти год являются стандартом индустрии. Но здесь обещают большую консистентность и, что действительно ново, — генерацию голоса. Теперь можно создать полноценного AI-аватара, который ходит по кадру, а не просто говорящую голову. На стриме сказали, что работает с животными и предметами, правда, там же ещё сказали, что в целях безопасности нужно будет пройти серию испытаний. Интересно, как очередной продукт с WB будет зачитывать аудиокод.
Качество генераций в черри-пиках, конечно, бомбическое: физика на уровне, картинка крайне реалистичная — полноценный ответ Veo 3. Но во время теста с аватаром Сэма на стриме лицо всё ещё выглядело жутковато. Зловещую долину пока не перешагнули. Возможно, дело в мешках под глазами Сэма, который, видимо, не спит и пилит AGI.
Судя по промо-роликам, в датасете было очень много видео, снятых на телефон. Может, поэтому и решили сделать AI-соцсеть? Видео выглядят более реалистично, но как у них с киношностью — большой вопрос.
Хигсфилд уже открыли вейтлист пишут, что Sora генерит видео в 1080p (там же правда, видео от комьюнити для презентации, но почему-то от wan 2.2). Если это идёт вкупе с хорошей физикой и коллизиями, и есть шанс, что Sora слушается промпта так же хорошо, как Veo, то это, конечно, разнос. Однако упор OpenAI в продуктовость настораживает, для них это нехарактерно.
Скачать Sora App можно будет уже сегодня, но только на iOS в США и Канаде. Схема доступа: сначала вейтлист, затем можно пригласить 4 друзей.
@ai_newz
❤89👍31🔥21🦄6💔3⚡1😍1🫡1
А вот и генерации Sora 2 от людей. Очень хорошая физика, и пальцы не плывут. Но слегка плывут текстуры и бекграунд - есть эдакое нейронное ощущение.
Видно что в трейн закинули все, до чего могли дотянуться, включая копирайтные мультики и игры.
В модели куча цензуры и нельзя подавать фото людей на вход. Говорит на русском.
Очень интересно сколько там параметров (уверен, что это монстр жуткого размера) и на скольких GPU параллельно гоняется каждый запрос.
@ai_newz
Видно что в трейн закинули все, до чего могли дотянуться, включая копирайтные мультики и игры.
В модели куча цензуры и нельзя подавать фото людей на вход. Говорит на русском.
Очень интересно сколько там параметров (уверен, что это монстр жуткого размера) и на скольких GPU параллельно гоняется каждый запрос.
@ai_newz
Telegram
Нейросети и Блендер
🔥75🙏16❤15👍7😱7😁4🦄2
Сбер опубликовал веса двух моделей: Kandinsky Video Lite для генерации видео и Giga-Embeddings для эмбеддингов. Модели доступны под лицензией Apache 2.0, так что можно спокойно использовать коммерчески.
Kandinsky Video Lite — компактная модель с 2B параметров для генерации видео, поддерживаются видосы вплоть до 10 секунд. При этом она обходит более тяжёлые модели: Wan 2.1 (14B параметров), Wan 2.2 (5B) и даже оригинальную Sora . При этом часто достигает генераций на уровне Wan 2.2 A14B. Для 2B параметров модель вышла очень сильной, главный недостаток — 768x512 разрешение, но это можно обойти постобработкой.
Кроме этого на хабре опубликовали довольно детальный блогпост с подробностями тренировки. Из интересного — в архитектуре Kandinsky 5 используется Qwen 2.5-VL как текстовый энкодер, который расширяет промпт, а дальше фичи пропускаются через дополнительные тренируемые encoder-блоки.
Giga-Embeddings топит всех на ruMTEB с результатом 74.1 и при этом не жертвует качеством при работе с английским. Заточена под RAG-системы — даёт точный семантический поиск и не галлюцинирует. Это делает её идеальной для FAQ ботов и поиска по документации, но и для других задач, вроде дедупликации и кластеризации, она тоже подходит. А открытая лицензия и 3B параметров позволяют быстро интегрировать модель в прод.
Kandinsky Video Lite
Giga Embeddings
@ai_newz
Kandinsky Video Lite — компактная модель с 2B параметров для генерации видео, поддерживаются видосы вплоть до 10 секунд. При этом она обходит более тяжёлые модели: Wan 2.1 (14B параметров), Wan 2.2 (5B) и даже оригинальную Sora . При этом часто достигает генераций на уровне Wan 2.2 A14B. Для 2B параметров модель вышла очень сильной, главный недостаток — 768x512 разрешение, но это можно обойти постобработкой.
Кроме этого на хабре опубликовали довольно детальный блогпост с подробностями тренировки. Из интересного — в архитектуре Kandinsky 5 используется Qwen 2.5-VL как текстовый энкодер, который расширяет промпт, а дальше фичи пропускаются через дополнительные тренируемые encoder-блоки.
Giga-Embeddings топит всех на ruMTEB с результатом 74.1 и при этом не жертвует качеством при работе с английским. Заточена под RAG-системы — даёт точный семантический поиск и не галлюцинирует. Это делает её идеальной для FAQ ботов и поиска по документации, но и для других задач, вроде дедупликации и кластеризации, она тоже подходит. А открытая лицензия и 3B параметров позволяют быстро интегрировать модель в прод.
Kandinsky Video Lite
Giga Embeddings
@ai_newz
1🔥138😁73👍36❤13😱3💔3🦄3
Tinker — первый продукт Thinking Machines
Становится понятно на что Мира Мурати привлекла два миллиарда. Tinker это облачное API для файнтюна LLM направленное на ресёрчеров. Оно берёт берёт на себя менеджмент инфраструктуры, при этом оставляет контроль над данными и алгоритмами.
Выглядит это так: пользователям дают крайне простой интерфейс в виде forward_backward, sample, optim_step и ещё парочки функций для сохранения/загрузки тюнов. Остальное (трейнинг луп, энвайроменты и т.д.) можно спокойно запускать у себя на ноутбуке. Результаты тренировки можно скачать.
Пока что тренировать можно только LoRA, поддержку полноценного файнтюна тоже обещают, но полноценный тюн будет явно дороже. Судя по ресёрчу Thinking Machines, LoRA не отличаются по качеству от полноценных файнтюнов на небольших датасетах. Но у LoRA есть большое преимущество по эффективности — для их тренировки нужно на 30% меньше флопс, кроме этого использование LoRA даёт дополнительную экономию при тренировке большого количества за раз.
Из моделей пока доступны последние версии Llama 3 (кроме 405B) и Qwen 3, для части из них даже доступны Base модели. Пока что доступ по вейтлисту. В первое время сервис будет бесплатным, ввести оплату обещают уже в ближайшие недели.
Вышел очень крутой продукт, надеюсь цена будет не конской. Ну и следующий шаг компании очевиден — API для инференса, чтобы эти модельки где-то можно было запускать.
Блогпост
@ai_newz
Становится понятно на что Мира Мурати привлекла два миллиарда. Tinker это облачное API для файнтюна LLM направленное на ресёрчеров. Оно берёт берёт на себя менеджмент инфраструктуры, при этом оставляет контроль над данными и алгоритмами.
Выглядит это так: пользователям дают крайне простой интерфейс в виде forward_backward, sample, optim_step и ещё парочки функций для сохранения/загрузки тюнов. Остальное (трейнинг луп, энвайроменты и т.д.) можно спокойно запускать у себя на ноутбуке. Результаты тренировки можно скачать.
Пока что тренировать можно только LoRA, поддержку полноценного файнтюна тоже обещают, но полноценный тюн будет явно дороже. Судя по ресёрчу Thinking Machines, LoRA не отличаются по качеству от полноценных файнтюнов на небольших датасетах. Но у LoRA есть большое преимущество по эффективности — для их тренировки нужно на 30% меньше флопс, кроме этого использование LoRA даёт дополнительную экономию при тренировке большого количества за раз.
Из моделей пока доступны последние версии Llama 3 (кроме 405B) и Qwen 3, для части из них даже доступны Base модели. Пока что доступ по вейтлисту. В первое время сервис будет бесплатным, ввести оплату обещают уже в ближайшие недели.
Вышел очень крутой продукт, надеюсь цена будет не конской. Ну и следующий шаг компании очевиден — API для инференса, чтобы эти модельки где-то можно было запускать.
Блогпост
@ai_newz
❤94👍49🔥26😁5🤯2😱1💯1🦄1
Нейродайджест за неделю (#89)
LLM
- Claude Sonnet 4.5 — GPT-5 Codex побыл лучшей моделью для кодинга всего две недели. Anthropic прокачали Клода в кодинге и агентных задачах, может автономно работать до 30-ти часов (но это не точно).
- Tinker от Thinking Machines — Первый продукт от стартапа Миры Мурати. Это облачное API для файнтюна LLM, нацеленное на ресёрчеров и упрощающее менеджмент инфраструктуры.
Генеративные модели
- Wan 2.5 — Китайский нейрокомбайн. Модель стала мультимодальной (Text, Image, Video, Audio) и теперь умеет генерировать видео по аудио, с нативным липсинком и движением в такт музыке.
- Sora 2: Новая SOTA и AI-TikTok — OpenAI выкатили новую SOTA-видеомодель, но вау-эффекта уже меньше. Качество в черипиках и реальных генерациях высокое, но все ещё сохранились нейронные косячки. Главное нововведение — отдельное приложение-лента в стиле TikTok и генерация AI-аватаров с голосом.
- Kandinsky Video Lite и Giga-Embeddings — Сбер выложил в открытый доступ две модели: Kandinsky Video Lite (компактная 2B видеомодель, обходящая более тяжёлых конкурентов) и Giga-Embeddings (эмбеддинги для русского языка, заточенные под RAG).
> Читать дайджест #88
#дайджест
@ai_newz
LLM
- Claude Sonnet 4.5 — GPT-5 Codex побыл лучшей моделью для кодинга всего две недели. Anthropic прокачали Клода в кодинге и агентных задачах, может автономно работать до 30-ти часов (но это не точно).
- Tinker от Thinking Machines — Первый продукт от стартапа Миры Мурати. Это облачное API для файнтюна LLM, нацеленное на ресёрчеров и упрощающее менеджмент инфраструктуры.
Генеративные модели
- Wan 2.5 — Китайский нейрокомбайн. Модель стала мультимодальной (Text, Image, Video, Audio) и теперь умеет генерировать видео по аудио, с нативным липсинком и движением в такт музыке.
- Sora 2: Новая SOTA и AI-TikTok — OpenAI выкатили новую SOTA-видеомодель, но вау-эффекта уже меньше. Качество в черипиках и реальных генерациях высокое, но все ещё сохранились нейронные косячки. Главное нововведение — отдельное приложение-лента в стиле TikTok и генерация AI-аватаров с голосом.
- Kandinsky Video Lite и Giga-Embeddings — Сбер выложил в открытый доступ две модели: Kandinsky Video Lite (компактная 2B видеомодель, обходящая более тяжёлых конкурентов) и Giga-Embeddings (эмбеддинги для русского языка, заточенные под RAG).
> Читать дайджест #88
#дайджест
@ai_newz
1👍45❤25🔥16⚡4
Что показали на OpenAI DevDay
Главный анонс — мини-приложения в ChatGPT. На старте их семь, анонсировали ещё 11. Чатгпт будет периодически сам подсказывать подходящее приложение по контексту диалога. Фича открыта почти всем авторизованным пользователям вне ЕС, каталог приложений и приём заявок на публикацию приложений от разработчиков обещают до конца года.
Приложения собираются на веб-технологиях поверх MCP. Примеры с исходниками уже есть на GitHub. Обещают кучу способов монетизации своих приложений, OpenAI всё ещё плотно хотят свой апстор, несмотря на провал GPTs.
AgentKit и ChatKit. AgentKit — набор для сборки и продакшен-запуска агентов с визуальным конструктором, коннекторами и встроенными инструментами оценки. ChatKit — готовый встраиваемый чат-интерфейс, чтобы быстро дать пользователю доступ к вашему агенту прямо в продукте. Описывать флоу агента теперь можно в новом визуальном интерфейсе Agent Builder, теперь создание агентов доступнее.
В API тоже насыпали моделей. Sora 2 и Sora 2 Pro теперь доступны в API. Pro версия отличается длиной генерации в 15 секунд вместо 10 и поддержкой 1080p. Цена 10 центов за секунду для обычной модели, что дешевле даже Veo 3 Fast. Pro версия стоит 30 центов за секунду 720p видео и 50 центов за 1080p. На удивление адекватная цена для такого уровня качества.
А вот GPT-5 Pro обвинить в разумном прайсинге нельзя. $15/$120 за миллион токенов для ризонера это крайне много, с такой ценой модель продолжит оставаться очень нишевой.
Кроме этого вышли мини варианты gpt-realtime и gpt-imagе, чтобы удешевлять продакшен-кейсы. Как у них с качеством всё ещё неясно, но цена неплохая.
@ai_newz
Главный анонс — мини-приложения в ChatGPT. На старте их семь, анонсировали ещё 11. Чатгпт будет периодически сам подсказывать подходящее приложение по контексту диалога. Фича открыта почти всем авторизованным пользователям вне ЕС, каталог приложений и приём заявок на публикацию приложений от разработчиков обещают до конца года.
Приложения собираются на веб-технологиях поверх MCP. Примеры с исходниками уже есть на GitHub. Обещают кучу способов монетизации своих приложений, OpenAI всё ещё плотно хотят свой апстор, несмотря на провал GPTs.
AgentKit и ChatKit. AgentKit — набор для сборки и продакшен-запуска агентов с визуальным конструктором, коннекторами и встроенными инструментами оценки. ChatKit — готовый встраиваемый чат-интерфейс, чтобы быстро дать пользователю доступ к вашему агенту прямо в продукте. Описывать флоу агента теперь можно в новом визуальном интерфейсе Agent Builder, теперь создание агентов доступнее.
В API тоже насыпали моделей. Sora 2 и Sora 2 Pro теперь доступны в API. Pro версия отличается длиной генерации в 15 секунд вместо 10 и поддержкой 1080p. Цена 10 центов за секунду для обычной модели, что дешевле даже Veo 3 Fast. Pro версия стоит 30 центов за секунду 720p видео и 50 центов за 1080p. На удивление адекватная цена для такого уровня качества.
А вот GPT-5 Pro обвинить в разумном прайсинге нельзя. $15/$120 за миллион токенов для ризонера это крайне много, с такой ценой модель продолжит оставаться очень нишевой.
Кроме этого вышли мини варианты gpt-realtime и gpt-imagе, чтобы удешевлять продакшен-кейсы. Как у них с качеством всё ещё неясно, но цена неплохая.
@ai_newz
1🔥69👍38❤33🙏4🦄2
Проблема многих LLM-курсов — они заканчиваются там, где начинается реальная работа: на этапе деплоя.
Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.
В программе:
- Дообучение: fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- MLOps: пайплайны, деплой, трекинг, версионирование.
- Продвинутые темы: мультиагентные решения и ассистенты.
Курс запускается уже вторым потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
Подробности и регистрация.
#промо
Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.
В программе:
- Дообучение: fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- MLOps: пайплайны, деплой, трекинг, версионирование.
- Продвинутые темы: мультиагентные решения и ассистенты.
Курс запускается уже вторым потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
▪️Старт 15 октября | 25 недель с каникулами;
▪️37 800₽/мес (рассрочка);
▪️Повышение стоимости — 10 октября.
Подробности и регистрация.
#промо
😁127❤25👍16💔12🦄9🤯7😱7😍5🫡1
Nvidia будет частью нового раунда финансирования xAI
Особенность раунда в том, что акций xAI инвесторы не получают. Всё идёт через SPV (Special Purpose Vehicle), специально созданную компанию, которая приобретёт GPU для Colossus 2 и будет сдавать их в аренду xAI. В чём-то это похоже на схему OpenAI со Stargate. Доля Nvidia составит 2 миллиарда, а в целом размер раунда ожидается в 20 миллиардов — 7.5 будут акциями SPV, остальное в долг.
@ai_newz
Особенность раунда в том, что акций xAI инвесторы не получают. Всё идёт через SPV (Special Purpose Vehicle), специально созданную компанию, которая приобретёт GPU для Colossus 2 и будет сдавать их в аренду xAI. В чём-то это похоже на схему OpenAI со Stargate. Доля Nvidia составит 2 миллиарда, а в целом размер раунда ожидается в 20 миллиардов — 7.5 будут акциями SPV, остальное в долг.
@ai_newz
😁91❤22👍18🦄11🫡4🔥3😱3😍1
MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на русскоязычных документах — MWS Vision Bench. До этого момента разработчики могли полагаться только на OCRBench или MMMU, которые работают исключительно с английским и китайским языками, что делало невозможной адекватную оценку моделей для российского рынка. Это решает реальную боль компаний: теперь можно объективно сравнить, насколько хорошо разные VLM-модели справляются с типовыми задачами.
Что проверяет бенчмарк:
• Распознавание текста на сканах договоров и официальных документов
• Извлечение структурированных данных из таблиц и форм
• Понимание рукописных заметок и аннотаций
• Работа со схемами, чертежами и диаграммами
• Ответы на сложные вопросы по содержимому документов
Бенчмарк включает 800 реальных изображений и 2580 заданий, полностью обезличенных и максимально приближенных к реальным рабочим сценариям. Команда MWS AI сделала бенчмарк полностью открытым: код выложен на GitHub, валидационный датасет доступен на HuggingFace. Любой желающий может скачать, запустить тесты на своих моделях и сравнить результаты с лидерами — сейчас это Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы. То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей, которые наконец-то можно сравнивать по единым, прозрачным метрикам.
@ai_newz
Что проверяет бенчмарк:
• Распознавание текста на сканах договоров и официальных документов
• Извлечение структурированных данных из таблиц и форм
• Понимание рукописных заметок и аннотаций
• Работа со схемами, чертежами и диаграммами
• Ответы на сложные вопросы по содержимому документов
Бенчмарк включает 800 реальных изображений и 2580 заданий, полностью обезличенных и максимально приближенных к реальным рабочим сценариям. Команда MWS AI сделала бенчмарк полностью открытым: код выложен на GitHub, валидационный датасет доступен на HuggingFace. Любой желающий может скачать, запустить тесты на своих моделях и сравнить результаты с лидерами — сейчас это Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы. То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей, которые наконец-то можно сравнивать по единым, прозрачным метрикам.
@ai_newz
👍67😁32🔥20❤5🤯3
Вчера Google анонсировали что Gemini теперь обрабатывает 1.3 квадриллиона токенов в месяц, с конца июля нагрузка выросла на 30%. Это цифра для всего использования Gemini — и для продуктов Google и для внешних разработчиков. Это какое-то безумное количество токенов — для сравнения, это эквивалентно обработке нескольких миллиардов книг каждый месяц. Но тем не менее цифра ещё и неимоверно маленькая — ведь в перерасчёте, на каждого человека на планете, в среднем выходит лишь 160 тысяч токенов в месяц (сравните это со своим использованием).
Google не единственная компания с такими масштабами — OpenAI на Devday заявили что их API обрабатывает 6 миллиардов токенов в минуту, то есть больше 250 триллионов токенов в месяц. Напрямую сравнивать это с цифрами гугла разумеется нельзя — у OpenAI гигантское количество токенов потребляется 800 миллионами пользователей ChatGPT, что не учитывается в использовании API. Но понятно что уровень нагрузки у компаний сопоставимый, хоть глобально это всё ещё крайне мало.
@ai_newz
Google не единственная компания с такими масштабами — OpenAI на Devday заявили что их API обрабатывает 6 миллиардов токенов в минуту, то есть больше 250 триллионов токенов в месяц. Напрямую сравнивать это с цифрами гугла разумеется нельзя — у OpenAI гигантское количество токенов потребляется 800 миллионами пользователей ChatGPT, что не учитывается в использовании API. Но понятно что уровень нагрузки у компаний сопоставимый, хоть глобально это всё ещё крайне мало.
@ai_newz
🔥110❤38🤯25👍17❤🔥1😍1
Нейродайджест за неделю (#90)
Юбилейный
LLM
- OpenAI DevDay — мини-приложения в ChatGPT. Плюс AgentKit (аналог n8n) и ChatKit для интерфейса. В API добавили GPT-5 Pro с конским ценником ($15/$120) и мини-версии других моделей.
- Nvidia инвестирует в xAI — вложит $2 миллиарда, но не напрямую, а через SPV, которая закупит GPU для кластера Colossus 2 и будет сдавать их в аренду.
- Сколько генерят нейронки —Gemini обрабатывает 1.3 квадриллиона токенов в месяц, а API OpenAI — более 250 триллионов.
Генеративные модели
- Sora 2 в API — Sora 2 и Pro теперь доступны в API по адекватной цене: 10 центов/сек за обычную версию. Pro-версия дороже, но с 1080p и длиной до 15 секунд.
> Читать дайджест #89
#дайджест
@ai_newz
Юбилейный
LLM
- OpenAI DevDay — мини-приложения в ChatGPT. Плюс AgentKit (аналог n8n) и ChatKit для интерфейса. В API добавили GPT-5 Pro с конским ценником ($15/$120) и мини-версии других моделей.
- Nvidia инвестирует в xAI — вложит $2 миллиарда, но не напрямую, а через SPV, которая закупит GPU для кластера Colossus 2 и будет сдавать их в аренду.
- Сколько генерят нейронки —Gemini обрабатывает 1.3 квадриллиона токенов в месяц, а API OpenAI — более 250 триллионов.
Генеративные модели
- Sora 2 в API — Sora 2 и Pro теперь доступны в API по адекватной цене: 10 центов/сек за обычную версию. Pro-версия дороже, но с 1080p и длиной до 15 секунд.
> Читать дайджест #89
#дайджест
@ai_newz
👍26❤11🔥7⚡4🤩2❤🔥1
Жесть какой объем видео было скормлено в Сору 2 во время тренировки.
Знает даже всякую лютую дичь из нашего постсоветского телевизора, типа Малышевой. Но человека, садящегося в автомобиль, сгенерить не может – не достаточно данных все-таки.
Все ещё ждем решений суда об использовании всего этого контента и внешности существующих людей. Я если что за свободное использование фото видео из интернета (выложил в ютуб - распрощался с правами), но уж слишком Альтман борзо себя ведёт.
@ai_newz
Знает даже всякую лютую дичь из нашего постсоветского телевизора, типа Малышевой. Но человека, садящегося в автомобиль, сгенерить не может – не достаточно данных все-таки.
Все ещё ждем решений суда об использовании всего этого контента и внешности существующих людей. Я если что за свободное использование фото видео из интернета (выложил в ютуб - распрощался с правами), но уж слишком Альтман борзо себя ведёт.
@ai_newz
Telegram
Ëда-мастер
В общем, в Sora скормили огромное количество контента со всего мира.
При чëм достаточно например написать :
Зомби в передаче Что, где, когда?, сюжет с юмором.
Бигфут и призрак (Баба Яга) в Давай поженимся
.. то что в голову придёт🤔😁
А вот Малышеву случайно…
При чëм достаточно например написать :
Зомби в передаче Что, где, когда?, сюжет с юмором.
Бигфут и призрак (Баба Яга) в Давай поженимся
.. то что в голову придёт🤔😁
А вот Малышеву случайно…
2😍59🤯42😁34❤14🔥13👍2💯1🦄1