Смыслы вместо фильтров: Wink заменяет каталог нейросетью
Российский стриминг дозрел до чат-ботов на базе ИИ – Wink запустил ассистента с LLM для умных рекомендаций. Сервис стал одним из первых на нашем рынке. Новый инструмент назвали «Агент развлечений», и он призван решить одну из главных проблем современных онлайн-кинотеатров – семантическую глухоту.
Фильтры по годам и жанрам бесполезны, когда зритель сам не знает, чего именно хочет. Нейросеть при этом работает не с тегами, а со смыслами. Ей можно поставить задачу на естественном языке: «найди фильм под шум дождя» или «что посмотреть, чтобы разгрузить голову после совещания». Система, по словам компании, обучена на тысячах живых рецензий и обсуждений в соцсетях, и считывает именно эмоциональный контекст, недоступный обычному поиску.
Каскад нейросетей в основе сервиса работает на вычислительных мощностях «Ростелекома». Сейчас ассистент находится в стадии бета-тестирования в мобильных приложениях. В будущем компания планирует масштабирование агента на все платформы Wink, включая Smart TV, и интеграцию в мессенджеры.
Если привычная рекомендательная лента удобна для ленивого потребления, то ИИ выигрывает в точечном поиске. Показательный пример из опыта нашей редакции: ИИ помог найти полузабытый фильм по смутным ассоциациям и описанию сцены, с чем не справился бы обычный поисковик. Внедрение чат-бота в стриминг позволяет решать именно подобные кейсы, подбирая контент под специфическое настроение или по конкретному поводу.
Российский стриминг дозрел до чат-ботов на базе ИИ – Wink запустил ассистента с LLM для умных рекомендаций. Сервис стал одним из первых на нашем рынке. Новый инструмент назвали «Агент развлечений», и он призван решить одну из главных проблем современных онлайн-кинотеатров – семантическую глухоту.
Фильтры по годам и жанрам бесполезны, когда зритель сам не знает, чего именно хочет. Нейросеть при этом работает не с тегами, а со смыслами. Ей можно поставить задачу на естественном языке: «найди фильм под шум дождя» или «что посмотреть, чтобы разгрузить голову после совещания». Система, по словам компании, обучена на тысячах живых рецензий и обсуждений в соцсетях, и считывает именно эмоциональный контекст, недоступный обычному поиску.
Каскад нейросетей в основе сервиса работает на вычислительных мощностях «Ростелекома». Сейчас ассистент находится в стадии бета-тестирования в мобильных приложениях. В будущем компания планирует масштабирование агента на все платформы Wink, включая Smart TV, и интеграцию в мессенджеры.
Если привычная рекомендательная лента удобна для ленивого потребления, то ИИ выигрывает в точечном поиске. Показательный пример из опыта нашей редакции: ИИ помог найти полузабытый фильм по смутным ассоциациям и описанию сцены, с чем не справился бы обычный поисковик. Внедрение чат-бота в стриминг позволяет решать именно подобные кейсы, подбирая контент под специфическое настроение или по конкретному поводу.
1👍5❤3
Google встраивает конструктор приложений Opal прямо в Gemini
Google переносит свой экспериментальный инструмент Opal в основной интерфейс Gemini. Это добавляет чат-боту функции конструктора мини-приложений: теперь система умеет выстраивать пайплайны обработки данных по запросу пользователя. По сути, это следующая ступень эволюции «джемов» (Gems) – переход от простых текстовых инструкций к автоматизации процессов, с доступом ко внешним данным.
Google здесь не первый и догоняет Anthropic с их Claude Artifacts. Компания наконец собирает свои разрозненные no-code продукты под одной витриной. Правда, работает это пока не слишком стабильно: мы столкнулись с тем, что созданные мини-аппы могут отваливаться без причин, а функции вроде генерации картинок внутри них – не работать, даже если дневной лимит не исчерпан.
Google переносит свой экспериментальный инструмент Opal в основной интерфейс Gemini. Это добавляет чат-боту функции конструктора мини-приложений: теперь система умеет выстраивать пайплайны обработки данных по запросу пользователя. По сути, это следующая ступень эволюции «джемов» (Gems) – переход от простых текстовых инструкций к автоматизации процессов, с доступом ко внешним данным.
Google здесь не первый и догоняет Anthropic с их Claude Artifacts. Компания наконец собирает свои разрозненные no-code продукты под одной витриной. Правда, работает это пока не слишком стабильно: мы столкнулись с тем, что созданные мини-аппы могут отваливаться без причин, а функции вроде генерации картинок внутри них – не работать, даже если дневной лимит не исчерпан.
1❤1
Xiaomi сделала с нейросетями то же, что когда-то со смартфонами – «убийцу флагманов», но за копейки. Компания выложила в открытый доступ модель MiMo-V2-Flash. Она большая – 309 миллиардов параметров. Но благодаря архитектуре Mixture-of-Experts (MoE) в работу включается лишь малая часть, 15 миллиардов за раз. Такой подход уменьшает стоимость обработки миллиона токенов на входе до 10 центов через API, что сильно ниже цен американских конкурентов.
Но, как и дешёвые смартфоны, этот «флагман» появился благодаря компромиссам. Вместо удержания всего контекста модель использует «скользящее окно», фокусируясь на важном фрагменте и отсекая старое. Разработчики добавили ускорение за счёт предсказания сразу нескольких слов за такт. Итог закономерен: модель справляется с логикой и кодом, но знает о мире и фактах меньше, чем лидеры рынка.
Этот релиз подтверждает тренд китайских компаний на асимметричный ответ американскому ИИ, заданный ещё DeepSeek в начале года. Отрезанные от передовых чипов, они не могут просто наращивать вычислительные мощности, как Кремниевая долина. Поэтому вынуждены делать ставку на агрессивную оптимизацию софта, пытаясь превратить дефицит ресурсов из проблемы в драйвер развития отрасли.
Но, как и дешёвые смартфоны, этот «флагман» появился благодаря компромиссам. Вместо удержания всего контекста модель использует «скользящее окно», фокусируясь на важном фрагменте и отсекая старое. Разработчики добавили ускорение за счёт предсказания сразу нескольких слов за такт. Итог закономерен: модель справляется с логикой и кодом, но знает о мире и фактах меньше, чем лидеры рынка.
Этот релиз подтверждает тренд китайских компаний на асимметричный ответ американскому ИИ, заданный ещё DeepSeek в начале года. Отрезанные от передовых чипов, они не могут просто наращивать вычислительные мощности, как Кремниевая долина. Поэтому вынуждены делать ставку на агрессивную оптимизацию софта, пытаясь превратить дефицит ресурсов из проблемы в драйвер развития отрасли.
1❤1
Сегодня вышла новость про появление бета-версии магазина приложений для ChatGPT. Полезно, но гораздо более важной кажется другая новость – получить доступ к ним (и не только) стало гораздо удобнее.
Достаточно в новом чате ввести «@», чтобы появилось выпадающее меню. Там доступен полный список всех приложений, вне зависимости от того, подключал их пользователь или нет. Ещё лучше, что там (по крайней мере, у нас) появился доступ ко всем созданным проектам и даже к собственным (custom) версиям GPT.
ChatGPT постепенно превращает чат в командную строку с лёгким доступом ко всем функциям сервиса. Это полезно, потому что теперь не нужно искать глазами, кликать и ждать загрузки нужных папок и ссылок, а переключение между ними стало куда нативнее. В приложениях пока не работает (проверено на Android и Mac), вероятно функцию раскатывают волнами.
Gemini, кстати, также поддерживает такой способ ввода для выбора типа модели и подключения разных сервисов Google. А вот у остальных популярных сервисов вроде DeepSeek, Алисы, Qwen, Grok и ряда других подобной функции нет.
Достаточно в новом чате ввести «@», чтобы появилось выпадающее меню. Там доступен полный список всех приложений, вне зависимости от того, подключал их пользователь или нет. Ещё лучше, что там (по крайней мере, у нас) появился доступ ко всем созданным проектам и даже к собственным (custom) версиям GPT.
ChatGPT постепенно превращает чат в командную строку с лёгким доступом ко всем функциям сервиса. Это полезно, потому что теперь не нужно искать глазами, кликать и ждать загрузки нужных папок и ссылок, а переключение между ними стало куда нативнее. В приложениях пока не работает (проверено на Android и Mac), вероятно функцию раскатывают волнами.
Gemini, кстати, также поддерживает такой способ ввода для выбора типа модели и подключения разных сервисов Google. А вот у остальных популярных сервисов вроде DeepSeek, Алисы, Qwen, Grok и ряда других подобной функции нет.
1❤3👍2
Итоги YaC 2025: Яндекс пытается догнать уходящий поезд
Дела у Яндекса, кажется, идут не так гладко, как нам пытаются показать. Вместо прошлогоднего документального сериала с дорогим продакшеном, графикой и выездными съемками YaC 2025 встретил нас форматом единичного подкаста во дворе. Сергей Юдин и коллеги (которых периодически было не слышно из-за плохого звука) на бегу пересказали пресс-релизы компании за год. Но проблема, на самом деле, не в картинке или звуке. Проблема в том, что за час эфира нам не показали почти ничего нового и не смогли ответить на вопрос «Зачем?».
Промптхаб
Начали с мертворожденной платформы Промптхаб, где пользователи могут делиться своими инструкциям для Алисы. Предполагается, что она должна быть полезной. Хотя основная польза ИИ как раз заключается в умении сформулировать запрос своими словами и именно так, как это нужно пользователю, а не устраивать ритуал из копирования чужих инструкций.
Реинкарнация «Советника Яндекс Маркета»
Яндекс продолжает активно педалировать тему ИИ-агентов. Много внимания уделили реинкарнации некогда существовавшего сервиса «Советник Яндекс Маркета» (теперь, понятное дело, на базе Алисы) – ИИ-агенту для поиска товаров и выгодных цен. Обещают сделать кросс-платформенный сервис с доступом к независимым магазинам и маркетплейсам. Заставить нормально работать агента в Маркете у компании так и не получилось, хотя нас активно пытались убедить в обратном – но даже в видео ИИ Маркета ошибается в распознавании одежды на фото.
Вызов такси через Алису… Снова
Есть и более «полезные» сценарии – например, интеграция Алисы в Go для вызова такси. Гораздо проще сказать «Алиса, вызови такси комфорт до работы» – и поехать. Правда, так теряется обратная связь: пользователь не видит, что «Комфорт+» стоит тех же денег, а если пройти 3 минуты до дороги, то будет дешевле и машина приедет быстрее. В итоге Яндекс сам отказывается от интерфейса с дополнительной информацией, который долго строил. При этом Алиса давно умеет вызывать такси, но теперь это пытаются преподнести как прорыв.
В мире ненужных гаджетов
Наушники и диктофоны – устройства из категории умных колец Сбера, которые прикольно анонсировать, сделать и показать, и которыми никто не будет пользоваться. Вместо того, чтобы сделать из Алисы нормального ассистента для телефона, способного взаимодействовать с системой и работать с любыми наушниками (как это делает Google или Perplexity), Яндекс решил придумывать костыли и тратить деньги на разработку и производство железа. Отдельная история – это диктофон: странно пытаться воскресить устройство, которое давно заменил телефон. Особенно если этот диктофон будут продавать по цене недорогого смартфона и с подпиской.
Перестановка кроватей в экосистеме
Во время просмотра YaC стало ясно, что компания запуталась в нейминге и позиционировании своих продуктов. Отдельный блок «Разбираемся в Алисах» посвящён тому, чтобы просто объяснить состав продуктовой линейки – чем отличается Алиса AI от Alice AI и от Алиса Про. Но не той подписки Про, которая была раньше (потому что теперь она называется Алиса Плюс), а отдельного сервиса Про. Мелочь, но это показывает отношение к деталям.
Самое грустное, что активно продвигаемые ИИ-агенты в итоге отберут у пользователя свободу выбора. На запрос «самая лучшая и дешёвая колбаса» очень легко получить вполне определённую и «правильную» колбасу от правильного бренда, который заплатил за продвижение в выдаче. А на возмущения пользователей можно легко сослаться, что «ИИ агент – технология на базе языковой модели и поэтому может допускать ошибки».
Желанием навязать ИИ пользователям под прикрытием удобства и экономии времени буквально пропитан весь YaC. Амбиции Яндекса построить ИИ-экосистему мирового уровня вызывают уважение, это огромный и сложный инженерный труд. Но важно, чтобы этот труд не превращался в сырые продукты, которые решают задачи корпорации, а не пользователя.
Дела у Яндекса, кажется, идут не так гладко, как нам пытаются показать. Вместо прошлогоднего документального сериала с дорогим продакшеном, графикой и выездными съемками YaC 2025 встретил нас форматом единичного подкаста во дворе. Сергей Юдин и коллеги (которых периодически было не слышно из-за плохого звука) на бегу пересказали пресс-релизы компании за год. Но проблема, на самом деле, не в картинке или звуке. Проблема в том, что за час эфира нам не показали почти ничего нового и не смогли ответить на вопрос «Зачем?».
Промптхаб
Начали с мертворожденной платформы Промптхаб, где пользователи могут делиться своими инструкциям для Алисы. Предполагается, что она должна быть полезной. Хотя основная польза ИИ как раз заключается в умении сформулировать запрос своими словами и именно так, как это нужно пользователю, а не устраивать ритуал из копирования чужих инструкций.
Реинкарнация «Советника Яндекс Маркета»
Яндекс продолжает активно педалировать тему ИИ-агентов. Много внимания уделили реинкарнации некогда существовавшего сервиса «Советник Яндекс Маркета» (теперь, понятное дело, на базе Алисы) – ИИ-агенту для поиска товаров и выгодных цен. Обещают сделать кросс-платформенный сервис с доступом к независимым магазинам и маркетплейсам. Заставить нормально работать агента в Маркете у компании так и не получилось, хотя нас активно пытались убедить в обратном – но даже в видео ИИ Маркета ошибается в распознавании одежды на фото.
Вызов такси через Алису… Снова
Есть и более «полезные» сценарии – например, интеграция Алисы в Go для вызова такси. Гораздо проще сказать «Алиса, вызови такси комфорт до работы» – и поехать. Правда, так теряется обратная связь: пользователь не видит, что «Комфорт+» стоит тех же денег, а если пройти 3 минуты до дороги, то будет дешевле и машина приедет быстрее. В итоге Яндекс сам отказывается от интерфейса с дополнительной информацией, который долго строил. При этом Алиса давно умеет вызывать такси, но теперь это пытаются преподнести как прорыв.
В мире ненужных гаджетов
Наушники и диктофоны – устройства из категории умных колец Сбера, которые прикольно анонсировать, сделать и показать, и которыми никто не будет пользоваться. Вместо того, чтобы сделать из Алисы нормального ассистента для телефона, способного взаимодействовать с системой и работать с любыми наушниками (как это делает Google или Perplexity), Яндекс решил придумывать костыли и тратить деньги на разработку и производство железа. Отдельная история – это диктофон: странно пытаться воскресить устройство, которое давно заменил телефон. Особенно если этот диктофон будут продавать по цене недорогого смартфона и с подпиской.
Перестановка кроватей в экосистеме
Во время просмотра YaC стало ясно, что компания запуталась в нейминге и позиционировании своих продуктов. Отдельный блок «Разбираемся в Алисах» посвящён тому, чтобы просто объяснить состав продуктовой линейки – чем отличается Алиса AI от Alice AI и от Алиса Про. Но не той подписки Про, которая была раньше (потому что теперь она называется Алиса Плюс), а отдельного сервиса Про. Мелочь, но это показывает отношение к деталям.
Самое грустное, что активно продвигаемые ИИ-агенты в итоге отберут у пользователя свободу выбора. На запрос «самая лучшая и дешёвая колбаса» очень легко получить вполне определённую и «правильную» колбасу от правильного бренда, который заплатил за продвижение в выдаче. А на возмущения пользователей можно легко сослаться, что «ИИ агент – технология на базе языковой модели и поэтому может допускать ошибки».
Желанием навязать ИИ пользователям под прикрытием удобства и экономии времени буквально пропитан весь YaC. Амбиции Яндекса построить ИИ-экосистему мирового уровня вызывают уважение, это огромный и сложный инженерный труд. Но важно, чтобы этот труд не превращался в сырые продукты, которые решают задачи корпорации, а не пользователя.
1🔥6❤3😁1
«Итерируй это»: как Washington Post сознательно запустила галлюцинирующий ИИ
Издание Semafor рассказало о внутренней кухне Washington Post пугающую историю. Одна из старейших газет США выпустила ИИ-инструмент «Your Personal Podcast», и, по информации журналистов, газета знала о его критической неисправности. Редакция Semafor заявляет, что получила доступ к результатам внутренних тестов и корпоративным перепискам, которые показывают, что между желанием менеджмента отчитаться об успехах и реальностью пропасть.
По информации редакции, на этапе тестирования от 68% до 84% сгенерированных скриптов были признаны браком. ИИ не просто ошибался, а выдумывал цитаты, путал факты и приписывал редакции мнения, которых та не высказывала. Реакция внутри редакции – смесь паники и гнева: Semafor цитирует внутренние чаты, где сотрудники называют происходящее безумием. Один из редакторов написал: «Нас бы уволили за такие ошибки, если бы их сделал человек». Журналисты опасаются, что галлюцинирующий бот уничтожит доверие к бренду, которое нарабатывалось десятилетиями.
Однако у менеджмента друой взгляд на вещи. В ответ на запрос Semafor пресс-служба газеты заявила, что продукт находится в стадии «бета-тестирования», и именно так, через пробы и ошибки, создаются инновации. Технический директор Винит Хосла в письме сотрудникам и вовсе назвал запуск «ультимативным пересечением» технологий и клиентского опыта. Позиция руководства в том, что нужно делать итерации и развивать продукт уже в процессе, тестируя на живой (в том числе платящей) аудитории.
Описание ситуации выглядит в целом правдоподобно, такое случается при использовании моделей с малым количеством параметров и плохо настроенной работой с данными. Проверить не получилось – у нас в приложении соответствующая бета-функция отсутствует. Автор расследования связывает спешку с кризисом в компании и тем, что Washington Post теряет подписчиков и деньги, пытаясь угнаться за New York Times. В этой гонке руководство, похоже, решило, что наличие модного ИИ-продукта важнее его качества.
Издание Semafor рассказало о внутренней кухне Washington Post пугающую историю. Одна из старейших газет США выпустила ИИ-инструмент «Your Personal Podcast», и, по информации журналистов, газета знала о его критической неисправности. Редакция Semafor заявляет, что получила доступ к результатам внутренних тестов и корпоративным перепискам, которые показывают, что между желанием менеджмента отчитаться об успехах и реальностью пропасть.
По информации редакции, на этапе тестирования от 68% до 84% сгенерированных скриптов были признаны браком. ИИ не просто ошибался, а выдумывал цитаты, путал факты и приписывал редакции мнения, которых та не высказывала. Реакция внутри редакции – смесь паники и гнева: Semafor цитирует внутренние чаты, где сотрудники называют происходящее безумием. Один из редакторов написал: «Нас бы уволили за такие ошибки, если бы их сделал человек». Журналисты опасаются, что галлюцинирующий бот уничтожит доверие к бренду, которое нарабатывалось десятилетиями.
Однако у менеджмента друой взгляд на вещи. В ответ на запрос Semafor пресс-служба газеты заявила, что продукт находится в стадии «бета-тестирования», и именно так, через пробы и ошибки, создаются инновации. Технический директор Винит Хосла в письме сотрудникам и вовсе назвал запуск «ультимативным пересечением» технологий и клиентского опыта. Позиция руководства в том, что нужно делать итерации и развивать продукт уже в процессе, тестируя на живой (в том числе платящей) аудитории.
Описание ситуации выглядит в целом правдоподобно, такое случается при использовании моделей с малым количеством параметров и плохо настроенной работой с данными. Проверить не получилось – у нас в приложении соответствующая бета-функция отсутствует. Автор расследования связывает спешку с кризисом в компании и тем, что Washington Post теряет подписчиков и деньги, пытаясь угнаться за New York Times. В этой гонке руководство, похоже, решило, что наличие модного ИИ-продукта важнее его качества.
👍2
#нейродайджест Аишки за неделю
✦ Энергосберегающая лень: компании учат нейросети лениться и бросать работу на полпути, чтобы сэкономить
✦ Спиритический ИИ ради крипты: стартап 2wai обещал звонки умершим, а на деле собирал биометрию и растил свой крипто-коин
✦ Национальный украинский ИИ как миф: украинская модель оказалась Google Gemma на американских серверах
✦ «Потёмкинский» Copilot: как вирусный тред о внедрении ИИ в корпорации заставил задуматься о реальных процессах
✦ Психиатрия для роботов: у Gemini нашли тревожность, а у Grok – манию величия. Симуляция ментальных расстройств становится опасной для пользователей.
✦ Wink выбрал смыслы вместо фильтров: российский стриминг дополнил каталог нейросетью
✦ Xiaomi демпингует рынок ИИ? Китайцы выпустили «убийцу флагманов», но, как всегда, с нюансами
✦ Итоги YaC 2025: Яндекс запутался в «Алисах», раскрыл подробности про наушники и старательно навязывал ИИ пользователям
✦ Журналистика эпохи хайпа: Washington Post выпустили галлюцинирующий ИИ-подкаст, чтобы менеджеры закрыли KPI
Обновления продуктов:
✦ ChatGPT учится рисовать лица: обновление Image 1.5
✦ OpenAI потерял лидерство в генерации картинок из-за Nano Banana Pro (сравнение)
✦ Google обновляет Mixboard – конвейер для генерации картинок и презентаций
✦ ChatGPT добавил приложения и новый способ их вызова через «@»
✦ Переводчик от Google научился синхронному переводу с ИИ через любые наушники
✦ Конструктор приложений внутри чат-бота: создание мини-приложений в Gemini
✦ Энергосберегающая лень: компании учат нейросети лениться и бросать работу на полпути, чтобы сэкономить
✦ Спиритический ИИ ради крипты: стартап 2wai обещал звонки умершим, а на деле собирал биометрию и растил свой крипто-коин
✦ Национальный украинский ИИ как миф: украинская модель оказалась Google Gemma на американских серверах
✦ «Потёмкинский» Copilot: как вирусный тред о внедрении ИИ в корпорации заставил задуматься о реальных процессах
✦ Психиатрия для роботов: у Gemini нашли тревожность, а у Grok – манию величия. Симуляция ментальных расстройств становится опасной для пользователей.
✦ Wink выбрал смыслы вместо фильтров: российский стриминг дополнил каталог нейросетью
✦ Xiaomi демпингует рынок ИИ? Китайцы выпустили «убийцу флагманов», но, как всегда, с нюансами
✦ Итоги YaC 2025: Яндекс запутался в «Алисах», раскрыл подробности про наушники и старательно навязывал ИИ пользователям
✦ Журналистика эпохи хайпа: Washington Post выпустили галлюцинирующий ИИ-подкаст, чтобы менеджеры закрыли KPI
Обновления продуктов:
✦ ChatGPT учится рисовать лица: обновление Image 1.5
✦ OpenAI потерял лидерство в генерации картинок из-за Nano Banana Pro (сравнение)
✦ Google обновляет Mixboard – конвейер для генерации картинок и презентаций
✦ ChatGPT добавил приложения и новый способ их вызова через «@»
✦ Переводчик от Google научился синхронному переводу с ИИ через любые наушники
✦ Конструктор приложений внутри чат-бота: создание мини-приложений в Gemini
ИИ из художника превращается в верстальщика
Будущее генерации не за красивыми картинками, а за PSD-файлами?
Современные генеративные модели похожи на талантливых импульсивных художников. Они могут создать шедевр, но стоит попросить их немного подвинуть один объект и точечно изменить яркость другого – они психанут, перерисуют всю картинку заново, попутно поменяв какие-то детали. Проблема в том, что для нейросети объект и фон – это единое целое, поэтому любое вмешательство вызывает непредсказуемые изменения контента. Индустрия пытается лечить это костылями, вырезая объекты масками и заполняя дыры.
Чтобы избавиться от костылей, Alibaba предложила архитектуру Qwen-Image-Layered, которая меняет сам принцип создания изображения. Вместо того чтобы рисовать плоский холст и потом пытаться его разрезать, модель изначально генерирует несколько слоёв, обучившись на реальных PSD-файлах. Это позволяет ей нативно понимать прозрачность и структуру сцены, отделяя текст, персонажей и фон еще на этапе генерации картинки. Фактически, нейросеть перестает быть просто художником и становится верстальщиком.
Тесты компании показывают, что такой подход даёт куда более чистые границы объектов, чем попытки постфактум разделить готовое изображение. Это превращает картинку в конструктор: можно безболезненно менять композицию и отдельные слои, не генерируя её заново. Однако за это приходится платить ресурсами: генерация сразу множества слоёв требует больше мощностей, а модели всё равно приходится «галлюцинировать», додумывая скрытые за объектами участки фона.
Для массового пользователя это скорее минус: такой подход убивает магию «идеальной картинки в один клик», заставляя пользователя вникать и тратить силы. Но для профессионального рынка эта технология потенциально может стать очень полезной, ведь дизайнеры и агентства получают не просто красивый арт, а файл PSD (так ещё и без костылей в виде Segment Anything и инпеинтинга), где правки вносить легко и результат более предсказуем.
Будущее генерации не за красивыми картинками, а за PSD-файлами?
Современные генеративные модели похожи на талантливых импульсивных художников. Они могут создать шедевр, но стоит попросить их немного подвинуть один объект и точечно изменить яркость другого – они психанут, перерисуют всю картинку заново, попутно поменяв какие-то детали. Проблема в том, что для нейросети объект и фон – это единое целое, поэтому любое вмешательство вызывает непредсказуемые изменения контента. Индустрия пытается лечить это костылями, вырезая объекты масками и заполняя дыры.
Чтобы избавиться от костылей, Alibaba предложила архитектуру Qwen-Image-Layered, которая меняет сам принцип создания изображения. Вместо того чтобы рисовать плоский холст и потом пытаться его разрезать, модель изначально генерирует несколько слоёв, обучившись на реальных PSD-файлах. Это позволяет ей нативно понимать прозрачность и структуру сцены, отделяя текст, персонажей и фон еще на этапе генерации картинки. Фактически, нейросеть перестает быть просто художником и становится верстальщиком.
Тесты компании показывают, что такой подход даёт куда более чистые границы объектов, чем попытки постфактум разделить готовое изображение. Это превращает картинку в конструктор: можно безболезненно менять композицию и отдельные слои, не генерируя её заново. Однако за это приходится платить ресурсами: генерация сразу множества слоёв требует больше мощностей, а модели всё равно приходится «галлюцинировать», додумывая скрытые за объектами участки фона.
Для массового пользователя это скорее минус: такой подход убивает магию «идеальной картинки в один клик», заставляя пользователя вникать и тратить силы. Но для профессионального рынка эта технология потенциально может стать очень полезной, ведь дизайнеры и агентства получают не просто красивый арт, а файл PSD (так ещё и без костылей в виде Segment Anything и инпеинтинга), где правки вносить легко и результат более предсказуем.
Лицо по подписке
Как цифровые двойники становятся выгоднее живых людей
Мы уже обсуждали, что голос превращается в торгуемый актив, а любой желающий может купить тембр Марка Твена для озвучки своей рекламы. Индустрия моды решила не отставать и масштабировать этот подход на внешность. Логика та же: тело человека разбирается на цифровые запчасти и превращается в SaaS-решение. Вместо оплаты съёмочных дней, перелётов и гостиниц рынок переходит на новую валюту – лицензию на использование «цифрового двойника». Лицо больше не часть организма, а ПО с ключом активации.
В авангарде этого движения идёт масс-маркет. Zara рассказала, что «переодевает» реальных моделей с помощью нейросетей, экономя на пересъёмках. H&M идёт ва-банк, создавая полных цифровых клонов живых людей. Модель Матильда Гварлиани получила своего виртуального аватара, который может работать 24/7 без обеда и джетлага, пока сама Матильда спит. Шведский ритейлер обещает, что права на «цифровую копию» остаются у модели, и она может сдавать себя в аренду даже конкурентам. С одной стороны, звучит прогрессивно и обеспечивает дополнительный заработок. С другой, физическое присутствие человека на работе становится рудиментом – а все мы знаем, как легко при желании можно найти и использовать пиратские копии цифровых активов, контроль над которым теряется.
При этом компании при использовании цифровых моделей руководствуются в первую очерель прагматическими соображениями. Zalando рассказали, что срок производства фото падает с 6 недель до 3 дней, а затраты режутся на 90%. Если это правда и будет масштабироваться на всю отрасль, то технология может стать приговором для текущего рынка. Причём не столько для топ-моделей (они как раз станут рантье), сколько для экосистемы вокруг них – визажистов, осветителей, водителей, кейтеринга и ассистентов фотографов. Ассоциация фотографов Британии уже начинает паниковать, причём не из-за «смерти искусства», а из-за исчезновения заказчика на рынке.
Мы живём во время самой активной уберизации человека. Топ-модели и селебрити превратятся в пассивных держателей IP-прав, собирая роялти за то, что их цифровые копии улыбаются с билбордов в Токио и Париже. А вот средний класс – каталожные модели и массовка – рискует исчезнуть. То есть отрасль снова упирается в регулирование вопроса авторских прав и использования ИИ-моделей. Ну и, если пойти дальше, в вопросы «цифрового крепостного права», но это тема для отдельного текста.
Как цифровые двойники становятся выгоднее живых людей
Мы уже обсуждали, что голос превращается в торгуемый актив, а любой желающий может купить тембр Марка Твена для озвучки своей рекламы. Индустрия моды решила не отставать и масштабировать этот подход на внешность. Логика та же: тело человека разбирается на цифровые запчасти и превращается в SaaS-решение. Вместо оплаты съёмочных дней, перелётов и гостиниц рынок переходит на новую валюту – лицензию на использование «цифрового двойника». Лицо больше не часть организма, а ПО с ключом активации.
В авангарде этого движения идёт масс-маркет. Zara рассказала, что «переодевает» реальных моделей с помощью нейросетей, экономя на пересъёмках. H&M идёт ва-банк, создавая полных цифровых клонов живых людей. Модель Матильда Гварлиани получила своего виртуального аватара, который может работать 24/7 без обеда и джетлага, пока сама Матильда спит. Шведский ритейлер обещает, что права на «цифровую копию» остаются у модели, и она может сдавать себя в аренду даже конкурентам. С одной стороны, звучит прогрессивно и обеспечивает дополнительный заработок. С другой, физическое присутствие человека на работе становится рудиментом – а все мы знаем, как легко при желании можно найти и использовать пиратские копии цифровых активов, контроль над которым теряется.
При этом компании при использовании цифровых моделей руководствуются в первую очерель прагматическими соображениями. Zalando рассказали, что срок производства фото падает с 6 недель до 3 дней, а затраты режутся на 90%. Если это правда и будет масштабироваться на всю отрасль, то технология может стать приговором для текущего рынка. Причём не столько для топ-моделей (они как раз станут рантье), сколько для экосистемы вокруг них – визажистов, осветителей, водителей, кейтеринга и ассистентов фотографов. Ассоциация фотографов Британии уже начинает паниковать, причём не из-за «смерти искусства», а из-за исчезновения заказчика на рынке.
Мы живём во время самой активной уберизации человека. Топ-модели и селебрити превратятся в пассивных держателей IP-прав, собирая роялти за то, что их цифровые копии улыбаются с билбордов в Токио и Париже. А вот средний класс – каталожные модели и массовка – рискует исчезнуть. То есть отрасль снова упирается в регулирование вопроса авторских прав и использования ИИ-моделей. Ну и, если пойти дальше, в вопросы «цифрового крепостного права», но это тема для отдельного текста.
👍3
Сквозь блики и полиэтилен
Внедрение компьютерного зрения остается дорогим удовольствием: гиганты вроде X5 Retail Group уже используют камеры для ускорения инвентаризации (о чем в подкасте рассказывал недавно их директор по ИИ Михаил Неверов), но у остальных игроков часто нет ресурсов на сбор и разметку тысяч кадров.
Этот барьер теперь снижается: Яндекс, Сколтех и ГУАП выложили в опенсорс PackEat – датасет, который позволяет даже небольшим компаниям обучать модели распознавания товаров без больших затрат на создание собственной базы с нуля. По заявлениям создателей набора, главная его ценность – реализм.
PackEat – это архив объемом 774 ГБ, содержащий более 100 тысяч изображений 34 видов и 65 сортов овощей и фруктов. Снимки сделаны непосредственно на весах и кассах: с бликами на полиэтилене, сложным светом и наложениями объектов. Авторы заявляют, что разметка (включая маски для сегментации) позволяет учить алгоритмы видеть сквозь упаковку, считать количество единиц в пакете и отличать сорта даже в куче из продуктов.
Внедрение компьютерного зрения остается дорогим удовольствием: гиганты вроде X5 Retail Group уже используют камеры для ускорения инвентаризации (о чем в подкасте рассказывал недавно их директор по ИИ Михаил Неверов), но у остальных игроков часто нет ресурсов на сбор и разметку тысяч кадров.
Этот барьер теперь снижается: Яндекс, Сколтех и ГУАП выложили в опенсорс PackEat – датасет, который позволяет даже небольшим компаниям обучать модели распознавания товаров без больших затрат на создание собственной базы с нуля. По заявлениям создателей набора, главная его ценность – реализм.
PackEat – это архив объемом 774 ГБ, содержащий более 100 тысяч изображений 34 видов и 65 сортов овощей и фруктов. Снимки сделаны непосредственно на весах и кассах: с бликами на полиэтилене, сложным светом и наложениями объектов. Авторы заявляют, что разметка (включая маски для сегментации) позволяет учить алгоритмы видеть сквозь упаковку, считать количество единиц в пакете и отличать сорта даже в куче из продуктов.
51❤3
Алиса пришла в камеры и научила их «стучать» на животных
Эпоха бомбардирования телефона пушами «Обнаружено движение» с камеры из-за качнувшейся шторы уходит в прошлое. Во всяком случае, по мнению Яндекса, который рассказал о добавлении на свои камеры Alice AI VLM – визуальной языковой модели, которая умеет описывать события с камер человеческим языком. Камера семантически понимает происходящее, посылая пользователю конкретную сводку – например, что «кот начал копаться в мусорке». Умный дом постепенно перестаёт говорить на языке инженеров, позволяя создавать сценарии автоматизации простыми текстовыми командами, вроде «включи свет, если собака грызет диван».
За такое «понимание» придётся ежемесячно платить. VLM не запустится на самой камере, поэтому обработка происходит в облаках Яндекса. Именно эти вычислительные мощности и упакованы в подписки «Стандарт» (299 рублей) и «Экстра» (699 рублей). Яндекс продолжает переходить на бизнес-модель, где продажа «железа» становится поводом подсадить пользователя на абонентскую плату. Функции вроде текстовой расшифровки событий, дневного саммари и умного поиска по архиву доступны только по подписке.
Технически, для генерации описания камера должна передать зашифрованные кадры события на сервер Яндекса для анализа (соответственно, расшифровывая и получая к ним доступ). При этом остаётся открытым вопрос использования этих данных: помогают ли пользовательские корректировки ошибок дообучать модель и учитываются ли распознанные объекты (например, детская мебель или домашние животные) при формировании рекламного профиля в Yandex ID?
Эпоха бомбардирования телефона пушами «Обнаружено движение» с камеры из-за качнувшейся шторы уходит в прошлое. Во всяком случае, по мнению Яндекса, который рассказал о добавлении на свои камеры Alice AI VLM – визуальной языковой модели, которая умеет описывать события с камер человеческим языком. Камера семантически понимает происходящее, посылая пользователю конкретную сводку – например, что «кот начал копаться в мусорке». Умный дом постепенно перестаёт говорить на языке инженеров, позволяя создавать сценарии автоматизации простыми текстовыми командами, вроде «включи свет, если собака грызет диван».
За такое «понимание» придётся ежемесячно платить. VLM не запустится на самой камере, поэтому обработка происходит в облаках Яндекса. Именно эти вычислительные мощности и упакованы в подписки «Стандарт» (299 рублей) и «Экстра» (699 рублей). Яндекс продолжает переходить на бизнес-модель, где продажа «железа» становится поводом подсадить пользователя на абонентскую плату. Функции вроде текстовой расшифровки событий, дневного саммари и умного поиска по архиву доступны только по подписке.
Технически, для генерации описания камера должна передать зашифрованные кадры события на сервер Яндекса для анализа (соответственно, расшифровывая и получая к ним доступ). При этом остаётся открытым вопрос использования этих данных: помогают ли пользовательские корректировки ошибок дообучать модель и учитываются ли распознанные объекты (например, детская мебель или домашние животные) при формировании рекламного профиля в Yandex ID?
1😁1
Нейросеть в блокноте
Как Kindle пытается читать мысли владельца (и почему у него это плохо получается)
Главная софтверная инновация нового Kindle Scribe – функция «Ask your notes», которая пытается решить проблему бумажных заметок: невозможность их гуглить. Устройство индексирует рукописные заметки пользователя, превращая мертвый архив блокнотов в базу данных, с которой можно разговаривать в формате чата.
Можно спросить у планшета: «Какие дедлайны я записал на совещании во вторник?» или «Что мы решили по проекту Х?». Нейросеть анализирует рукописный текст, распознает почерк, связывает контекст из разных страниц и выдаёт ответ. Хаотичные заметки можно одной кнопкой превратить в аккуратный печатный конспект (Refine Writing) или вычленить краткое содержание (Summarize).
На практике «цифровой мозг» пока работает не слишком надёжно. В первых тестах из сети система уверенно галлюцинировала: путала имена людей с названиями задач, неверно интерпретировала списки покупок как бизнес-планы и спотыкалась о небрежный почерк. Если запрос простой – ИИ справится, но собрать воедино сложную стратегию из разрозненных заметок ему пока не под силу. Точность ответов напрямую зависит от каллиграфии владельца, что убивает саму суть быстрых заметок на лету.
За этот эксперимент пользователь платит не только деньгами, но и данными. Для анализа рукописи отправляются в облако Amazon, что для бизнеса – риск утечки информации. Да и пользователи тоже не все хотят делиться сэмплами собственного почерка, заметками и рисунками с корпорацией. По сути, компания продает сырую бета-версию технологии под видом премиальной функции, предлагая пользователям самим обучать нейросеть за свои 630 долларов.
Как Kindle пытается читать мысли владельца (и почему у него это плохо получается)
Главная софтверная инновация нового Kindle Scribe – функция «Ask your notes», которая пытается решить проблему бумажных заметок: невозможность их гуглить. Устройство индексирует рукописные заметки пользователя, превращая мертвый архив блокнотов в базу данных, с которой можно разговаривать в формате чата.
Можно спросить у планшета: «Какие дедлайны я записал на совещании во вторник?» или «Что мы решили по проекту Х?». Нейросеть анализирует рукописный текст, распознает почерк, связывает контекст из разных страниц и выдаёт ответ. Хаотичные заметки можно одной кнопкой превратить в аккуратный печатный конспект (Refine Writing) или вычленить краткое содержание (Summarize).
На практике «цифровой мозг» пока работает не слишком надёжно. В первых тестах из сети система уверенно галлюцинировала: путала имена людей с названиями задач, неверно интерпретировала списки покупок как бизнес-планы и спотыкалась о небрежный почерк. Если запрос простой – ИИ справится, но собрать воедино сложную стратегию из разрозненных заметок ему пока не под силу. Точность ответов напрямую зависит от каллиграфии владельца, что убивает саму суть быстрых заметок на лету.
За этот эксперимент пользователь платит не только деньгами, но и данными. Для анализа рукописи отправляются в облако Amazon, что для бизнеса – риск утечки информации. Да и пользователи тоже не все хотят делиться сэмплами собственного почерка, заметками и рисунками с корпорацией. По сути, компания продает сырую бета-версию технологии под видом премиальной функции, предлагая пользователям самим обучать нейросеть за свои 630 долларов.
Telegram
Content Review
«Умный блокнот» за 630 долларов
Amazon начал продажи Kindle Scribe Colorsoft – цветного Kindle с умным поиском по заметкам. Это попытка превратить обычную читалку в рабочий инструмент: устройство получило цветной экран и нейросеть, которая индексирует рукописные…
Amazon начал продажи Kindle Scribe Colorsoft – цветного Kindle с умным поиском по заметкам. Это попытка превратить обычную читалку в рабочий инструмент: устройство получило цветной экран и нейросеть, которая индексирует рукописные…
1❤3
Чуть не пропустили, что OpenAI показали собственные «Итоги года» для ChatGPT. Алгоритм анализирует диалоги пользователя, делает на их основе инфографику и присваивает ему «архетип». Функция доступна в вебе и мобильном приложении,
Работает довольно поверхностно. Такое ощущение, что взяты последние чаты и по ним сделаны выводы о темах, которые интересны пользователю. Оказалось, что наша редакция входит в топ 1% аккаунтов по количеству отправленных сообщений.
Интереснее будет посмотреть такие отчёты в следующем году – если компания, как обещает, ослабит цензуру на «взрослый контент».
Работает довольно поверхностно. Такое ощущение, что взяты последние чаты и по ним сделаны выводы о темах, которые интересны пользователю. Оказалось, что наша редакция входит в топ 1% аккаунтов по количеству отправленных сообщений.
Интереснее будет посмотреть такие отчёты в следующем году – если компания, как обещает, ослабит цензуру на «взрослый контент».
Одна из главных проблем в развитии умных роботов – дефицит данных: записей физических действий, сопряженных с визуальным контекстом, мало. Мы как-то писали про фермы с индусами, которые весь день складывают полотенца для обучения ИИ. Nvidia решила пойти по немного другому пути – через видеоигры, где физика и логика действий уже симулированы.
Компания представила NitroGen – базовую модель, которая учится универсальным принципам управления в тысяче различных виртуальных миров. Идея в том, чтобы дать алгоритму «насмотренность»: модель учится понимать, как визуальная картинка (препятствие, враг, цель) должна трансформироваться в конкретное действие (нажатие кнопки, поворот), независимо от жанра или графики.
Разработчики написали алгоритм, который анализирует видео с площадок (вероятно, YouTube и Twitch), где стримеры выводят на экран изображение геймпада с нажатыми клавишами. Система автоматически сопоставляет происходящее в игре с нажатиями кнопок, создавая пары видео–действие. Так удалось собрать 40 тысяч часов обучающего материала из более чем 1000 игр. На выходе получилась маленькая модель, которая при переносе на новую, незнакомую игру справляется с задачами на 52% лучше, чем нейросеть, которую учили с нуля.
Если заглянуть чуть дальше, то окажется, что многие реальные устройства – от FPV-дронов до промышленных манипуляторов – управляются с пульта или геймпада, поэтому навык может стать фундаментом для управления реальной техникой. Прямой перенос модели в реальных роботов пока невозможен, ведь цена ошибки в физическом мире выше, а управление сложнее. Но NitroGen может стать заготовкой для других систем компьютерного зрения. К тому же у модели всего 500 миллионов параметров – немного по современным меркам, но позволяет запускать её локально, прямо на борту робота или дрона.
Компания представила NitroGen – базовую модель, которая учится универсальным принципам управления в тысяче различных виртуальных миров. Идея в том, чтобы дать алгоритму «насмотренность»: модель учится понимать, как визуальная картинка (препятствие, враг, цель) должна трансформироваться в конкретное действие (нажатие кнопки, поворот), независимо от жанра или графики.
Разработчики написали алгоритм, который анализирует видео с площадок (вероятно, YouTube и Twitch), где стримеры выводят на экран изображение геймпада с нажатыми клавишами. Система автоматически сопоставляет происходящее в игре с нажатиями кнопок, создавая пары видео–действие. Так удалось собрать 40 тысяч часов обучающего материала из более чем 1000 игр. На выходе получилась маленькая модель, которая при переносе на новую, незнакомую игру справляется с задачами на 52% лучше, чем нейросеть, которую учили с нуля.
Если заглянуть чуть дальше, то окажется, что многие реальные устройства – от FPV-дронов до промышленных манипуляторов – управляются с пульта или геймпада, поэтому навык может стать фундаментом для управления реальной техникой. Прямой перенос модели в реальных роботов пока невозможен, ведь цена ошибки в физическом мире выше, а управление сложнее. Но NitroGen может стать заготовкой для других систем компьютерного зрения. К тому же у модели всего 500 миллионов параметров – немного по современным меркам, но позволяет запускать её локально, прямо на борту робота или дрона.
👍2❤1
Алиса теперь библиотекарь
Яндекс сделал новый продукт с генеративным искусственным интеллектом – умный поиск в Яндекс Книгах. Как мы писали в тексте про ассистента в сервисе Wink, это одно из самых логичных применений для LLM. В отличие от «ИИ-ассистента» Яндекс Маркета, здесь технология решает реальную проблему пользователя: помогает найти книгу, когда есть запрос на атмосферу, сходство или специфическую тему, а не на конкретного автора.
Чат-бот работает на базе Alice AI и каталога произведений сервиса. Длинные детализированные запросы работают без особых проблем. Инструмент ищет хуже ChatGPT, но выигрывает за счёт других моментов: скорости доступа и интеграции в приложение. Есть вероятность, что человек после прочитанной книжки нажмёт на кнопку и напишет «Хочу вот такую же книгу, как эта, прямо с таким же вайбом, и чтобы драконы, и любовный треугольник был» – и пойдёт читать дальше.
Из нашего опыта, бот ощущается пока скорее как бета – ответы могут отличаться, книги находятся не всегда. А главное, он не держит контекст: при уточняющих вопросах он забывает предыдущий диалог и начинает искать совершенно другие вещи, из-за чего теряется смысл отдельных чатов. Ответы получаются сухие, короткие, с перечислением книг. Скорее это просто умный поиск по каталогу. Больше всего портит впечатление агрессивное навязывание компанией ИИ-функций: по новой традиции, кнопку вызова нейросети разместили прямо по центру меню, где, конечно, пользователи без неё не обойдутся. Осталось только избавиться от интерфейса совсем и заменить его чат-ботом.
P.S. В запросе «Найди книгу про становление мальчика художника из американской глубинки. От известного автора, не помню его» имелся в виду «Гений» Драйзера. Но с поиском справилась только Gemini, так что придираться не будем.
Яндекс сделал новый продукт с генеративным искусственным интеллектом – умный поиск в Яндекс Книгах. Как мы писали в тексте про ассистента в сервисе Wink, это одно из самых логичных применений для LLM. В отличие от «ИИ-ассистента» Яндекс Маркета, здесь технология решает реальную проблему пользователя: помогает найти книгу, когда есть запрос на атмосферу, сходство или специфическую тему, а не на конкретного автора.
Чат-бот работает на базе Alice AI и каталога произведений сервиса. Длинные детализированные запросы работают без особых проблем. Инструмент ищет хуже ChatGPT, но выигрывает за счёт других моментов: скорости доступа и интеграции в приложение. Есть вероятность, что человек после прочитанной книжки нажмёт на кнопку и напишет «Хочу вот такую же книгу, как эта, прямо с таким же вайбом, и чтобы драконы, и любовный треугольник был» – и пойдёт читать дальше.
Из нашего опыта, бот ощущается пока скорее как бета – ответы могут отличаться, книги находятся не всегда. А главное, он не держит контекст: при уточняющих вопросах он забывает предыдущий диалог и начинает искать совершенно другие вещи, из-за чего теряется смысл отдельных чатов. Ответы получаются сухие, короткие, с перечислением книг. Скорее это просто умный поиск по каталогу. Больше всего портит впечатление агрессивное навязывание компанией ИИ-функций: по новой традиции, кнопку вызова нейросети разместили прямо по центру меню, где, конечно, пользователи без неё не обойдутся. Осталось только избавиться от интерфейса совсем и заменить его чат-ботом.
P.S. В запросе «Найди книгу про становление мальчика художника из американской глубинки. От известного автора, не помню его» имелся в виду «Гений» Драйзера. Но с поиском справилась только Gemini, так что придираться не будем.
1👍2😁2