Аишка
969 subscribers
707 photos
66 videos
2 files
455 links
Side-канал @contentreview с новостями из области искусственного интеллекта (AI)

Наши каналы:
Основной (телеком и IT) – @contentreview
Песочница (БигТех) – @BigTechSandbox
Электричка – @econtentreview
Download Telegram
Forwarded from Половников
Про генерацию изображений

Для медиа генерация иллюстраций – это очень важная история. Во-первых, далеко не у всех есть деньги на иллюстраторов, фотографов и бильдредакторов (а некоторые, оказывается, даже не знают, что это такое – бильдредактор). Во-вторых, благодаря шайкам юристов таскать картинки из сети стало небезоспасно. А тут – ввел промпт, получил иллюстрацию. Да, неидеальную. Зато на ближайшие 10-20 лет чистую от авторских прав. Ибо ни один GenAI не выиграет суд о защите авторского права, ибо даже если он докажет то, что иллюстрацию сгенерировал он, то ему придется доказать, что у него были лицензии и разрешение для использования всех изображений, которые использовались для обучения.

Но это лирика. А вот реальный кейс. Написал тут заметку про то, что Nokia похоронили раньше времени. Иллюстрация возникла в голове сама собой, потому и промпт использовался следующий: «кладбище, могила со свежей землей, из могилы торчит рука, рука сжимает мобильный телефон, телефон Nokia 3310, телефон ярко желтого цвета».

Прогнал через Dalli, Grok, ChatGPT, Шедеврум и Кандинского.

Dalli и Grok в целом с задачей справились, но у Grok почему-то могила выкопанная, а телефон не очень-то похож на 3310.

ChatGPT просто отказался рисовать что-то про кладбище. Какой нежный.

Шедеврум справился с телефоном, ну, почти, а кладбище заменил грядкой, на которую кто-то его высаживает. На кладбище должен, видимо, напоминать кирпичик справа.

Кандинский справился с кладбищем, вместо кнопочной Nokia забубенил смартфон Samsung и добавил какую-то желтую фигню по центру.

Конечно, можно помучаться с промптом, прогнать через несколько нейронок, поиграть с негативным промптингом. Но зачем мучаться, если есть GenAI, который скорее справится с задачей, а есть GenAI, который скорее не справится с задачей?
👍2
Коллеги обратили внимание на слова председателя компании Alibaba, который заявил о признаках наличия «пузыря» на рынке американского ИИ. Разделяем скептический настрой Джо Цая… Но возникают несколько вопросов.

Например, возьмём «чрезмерные инвестиции с опережением спроса» на американском рынке и «спекулятивные» вложения в дата-центры. А есть ли такой спрос на рынке Китая? Особенно учитывая, опираясь на ту же статью, «пробуксовывающий» рост его экономики в последние годы, высокую безработицу и слабую потребительскую активность?

А если его нет, то почему Alibaba, другие китайские компании и даже Банк Китая синхронно инвестируют сопоставимые с американскими компаниями деньги в развитие своего собственного ИИ? Одни только Alibaba планируют вложить минимум 52 миллиарда долларов в облачную инфраструктуру и ИИ за следующие 3 года. Является ли это вынужденным ответом на американские инвестиции, или Китай и его компании нашли способ создать спрос на рынке и научить ИИ приносить прибыль?

Зачем компания, говоря о чрезмерности инвестиций и опережении спроса, объявила о возобновлении найма сотрудников после 12 кварталов сокращений?

Оправдан ли рост на 24% гонконгского индекса Hang Seng Tech, включающий ведущие технологические компании (и Alibaba тоже)? Особенно учитывая, что значимыми катализаторами роста стали встреча Си Цзиньпина с лидерами технологического сектора и энтузиазм вокруг моделей DeepSeek. Не является ли такой рост также спекулятивным и схожим по своей природе с хайпом вокруг ИИ в США?

Пока слова председателя Alibaba, не лишённые оснований, напоминают скорее словесную интервенцию с целью повлиять на рынок – потому что сама компания старается по темпам инвестиций и разработки ИИ не отставать от американских коллег.
👍32
Forwarded from Content Review
ИИ пришёл на рынок смартфонов

В 2025 году смартфоны с генеративным искусственным интеллектом готовы захватить почти треть глобального рынка — примерно 400 миллионов устройств

Еще вчера функции искусственного интеллекта на смартфонах казались экзотикой, а сегодня они превращаются в массовый тренд. Ключевой драйвер этой трансформации – прорывы в производстве микрочипов и создании малых и мультимодальных языковых моделей.

Google, Samsung и Apple фактически задают новые правила игры. Их решения – Gemini Nano, Apple Intelligence и Galaxy AI – пытаются переопределить пользовательский опыт, сделав смартфон действительно умным собеседником и помощником.

Правда, пока не всё идёт гладко: улучшенная версия Siri от Apple откладывается, а для получения доступа на китайский рынок компании пришлось договариваться с Alibaba об использовании в Apple Intelligence их ИИ. Google и Samsung так и не смогли объяснить людям, зачем им нужны новые функции: несмотря на технологический восторг производителей, потребители пока относятся к ним прохладно. Люди ждут не очередных технических трюков, а реальной пользы.

Ведущими регионами по темпам внедрения генеративного ИИ станут Северная Америка, Западная Европа и Китай. К 2028 году 82% американских смартфонов обещают иметь ИИ-начинку. Одновременно китайские бренды Xiaomi, OPPO, Vivo и Honor начинают активную интеграцию DeepSeek в свои продукты, намереваясь сделать ИИ-технологии более доступными и массовыми.

Остаётся вопрос, будет ли эта функция бесплатной и скажется ли на цене устройства (если вычисления будут в облаке) либо на жизни батареи и скорости работы (если локально).
👍2
Несколько отличий новой функции генерации изображений в ChatGPT от аналогичной, которую чуть раньше выпустили в Google:

• Инструмент Google пока существует в предварительном формате и доступен бесплатно всем желающим, но только через специальный портал aistudio. Это не готовая к релизу разработка, а скорее бета-тест, в котором компания разрешила поучаствовать всем пользователям

• Текст на изображениях у Google получается хуже, чем у OpenAI. Длинный контекст там не поддерживается и заполнить целый листок А4 внятным текстом не выйдет

• Генерация у Google происходит быстрее. Возможно, из-за оптимизации под их процессоры Trillium или других ухищрений

• Google не умеет генерировать картинки с прозрачным фоном (добавляет вместо этого квадратики, имитируя его)

• Google лучше сохраняет лица и детали оригинального изображения, если нужно его точечно поменять (например, переодеть человека или сделать другую причёску)

• При этому упор у Google сделан не на «художественность», поэтому чтобы получить красивые изображения интерфейса, инфографики или рекламы – нужно постараться. Да и разрешение изображений там сильно ниже

Что в итоге?

Во-первых, OpenAI не стали спешить, уступив конкурентам на первом этапе (хотя анонсировали эту функцию сильно заранее), а в итоге выпустили более полноценный и лучше упакованный продукт. Ведь у Google он находится пока на экспериментальной стадии.

Во-вторых, даже несмотря на это Google умудрились добиться более высокой скорости генерации и выпустили продукт раньше OpenAI, получив время на сбор обратной связи и доработку.

В-третьих, OpenAI сделали большой шаг вперёд, представив быстро и эффективно работающую авторегрессионную модель генерации на больших разрешениях. Если раньше все предпочитали использовать диффузии, то теперь тренд меняется в сторону более предсказуемых и гибких мультимодальных моделей, которые одинаково хорошо работают с любыми форматами данных.
👍1
С момента, как мы писали про телеграм-бот сервиса Grok, ничего не изменилось – он всё так же не работает с файлами и не генерирует картинки, не имеет доступа к поиску в Интернете, другим инструментами вроде Deep и Deeper Search. Ответы всё ещё странные, языки меняются по ходу общения, информация у нейросети устарела.

В боте нет стриминга сообщений, которые бы в реальном времени добавлялись к ответу нейросети и позволяли не ждать полчаса, пока он сгенерирует большой объём текста. Нет форматирования выдачи, которая выглядит как сплошной и плохо читаемый текст – словом, пользоваться им просто неудобно.

Хотя нет, кое-что всё-таки изменилось – сервера после анонса в соцсети Маска лежали и ждать ответа приходилось моментами мучительно долго, хотя на сайте сервиса всё работало отлично.

Если интеграция такая сырая, то зачем было о запуске объявлять официально и так рано? Тем более что Grok – одна из лучших нейросетей сегодня, а чат-бот по уровню ответов ничем не отличается от любительских ботов с доступом к запущенным локально моделькам Llama или DeepSeek.
Коллеги в шутку накинулись на чат-бот Grok за то, что он выдаёт неправильную дату и «живёт» в 2023 году. Хотя его собрат на сайте как раз отвечает без всяких проблем.

Тут есть нюанс – ни одна нейросеть не знает, какие сейчас год, день или время, они в принципе не понимают таких категорий. И это не зависит от количества параметров или даты выпуска. Это всё равно, что задавать вопрос «Какой сейчас день?» книге и потом выбирать случайное слово на случайной странице в надежде, что там окажется заветный правильный ответ.

Именно поэтому так важно снабжать нейросети дополнительной информацией, контекстом. Это можно делать через системный промпт (который скрыт от пользователя, но даёт много полезных инструкций и данных), доступ к поиску, API разных сервисов, внутренней документации. Такой подход называется RAG (Retrieval-Augmented Generation). И именно поэтому любой сервис с доступом к Интернету или дополнительной информации с серверов способен ответить на вопросы о дате, времени, погоде и так далее.

Тут кроется и опасность. Например, если Алиса без всяких проблем узнала дату, время и погоду, то Нейро взял время из поисковой выдачи и в итоге оно оказалось неверным. Он не стал задавать уточняющих вопросов о моей локации, что позволило бы избежать ошибки.

Есть цитата «На практике случайность — это в основном неполная информация». То же самое применимо к выдаче нейросетей и основанных на них сервисах. Поэтому не стоит ожидать от нейросетей чуда, лучше всегда уточнять, откуда именно они берут информацию и на что ссылаются в ответе.

P.S. Вопросы задавались 26 марта в промежуток с 15 до 16 часов по МСК
👍1
Как картинки в стиле Ghibli заставили индустрию ИИ задуматься об авторских правах

OpenAI уже втянута в несколько крупных судебных разбирательства, каждое из которых может кардинально изменить правила использования творческого контента. Иск от The New York Times – самый показательный: газета требует компенсацию за тысячи статей, использованных для обучения ChatGPT без согласования и оплаты.

Параллельно группа известных писателей – включая Джорджа Мартина – подала коллективный иск с требованием немедленно прекратить использование литературных произведений. В Индии крупнейшие СМИ также требуют компенсацию и удаление защищённых авторским правом данных, которые использовались для обучения моделей OpenAI.

Механизм нарушения прост: ИИ-модели обучаются на огромных массивах текстов, изображений, программных кодов. Сами OpenAI признают: полноценное обучение без защищенного контента невозможно. Компания прикрывается концепцией «добросовестного использования», но юристы скептично относятся к «добросовестности» компании, которая собирает любые крупицы данных по всему Интернету без согласия правообладателей и потом на них зарабатывает.

И вот на днях OpenAI запустила новый инструмент генерации изображений, который мгновенно завирусился благодаря тренду «фото в стиле Ghibli». За сутки пользователи создали десятки мемов: от портретов Илона Маска в стиле Миядзаки до фотографий президента Трампа в духе «Унесенных призраками». Такое уже случалось и раньше, например, с произведениями Уэса Андерсона, но не в подобном масштабе.

Да, стиль сам по себе не защищен авторским правом, но модель и не училась «копировать» стиль самостоятельно – она просто получила в дата-сете миллионы кадров из фильмов студии без явного разрешения. И ещё только предстоит разобраться, как быть с авторскими правами в данном случае. Мы в редакции используем сгенерированные картинки как раз потому, что в ближайшие 10-20 лет юридические споры вокруг GenAI вряд ли прекратятся, да и самим ИИ-компаниям придётся сильно постараться, чтобы доказать «добросовестность» использования чужого контента.
👍5
Microsoft, Nvidia и OpenAI спешат в Индию – что их так привлекает?

В гонке искусственного интеллекта появился неожиданный и амбициозный игрок — Индия. Страна, которую еще недавно рассматривали как технологического аутсайдера в гонке ИИ, сегодня формирует новый подход к развитию технологии.


Ключевой особенностью индийского пути является “bottom-up” (снизу-вверх) подход. Вместо того, чтобы копировать западные или китайские модели, Индия создает свою экосистему. Её называют «цифровой общественной инфраструктурой» (Digital Public Infrastructure). Биометрическая идентификация, моментальные платежи, открытый обмен данными — все это делает технологии максимально доступными для почти полутора миллиарда граждан. Напоминает процесс цифровизации в России.

Именно поэтому наравне с программой «Делай в Индии» по локализации производства правительство поддерживает и создание «суверенного ИИ», чтобы минимизировать зависимость от технологий других стран. Правительство инвестирует 1,25 миллиарда долларов в проект IndiaAI Mission. Tata Consultancy Services вкладывает более 1,5 миллиарда в генеративный ИИ. Microsoft готовится инвестировать 3 миллиарда в Индию в течение ближайших двух лет. А пока свой ИИ в разработке, правительство поддержало идею развернуть модели DeepSeek на местных серверах и пользоваться локально.

В Индии ИИ рассматривают как инструмент социальной трансформации. Одна из очевидных задач – сплотить Индию, где говорят на множестве разных языков, и предоставить всем одинаковый доступ к цифровым государственным услугам. Технологии также активно внедряются в сельское хозяйство, здравоохранение, образование.

Кто стал ключевым игроком в этом процессе? Microsoft, который в партнёрстве с местными компаниями будет разрабатывать ИИ-решения для Индии: государственная компания RailTel будет вместе с ними продвигать облачные технологии и ИИ на железных дорогах, Apollo Hospitals – в сети больниц, upGrad – в интеграции помощников на рабочем месте, и так далее. Те же Microsoft собираются к концу 2025 года обучить по меньшей мере 2 млн человек в Индии тонкостям работы с искусственным интеллектом.

Правительство пускает зарубежные компании на свой рынок, но с дополнительными условиями, которые их «приземляют» и дают возможность развиваться местным игрокам. Такая политика даёт свои плоды: стартап Krutrim стал первым индийским AI-единорогом, получив 50 миллионов долларов инвестиций. Они разрабатывают большие языковые модели для индийских языков и планируют построить крупнейший в Индии суперкомпьютер в партнерстве с Nvidia. К Krutrim присоединяются другие компании вроде Sarvam AI, Ola, Yotta Data Services. Ati Motors, например, разрабатывает автономных мобильных роботов для промышленности и привлек 20 миллионов долларов инвестиций. Компания тоже использует платформу Nvidia, Jetson, и планирует в дальнейшем интегрировать в своих роботов искусственный интеллект.

OpenAI ведет переговоры с подразделением JioBrain компании Reliance Industries о расширении присутствия в стране. Компания хочет, чтобы JioBrain продавала и распространяла их продукты. Индийский рынок важен для OpenAI, так как он второй по размеру, а количество пользователей утроилось за последний год. Да и в целом использование генеративного ИИ в стране выше среднемировых показателей – 92% против 75%.

Конечно, пока развивать ИИ Индии придётся с опорой на открытые и зарубежные технологии. До появления «суверенного» индийского искусственного интеллекта стране предстоит преодолеть серьезные барьеры: нехватку квалифицированных кадров, развитие инфраструктуры и риски предвзятости данных. Но тенденция развития уже видна.
👍3
OpenAI внедряет генерацию изображений на основе GPT-4o в свой популярный чат-бот ChatGPT. Функция получила название «Изображения в ChatGPT» и доступна на всех уровнях подписки: Plus, Pro, Team и Free. Бесплатный уровень предлагает лимит использования.

Благодаря улучшенной привязке атрибутов к объектам, генерация изображений стала более точной и надежной. Визуализация текста также была усовершенствована, что значительно облегчает процесс создания связного текста без опечаток. В основе технологии, как уточняется, лежит метод авторегрессии, а не диффузионная модель. Это может способствовать улучшению визуализации текста и возможностей привязки.

Система оснащена надежными средствами защиты от несанкционированного использования. Она предотвращает удаление водяных знаков, блокирует создание сексуальных подделок и отклоняет запросы на создание CSAM. Все изображения включают стандартные метаданные C2PA, что позволяет легко идентифицировать их как созданные OpenAI. В остальном пользователь может свободно использовать изображения в рамках политики использования.
2