Аишка
975 subscribers
715 photos
67 videos
2 files
461 links
Side-канал @contentreview с новостями из области искусственного интеллекта (AI)

Наши каналы:
Основной (телеком и IT) – @contentreview
Песочница (БигТех) – @BigTechSandbox
Электричка – @econtentreview
Download Telegram
Аишка
Состоялся официальный релиз Sora. Модель будет доступна на сайте sora.com Sora — это модель OpenAI для генерации видео на основе текстового запроса. Она была представлена 15 февраля 2024 года и позволяет генерировать реалистичные видео продолжительностью…
Теперь к нюансам:
• Стандартная длина видео от 5 до 20 секунд (для подписчиков Plus максимум 5)
• Разрешение от 480p до 1080p (Plus подписчики ограничены 720p)
На более длинные видео и увеличенные разрешения уходит больше кредитов.

Дополнительные инструменты:
• Storyboard для режиссуры видео (можно попросить Sora сделать видео оленя, который именно на пятой секунде подпрыгивает)
• Инструменты для смешения видео, продления существующих и так далее
• К видео можно применять стили и создавать свои
Media is too big
VIEW IN TELEGRAM
Не Sora единой

На рынке уже есть огромное количество решений для генерации видео — Luma, Runway, китайский Kling, русский Кандинский (хотя он всё ещё даёт более стилизованные и не слишком реалистичные результаты), запущенный в начале декабря Veo от Google. А ещё 4 декабря вышла новая китайская нейросеть Hunyuan Video от компании Tencent, о которой хочется рассказать отдельно.

Сравнивать напрямую их с Sora смысла нет — у модели Hunyuan только 13 миллиардов параметров (количество параметров модели Sora мы не знаем, но предполагаем, что сильно больше), а максимальная длина итогового видео 5 секунд.

Что же в ней тогда особенного? Важно, что компания выпустила свои модели в открытый доступ и опубликовала исходный код, чем не могут похвастаться решения от OpenAI или Google. Сегодня это — крупнейшая модель для генерации видео с открытым исходным кодом, доступная бесплатно для всех желающих.

И при всём при этом она по качеству результата сопоставима с перечисленными в начале проприетарными флагманами вроде Runway Gen-3 или Luma 1.6, создавая корректную анатомию и адекватные с точки зрения физики видео.

Пользователь может выбирать разрешение итогового результата, поэтому в теории её можно запустить даже на не самых мощных устройствах. Хотя, конечно, чтобы раскрыть возможности модели на максимум, потребуется мощный компьютер.

Публикация такой большой опенсорс модели — это огромная возможность для исследователей и пользователей по всему миру, которые смогут построить свои решения и сервисы на базе этой модели, не оглядываясь на ограничения и правила работы с API компаний вроде OpenAI. Ну и в целом этот релиз — наглядная демонстрация возможностей небольших открытых моделей, что в последнее время становится трендом у крупных компаний, которые хотят переносить функции на устройства пользователя и запускать нейросети локально.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть от Nvidia понимает и генерирует звук как люди?

В мире есть несколько популярных сервисов для генерации звуков и музыки. В основном все пользуются Suno или Udio как самыми доступными — не нужно ничего устанавливать и можно пользоваться через сайт.

Но у них есть ряд ограничений — они не умеют работать с входным аудиофайлом, могут лишь продлить его на основе звуковой дорожки, а также не дают полного контроля над вокалом и прочими параметрами трека на выходе.

Эту проблему призвана исправить новая нейросеть от Nvidia — Fugatto. Её не стоит рассматривать как альтернативу генеративным сетям вроде Suno или Udio, это принципиально иной и более совершенный подход к работе со звуком.

Fugatto не просто генерирует звук на основе текстового описания — она «понимает» запрос пользователя и умеет выполнять инструкции по отношению к аудио.

Проще всего принцип работы с моделью понять на примере запросов, которые показали нам сами Nvidia (все примеры есть в видео, прикреплённом к посту):
«Создай звук, в котором проезжающий поезд превращается в пышный струнный оркестр»
«Изолируй голос от фоновых звуков» + нужный аудио-трек
«Спокойным голосом, с американским акцентом произнеси: «Дети разговаривают у двери»
«Преврати спокойный голос в злой» + нужный аудио-трек
«Добавь барабаны к синтезатору» + нужный аудио-трек

Нейросеть умеет понимать естественный язык, генерировать новые звуки, не существующие в природе, генерировать голос людей, менять данные на вход треки, добавляя в них новые инструменты или вокал, менять тембр, эмоции голоса и так далее. Эдакий швейцарский нож в мире работы со звуком.

Так чего вы ждёте, дайте попробовать… Сказали мы, но есть нюанс. Пока не понятно, когда модель сделают доступной для пользователей и сделают ли вообще. В то время как Suno, Udio, Stable Audio, Riffusion и другие существуют, работают и развиваются уже сегодня.
🔥1
Forwarded from Roem.ru
Яндекс делает свой десктопный офисный редактор со своей GPT. Web-версию можно попробовать уже сейчас

Компания "Яндекс" сообщила о выпуске на публику новой версии сервиса "Документы".

Апгрейд не только закрывает часть традиционных претензий вида "Яндекс.Документы не такие же как Google Docs", но и должен, в теории помогать с их составлением при помощи Яндекс.GPT (в редакции Roem.ru эта фича не заработала, хотя интерфейсное сообщение, в целом, дало правильный ответ на заданный вопрос)

Из того что обещано компанией в будущем интересны комментирование частей документа (одна из часто используемых в совместной работе фич Google Docs), а также выпуск десктопной версии офиса и web-версии в Enterprise варианте, для разворачивания на собственной инфраструктуре организаций.
Media is too big
VIEW IN TELEGRAM
Чтобы сделать подкаст, теперь нужен только текст — остальное сгенерирует нейросеть

Компания ElevenLabs выпустила новый инструмент под названием GenFM, который позволяет создавать подкасты на основе загруженного текста. Можно использовать в том числе PDF-документы или статьи.

Доступен сервис пока только в приложении ElevenReader на IOS, но в ближайшие недели появится и на Android.

Альтернатива есть у Google и называется NotebookLM — в числе прочих функций там есть возможность генерации подкаста на заданную тему или по тексту с участием нескольких спикеров. Тем не менее, у Google есть значимый недостаток — сервис работает только на английском языке, а в GenFM доступно целых 32 языка, включая русский.

ElevenLabs также старается добиться более естественного звучания и разнообразия голосов, поэтому их здесь более 10, а в саму озвучку добавляются придыхания и прочие человеческие звуки.
👍3
Ещё полгода назад не было особого смысла писать о возможностях нейросетей в генерации 3Д-моделей — результаты вряд ли могли использоваться в продакшене без доработки, которая иногда по времени занимала столько же, сколько создание модели с нуля.

Особенно показательным был кейс компании Kaedium. В 2023 году она ворвалась в интернет с новостями о «революционном методе генерации моделей с правильной топологией» — результат был очень похож на работу специалиста, хотя заявлялось, что модели генерирует нейросеть (чью работу, правда, «модерирует отдел контроля качества»). Как оказалось, «контроль качества» в виде толпы индусов и делал эти модели, которые затем продавались пользователям под видом сгенерированных ИИ.

Наработки крупных компаний вроде OpenAI с их Point-E и Google с DreamFusion были опубликованы давно — ещё в 2022 году — и, хотя были инновационными для своего времени, с тех пор устарели и не превратились в полноценный рабочий сервис.

Однако всего за какие-то последние полгода ситуация сильно поменялась. Появляются простые и дешёвые решения, которые способны из картинки или текстового запроса сгенерировать модель с вменяемой топологией.

Первыми коммерческую нишу заняли стартапы вроде Meshy или Masterpiece X, которые зарабатывают на подписке, «продавая» виртуальные кредиты на генерацию. В игру вступили и более крупные игроки вроде Stability и Luma, выпустив свои сервисы — Tripo и Genie соответственно. Недавно Nvidia на European Conference on Computer Vision показывала свой экспериментальный сервис LATTE3D.

И вот теперь начинается новый этап развития генерации 3Д-моделей. Буквально несколько дней назад Microsoft запустила бесплатную нейросеть Trellis, которая доступна всем желающим (в том числе и для локального запуска) и может не только создавать объекты, но и модифицировать их по текстовому запросу. Более того, вам не нужна для этого рендер-ферма — достаточно видеокарты Nvidia с 16 гигабайтами видеопамяти, что вполне доступно даже для фрилансеров, не говоря уже про малый или средний бизнес.

Результаты пока не идеальны, но становится видно, что генерация 3Д представляет уже не просто исследовательский интерес, но становится трендом. И, вероятнее всего, скоро стоит ждать модели от других крупных игроков.

А вот Россия, к сожалению, сильно отстаёт — до сих пор нет ни одного готового решения в этой области. Да, есть более нишевое ПО — вроде нейросети для построения 3Д-моделей месторождений полезных ископаемых на основе сейсмических данных — но это совсем другая история.

И пускай запрос на генерацию 3Д-моделей куда ниже, чем на генерацию текста, картинок или даже видео — но и аудитория у таких сервисов совсем другая. Это студии и фрилансеры, которые готовы использовать нейросети как инструмент для работы, и потому заплатят за удобный, надёжный и экономящий время сервис куда больше, чем обычные пользователи готовы платить за подписку OpenAI. Особенно полезны такие сервисы будут для развития российского геймдева (о котором так много разговоров в последнее время), ведь на рынке сейчас мало специалистов и стоят они дорого.
👍1
Посмотрели YaC — позволим себе немного подушнить.

Несмотря на довольно длинный хронометраж серий — в сумме больше 4 часов — тему ИИ затронули только мельком: рассказали про Алису, использование нейросетей при планировании траектории автономного транспорта, Нейро и решение школьных задач. При этом не упомянули важный, на наш взгляд, момент — вклад Яндекса в развитие коммьюнити открытого исходного кода (open source).

Например, в этом году у Яндекса был релиз YaFSDP — библиотеки, которая оптимизирует работу видеокарты с памятью и на 20% ускоряет обучение больших языковых моделей. А это, как вы сами понимаете, напрямую конвертируется в сэкономленные компаниями и исследователями деньги. Эту разработку выложили в открытый доступ.

У Яндекса был и другой опыт с публикацией кода — в 2022 году появился Petals, который позволял запускать нейросети в битторрент стиле, то есть через p2p подключение, что позволяло распределить нагрузку между сетью компьютеров пользователей (или исследователей) по всему миру. Можно вспомнить YTsaurus, DataLens, YDB и другие сервисы, исходный код которых Яндекс также выложил на Гитхаб и которые используются разработчиками по всему миру. Но об этой стороне деятельности компании ничего зрителям не сказали.

Недавно сотрудник компании Владимир Малиновский использовал технологии Яндекса — AQLM и PV-tuning — для сжатия моделей в 6 раз, и смог запустить LLM прямо в браузере, на устройстве пользователя. До этого нужно было ставить ПО типа Ollama и работать с моделями в терминале или сторонних приложениях.

Раз об этом не сказали в YaC, решили поделиться тут. Кажется, что при таком большом хронометраже можно было найти ещё время и способ понятно объяснить аудитории Яндекса, почему такие разработки — это важно, нужно и круто.
👏2🕊2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI радуют — не только допилили и улучшили SearchGPT (их аналог Нейро), который теперь работает быстрее и точнее, но и сделали его доступным и бесплатным для всех.

Видимо, понимают, что иначе конкуренцию с Perplexity, Google AI search, Bing, Deepseek и прочими аналогами не вывезти. А ведь они были бесплатными с самого начала. Тот же Perplexity вообще стал первопроходцем, которым многие по привычке пользуются до сих пор — OpenAI будет непросто переманить аудиторию к себе.

Для этого они сделали важный шаг: SearchGPT теперь можно сделать поиском в браузере по умолчанию 🤯 Давно ждём такого решения с Нейро в Яндекс браузере, хотя и понятно, что Яндексу это не выгодно — ведь так меньше людей увидит рекламу на странице поисковой выдачи, и гораздо логичнее было интегрировать ответы Нейро в неё, как компания и сделала.

Мы в редакции активно используем Нейро с Perplexity, периодически тестируя и другие инструменты, так что теперь будет очень интересно попользоваться улучшенным поиском от OpenAI и сравнить с конкурентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Провели сегодня на студии полезный тест — какая нейросеть лучше обрабатывает записи с микрофона? Особенно пригодится это для тех, кто снимает видео и записывает подкасты или интервью.

Тестировали несколько сервисов:
- Auphonic
- Adobe Enhance Speech
- Davinci Resolve Voice Isolation
- CrumplePop (бывший SoundApp)

Большой плюс Davinci и CrumplePop в том, что они работают локально и без Интернета — не надо ждать подключения и отправлять файлы куда-то на сервера. При этом сами по себе эти сервисы сильно проще конкурентов: они отлично чистят аудио от шума, но не нормализуют его автоматически и не воссоздают потерянные частоты.

У CrumplePop, в сравнении с другими сервисами, есть довольно много настроек. Наверное, если потратить время и вникнуть, можно добиться хорошего результата — но с тем же успехом можно использовать Audition и обработать звук там.

Adobe Enhance Speech справляется неплохо, но звук в итоге получается «плоским» — лишённым деталей, прерывистым, будто кто-то проглотил все низкие и высокие частоты. Ещё в процессе звуковой файл конвертируется в моно-формат — не понятно, зачем это нужно, но сильно усложняет процесс работы (особенно если звук от разных спикеров записывается изначально в 2 канала). При этом если звук у вас сильно плохой, то неожиданно Enhance Speech устроит вам или вашим спикерам английский акцент — сразу видно, что нейросеть тренировали на ограниченном датасете.

Победителем нашего теста стал Auphonic. Он не только удаляет фоновый шум, но балансирует и нормализует аудио, повышает чёткость голоса и восстанавливает его после удаления шума. Сам процесс обработки звука простой — нужно загрузить файл и нажать на кнопку. При желании можно поменять настройки под себя, в отличии от Adobe Enhance Speech они здесь есть. Ещё на сайте можно удалить фоновую музыку, убрать дыхание и моменты тишины.

Единственный минус — сервис платный, и оплатить с российских карт не получится. Но каждому аккаунту доступна обработка 2 часов аудио в месяц, а аккаунты можно при желании создавать до бесконечности — нужна только почта. Ну и если всё-таки решитесь оплатить, то есть несколько вариантов: либо подписка, либо покупка кредитов. Примерно выходит 1-2 доллара за час аудио.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Meta* выпустили в открытый доступ новый инструмент для маркировки видео, сгенерированных нейросетью — Video Seal. Он стал логичным продолжением линейки — Watermark Anything для картинок, Audio Seal для аудио, и теперь вот добрались до видео.

Уникальность технологий маркировки от Meta* в том, что водяные знаки устойчивы к изменениям файлов — их можно сжимать, обрезать, перезаливать в социальные сети. Знак при этом сохранится. Дополнительно можно добавить какое-нибудь слово из 6 букв на свой вкус — оно тоже станет частью видео.

Вообще сама маркировка — не что-то новое, каждый сталкивался с ней в соцсетях или рекламе (привет Яндексу, который помечает в Директе картинки, созданные Шедеврумом).

Но зачем она нужна? На этот счёт есть понятные опасения — что ИИ могут использовать для дезинформации, распространения фейков, влияния на процессы внутри государства и так далее. Именно поэтому мы видим мировой тренд — правительственные институты (в случае Америки крупные частные компании) в самых разных странах одновременно засуетились, пытаясь взять распространение сгенерированного контента под контроль. Важно это и с точки зрения авторского права — чтобы затруднить пиратское распространение чужого контента.

В 2021 году появилась американская Коалиция за аутентичность и контролируемое происхождение контента (C2PA), которая пытается продвигать и унифицировать правила размещения метаданных в цифровом контенте. Сегодня крупнейшие компании (Microsoft, Adobe, Google, OpenAI, Stability AI при поддержке Arm, BBC, Intel, Sony и так далее) работают в ней над стандартами маркировки контента, созданного ИИ.

В 2019 Китай принял правила маркировки «фейковых новостей» и дипфейков, а к 2023 году вообще ввёл обязательную маркировку для всех ИИ-сервисов, действующих на территории Китая.

Не удивительно, что на фоне этих новостей YouTube внедрил систему с добавлением метки Altered or Synthetic content к созданным ИИ видео, а соцсети Meta* начали маркировать такой контент и просят пользователей указывать его происхождение при загрузке.

Россия тоже не осталась в стороне — с мая 2024 года Государственная Дума разрабатывает законопроект о маркировке контента, который создан с помощью нейросетей. Ну и пример Яндекса показывает, насколько важно потребителю понимать, видя рекламу, что это не реальная фотография предмета, а созданное нейросетью изображение.

В развитии маркировки сейчас активно участвуют все страны, у которых есть собственные разработки в сфере ИИ — США, Китай и Россия. К чему это приведёт и повлияет ли как-то на опыт пользователей — остаётся только гадать. Но учитывая гигантский объём трафика, возможность локальной генерации на собственном компьютере и растущее качество работы нейросетей — отследить весь сделанный ИИ-контент будет просто невозможно, как ни старайся. Зато дополнительные ресурсы на процесс маркировки и идентификации контента потребуются.

*организация признана в РФ экстремистской
Microsoft продала телеком ради ИИ?

В этом месяце Microsoft продали купленную 4 года назад компанию Metaswitch. Покупателем выступили Alianza — они специализируются на разработке облачных платформ для операторов связи.

Сделка включает не только покупку технологий Metaswitch — но и передачу более 800 клиентов, включая 19 из 20 крупнейших операторов в мире. И если Alianza занимается облачными технологиями, то Metaswitch делают ПО для телекоммуникаций и технологии 5G, и в итоге 2 компании могут объединить инфраструктуру и компетенции.

Изначально Microsoft покупали Metaswitch для интеграции в собственную платформу Azure и улучшения технологий 5G, но сейчас решили сконцентрироваться на своих основных бизнес-направлениях — облачных технологиях и ИИ.

Сделка между Alianza и Microsoft подчёркивает новый тренд в телекоммуникациях: переход к облачным и AI-ориентированным сервисам. Операторы связи внедряют облачные решения, чтобы модернизировать инфраструктуру, оптимизировать затраты и оставаться конкурентоспособными.

Этот тренд мы видим и на российском рынке: МТС ещё в 2017 году создал MTS AI, дочку, которая занимается созданием on-premise сервисов для партнёров на базе ИИ. МТС использует их и в собственных продуктах. Ростелеком также развивает экосистему продуктов для IT «Лукоморье», куда интегрирует искусственный интеллект.

Однако важно понимать, что Microsoft не отказывается от телекома — она просто отдаёт его «на аутсорс». Вице-президент Microsoft Юсеф Халиди сказал: «Телекоммуникационная отрасль остается приоритетом для Microsoft… По мере развития нашей облачной платформы и возможностей искусственного интеллекта такие партнеры, как Alianza, играют решающую роль в оказании поддержки нашим общим клиентам». Сумма и условия сделки, к сожалению, не оглашаются, но такая сделка сильно укрепляет позиции Alianza — партнёра Microsoft — на рынке, позволяя в перспективе обеим компаниям заработать больше денег.
👍1
Пока писали пост про генерацию подкастов, столкнулись со странной особенностью текстов про NotebookLM от Гугла — люди часто воспринимают его либо просто как сервис для генерации подкастов, либо как «умные заметки» для студентов типа Notion. Сегодня хотим написать, почему считаем его чем-то большим — фактически, полноценной кастомизируемой RAG системой для пользователей и одним из самых полезных сервисов для работы с информацией.

Сначала пару слов про то, что такое RAG (Retrieval Augmented Generation). Это специальный метод работы с большими языковыми моделями, где пользователи не просто задают вопрос (надеясь, что нужная информация попадалась модели во время тренировки) — а снабжают модель всем необходимым контекстом. По такому принципу работает, например, Нейро от Яндекса — сначала модель получает запрос, потом идёт с ним в поиск, собирает актуальную информацию с веб-страниц и уже на основе этой информации, со ссылками и контекстом даёт ответ пользователю.

У такого подхода очень много плюсов, потому что он позволяет избежать донастройки модели, легко обновлять базу данных новыми сведениями и в целом дешевле и проще в использовании. Но из описания понятно, что самый главный его плюс — возможность свести к минимуму «галлюцинации» модели (это когда она не знает ответ и начинает его самозабвенно на ходу придумывать).

Так вот NotebookLM — это сервис, который позволяет вам загрузить до 50 самых разных источников (сайты, документы, аудио, видео), сформировав тот самый контекст для работы нейросети. Каждый источник может содержать до 500000 слов (то есть примерно 1000 стандартных книжных страниц). Сервис будет «понимать» содержание всех источников, вплоть до ссылок на конкретные строчки конкретных документов, что позволит легко проверить результаты работы нейросети. При этом в основе сервиса одна из лучших мультимодальных моделей Гугла — Gemini 2.0 — которая легко понимает ваши запросы. Понятно, что Гугл предупреждают: «Ответы NotebookLM могут быть неточны. Обязательно проверяйте их» — но пока это всё равно самый надёжный способ работы с ИИ.

В итоге полностью меняется подход работы с данными — больше не нужно самостоятельно изучать, например, API какого-нибудь сервиса, 7 томов исследований или 10 часов лекций. Достаточно загрузить их сюда, задать вопросы о деталях документов, сказать найти неточности или странные аномалии в данных, попросить предложить темы и структуру эссе или статей, которые могут на этих источниках основываться — и тем самым посмотреть на объект изучения с разных сторон. В данном случае функционал платформы не ограничен просто кратким пересказом, чем сегодня практически невозможно удивить пользователя.

При этом каждый ответ нейросети сопровождается ссылкой на конкретную цитату из источника — то есть можно пройти и проверить, не придумала ли вдруг она что-то лишнее.

Ну и самое удивительное, что сервис отлично работает на русском языке (кроме генерации подкастов) и пока что полностью бесплатный. Полноценных аналогов у него нет, ну или мы не нашли, хотя есть многообещающие конкуренты вроде NotebookLlama или более простые альтернативы, такие как ChatPDF, боты ChatGPT и Perplexity, которые тоже позволяют загрузить файл и задать вопросы по его содержанию.
👍2💋1
Аишка
Perplexity, аналог Яндекс Нейро, также успешно провел три раунда финансирования за последний год и планирует еще один, что может увеличить его стоимость до 9 миллиардов долларов
На фоне громкого обсуждения релиза OpenAI своего нового поколения думающей модели o3 потерялась ещё одна важная новость — Perplexity на днях купили стартап Carbon и пообещали прийти в Google Docs, Notion и Slack

Carbon, стартап из Сиэтла, специализируется на RAG-системах — подключает внешние данные к большим языковым моделям. Учитывая, что это основная деятельность Perplexity, поглощение кажется очень логичным.

Теперь компания обещает, что уже в начале 2025 года сделает поиск по файлам и рабочим сообщениям пользователей в Notion, Google Docs, Slack и других корпоративных приложениях — то есть уже не просто будет предоставлять услуги поиска по Интернету, а зайдёт на территорию корпоративного поиска к конкурентам вроде Glean или Google Cloud Search.

Всего год назад Perplexity купили Spellwise от бывшего главы разработки экспериментальных проектов Яндекса — клавиатуру для IOS, которая помогала с помощью ИИ писать или редактировать тексты (сейчас так умеет Яндекс Клавиатура, например). Компания предпочитает делать точечные покупки, которые потом бесшовно интегрируются в их флагманский продукт — поиск.

За день до этого Блумберг поделился новостью от своих источников, что Perplexity всё-таки привлекли новый раунд инвестиций в 500 миллионов долларов и теперь их оценка выросла до 9 миллиардов, увеличившись в 3 раза всего лишь с июня.

Учитывая планы расширить сегмент рынка и уйти в корпоративный поиск, проблем с привлечением инвестиций, скорее всего, не будет и дальше: в числе инвесторов Perplexity — New Enterprise Associates, инвесткомпания Bezos Expeditions, Nvidia, бывший гендиректор YouTube Сьюзен Воджицки и так далее.
Компании перестарались с внедрением функции суммаризации текста везде, где только можно

Сегодня появилась возможность не читать полностью практически ничего. Уведомления, письма, сайты, видео, целые книги — всё укладывается в несколько абзацев текста. Скоро, вероятно, и в Интернет мы будем ходить «суммированный»: одни нейросети будут генерировать контент по запросу вместо людей, другие — отображать этот сгенерированный контент в пересказанном виде, как в испорченном телефоне. Хорошая ли это тенденция?

Огромная проблема любых нейросетей — галлюцинации, от которых практически невозможно избавиться. Если речь идёт просто о сжатом пересказе статьи с чьим-то мнением, то с этим ещё можно смириться. Но как быть с более серьёзными кейсами?

Например, с поиском. Когда Google добавили в свой поиск AI ассистента, он сразу стал рекомендовать пользователям есть камни хотя бы раз в день. Понятно, что вопрос был глупый — «сколько камней в день мне нужно есть». Но ведь это просто гиперболизированная иллюстрация того, как галлюцинирует нейросеть.

Нейро в этом плане работает тоже не идеально — можете сами попробовать спросить поиск Яндекса, сколько ног у лошади. Причём разработчики сервиса постоянно напоминают, что ИИ может ошибаться в подобных вопросах. Но ведь ошибка может быть и в каком-то важном ответе — мы в редакции неоднократно ловили что Нейро, что Perplexity в галлюцинациях, противоречиях предыдущим сообщениям и в целом странной работе с источниками (когда для ответа берётся случайная фраза из статьи на условном Дзене, которая вообще не об этом).

Недавний громкий кейс — проблемы Apple Intelligence в уведомлениях IOS 18.2. Иногда он просто выдаёт глупости, но в худшем случае — искажает содержание уведомления. На днях пользователям показали ложные новости с BBC про самоубийство Луиджи Манджионе и с NY Times про арест Нетаньяху. Хотя нейросеть просто «работала» — она прочитала текст уведомлений и суммировала их на свой лад. Представьте, как легко будет получить некорректную информацию из таких уведомлений, если привыкнуть не читать оригиналы?

Недавно Яндекс Почту добавили Нейрофильтр, который призван отобрать самые «важные» письма и показать их вам в сокращённом виде. При этом вариантов настроить критерии «важности» нет, а суммированный текст часто сокращается буквально до нескольких слов, при прочтении которых легко как раз таки упустить что-то важное. Понятно, что можно всегда зайти в тело письма проверить — но зачем тогда вообще сокращать, если всё равно каждый раз приходится заходить и перепроверять?

Создаётся ощущение, что компании по всему миру усиленно пытаются сделать нейросети привычной частью взаимодействия пользователя с их сервисами. Но как только пользователь привыкнет к сокращённым текстам, пересказам, сгенерированным ответам — есть риск, что он перестанет ожидать от них подвоха и проверять правильность информации.

Очень подходит сюда цитата нашего главреда — «Люди тоже галлюцинируют, но в этом случае у каждой галлюцинации есть имя и фамилия». В случае с нейросетями никаких отественных нет, хотя бы потому, что мы сами не до конца понимаем, откуда именно берётся ответ и каким он будет в следующий раз. А у нейросетей нет страха наказания за враньё и фейки, которые в определённых обстоятельствах могут сломать жизнь живому человеку.

Одно из решений проблемы — ограничение «креативности» моделей и предоставление контекста, с которым она будет работать (те самые RAG системы). Но даже такой вариант не идеален.

Как будто бы пора перестать добавлять суммаризацию всего и всюду для «экономии» времени пользователей, нет такого ощущения?
👍2🤔1