Аишка
977 subscribers
715 photos
67 videos
2 files
461 links
Side-канал @contentreview с новостями из области искусственного интеллекта (AI)

Наши каналы:
Основной (телеком и IT) – @contentreview
Песочница (БигТех) – @BigTechSandbox
Электричка – @econtentreview
Download Telegram
Forwarded from Roem.ru
Яндекс делает свой десктопный офисный редактор со своей GPT. Web-версию можно попробовать уже сейчас

Компания "Яндекс" сообщила о выпуске на публику новой версии сервиса "Документы".

Апгрейд не только закрывает часть традиционных претензий вида "Яндекс.Документы не такие же как Google Docs", но и должен, в теории помогать с их составлением при помощи Яндекс.GPT (в редакции Roem.ru эта фича не заработала, хотя интерфейсное сообщение, в целом, дало правильный ответ на заданный вопрос)

Из того что обещано компанией в будущем интересны комментирование частей документа (одна из часто используемых в совместной работе фич Google Docs), а также выпуск десктопной версии офиса и web-версии в Enterprise варианте, для разворачивания на собственной инфраструктуре организаций.
Media is too big
VIEW IN TELEGRAM
Чтобы сделать подкаст, теперь нужен только текст — остальное сгенерирует нейросеть

Компания ElevenLabs выпустила новый инструмент под названием GenFM, который позволяет создавать подкасты на основе загруженного текста. Можно использовать в том числе PDF-документы или статьи.

Доступен сервис пока только в приложении ElevenReader на IOS, но в ближайшие недели появится и на Android.

Альтернатива есть у Google и называется NotebookLM — в числе прочих функций там есть возможность генерации подкаста на заданную тему или по тексту с участием нескольких спикеров. Тем не менее, у Google есть значимый недостаток — сервис работает только на английском языке, а в GenFM доступно целых 32 языка, включая русский.

ElevenLabs также старается добиться более естественного звучания и разнообразия голосов, поэтому их здесь более 10, а в саму озвучку добавляются придыхания и прочие человеческие звуки.
👍3
Ещё полгода назад не было особого смысла писать о возможностях нейросетей в генерации 3Д-моделей — результаты вряд ли могли использоваться в продакшене без доработки, которая иногда по времени занимала столько же, сколько создание модели с нуля.

Особенно показательным был кейс компании Kaedium. В 2023 году она ворвалась в интернет с новостями о «революционном методе генерации моделей с правильной топологией» — результат был очень похож на работу специалиста, хотя заявлялось, что модели генерирует нейросеть (чью работу, правда, «модерирует отдел контроля качества»). Как оказалось, «контроль качества» в виде толпы индусов и делал эти модели, которые затем продавались пользователям под видом сгенерированных ИИ.

Наработки крупных компаний вроде OpenAI с их Point-E и Google с DreamFusion были опубликованы давно — ещё в 2022 году — и, хотя были инновационными для своего времени, с тех пор устарели и не превратились в полноценный рабочий сервис.

Однако всего за какие-то последние полгода ситуация сильно поменялась. Появляются простые и дешёвые решения, которые способны из картинки или текстового запроса сгенерировать модель с вменяемой топологией.

Первыми коммерческую нишу заняли стартапы вроде Meshy или Masterpiece X, которые зарабатывают на подписке, «продавая» виртуальные кредиты на генерацию. В игру вступили и более крупные игроки вроде Stability и Luma, выпустив свои сервисы — Tripo и Genie соответственно. Недавно Nvidia на European Conference on Computer Vision показывала свой экспериментальный сервис LATTE3D.

И вот теперь начинается новый этап развития генерации 3Д-моделей. Буквально несколько дней назад Microsoft запустила бесплатную нейросеть Trellis, которая доступна всем желающим (в том числе и для локального запуска) и может не только создавать объекты, но и модифицировать их по текстовому запросу. Более того, вам не нужна для этого рендер-ферма — достаточно видеокарты Nvidia с 16 гигабайтами видеопамяти, что вполне доступно даже для фрилансеров, не говоря уже про малый или средний бизнес.

Результаты пока не идеальны, но становится видно, что генерация 3Д представляет уже не просто исследовательский интерес, но становится трендом. И, вероятнее всего, скоро стоит ждать модели от других крупных игроков.

А вот Россия, к сожалению, сильно отстаёт — до сих пор нет ни одного готового решения в этой области. Да, есть более нишевое ПО — вроде нейросети для построения 3Д-моделей месторождений полезных ископаемых на основе сейсмических данных — но это совсем другая история.

И пускай запрос на генерацию 3Д-моделей куда ниже, чем на генерацию текста, картинок или даже видео — но и аудитория у таких сервисов совсем другая. Это студии и фрилансеры, которые готовы использовать нейросети как инструмент для работы, и потому заплатят за удобный, надёжный и экономящий время сервис куда больше, чем обычные пользователи готовы платить за подписку OpenAI. Особенно полезны такие сервисы будут для развития российского геймдева (о котором так много разговоров в последнее время), ведь на рынке сейчас мало специалистов и стоят они дорого.
👍1
Посмотрели YaC — позволим себе немного подушнить.

Несмотря на довольно длинный хронометраж серий — в сумме больше 4 часов — тему ИИ затронули только мельком: рассказали про Алису, использование нейросетей при планировании траектории автономного транспорта, Нейро и решение школьных задач. При этом не упомянули важный, на наш взгляд, момент — вклад Яндекса в развитие коммьюнити открытого исходного кода (open source).

Например, в этом году у Яндекса был релиз YaFSDP — библиотеки, которая оптимизирует работу видеокарты с памятью и на 20% ускоряет обучение больших языковых моделей. А это, как вы сами понимаете, напрямую конвертируется в сэкономленные компаниями и исследователями деньги. Эту разработку выложили в открытый доступ.

У Яндекса был и другой опыт с публикацией кода — в 2022 году появился Petals, который позволял запускать нейросети в битторрент стиле, то есть через p2p подключение, что позволяло распределить нагрузку между сетью компьютеров пользователей (или исследователей) по всему миру. Можно вспомнить YTsaurus, DataLens, YDB и другие сервисы, исходный код которых Яндекс также выложил на Гитхаб и которые используются разработчиками по всему миру. Но об этой стороне деятельности компании ничего зрителям не сказали.

Недавно сотрудник компании Владимир Малиновский использовал технологии Яндекса — AQLM и PV-tuning — для сжатия моделей в 6 раз, и смог запустить LLM прямо в браузере, на устройстве пользователя. До этого нужно было ставить ПО типа Ollama и работать с моделями в терминале или сторонних приложениях.

Раз об этом не сказали в YaC, решили поделиться тут. Кажется, что при таком большом хронометраже можно было найти ещё время и способ понятно объяснить аудитории Яндекса, почему такие разработки — это важно, нужно и круто.
👏2🕊2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI радуют — не только допилили и улучшили SearchGPT (их аналог Нейро), который теперь работает быстрее и точнее, но и сделали его доступным и бесплатным для всех.

Видимо, понимают, что иначе конкуренцию с Perplexity, Google AI search, Bing, Deepseek и прочими аналогами не вывезти. А ведь они были бесплатными с самого начала. Тот же Perplexity вообще стал первопроходцем, которым многие по привычке пользуются до сих пор — OpenAI будет непросто переманить аудиторию к себе.

Для этого они сделали важный шаг: SearchGPT теперь можно сделать поиском в браузере по умолчанию 🤯 Давно ждём такого решения с Нейро в Яндекс браузере, хотя и понятно, что Яндексу это не выгодно — ведь так меньше людей увидит рекламу на странице поисковой выдачи, и гораздо логичнее было интегрировать ответы Нейро в неё, как компания и сделала.

Мы в редакции активно используем Нейро с Perplexity, периодически тестируя и другие инструменты, так что теперь будет очень интересно попользоваться улучшенным поиском от OpenAI и сравнить с конкурентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Провели сегодня на студии полезный тест — какая нейросеть лучше обрабатывает записи с микрофона? Особенно пригодится это для тех, кто снимает видео и записывает подкасты или интервью.

Тестировали несколько сервисов:
- Auphonic
- Adobe Enhance Speech
- Davinci Resolve Voice Isolation
- CrumplePop (бывший SoundApp)

Большой плюс Davinci и CrumplePop в том, что они работают локально и без Интернета — не надо ждать подключения и отправлять файлы куда-то на сервера. При этом сами по себе эти сервисы сильно проще конкурентов: они отлично чистят аудио от шума, но не нормализуют его автоматически и не воссоздают потерянные частоты.

У CrumplePop, в сравнении с другими сервисами, есть довольно много настроек. Наверное, если потратить время и вникнуть, можно добиться хорошего результата — но с тем же успехом можно использовать Audition и обработать звук там.

Adobe Enhance Speech справляется неплохо, но звук в итоге получается «плоским» — лишённым деталей, прерывистым, будто кто-то проглотил все низкие и высокие частоты. Ещё в процессе звуковой файл конвертируется в моно-формат — не понятно, зачем это нужно, но сильно усложняет процесс работы (особенно если звук от разных спикеров записывается изначально в 2 канала). При этом если звук у вас сильно плохой, то неожиданно Enhance Speech устроит вам или вашим спикерам английский акцент — сразу видно, что нейросеть тренировали на ограниченном датасете.

Победителем нашего теста стал Auphonic. Он не только удаляет фоновый шум, но балансирует и нормализует аудио, повышает чёткость голоса и восстанавливает его после удаления шума. Сам процесс обработки звука простой — нужно загрузить файл и нажать на кнопку. При желании можно поменять настройки под себя, в отличии от Adobe Enhance Speech они здесь есть. Ещё на сайте можно удалить фоновую музыку, убрать дыхание и моменты тишины.

Единственный минус — сервис платный, и оплатить с российских карт не получится. Но каждому аккаунту доступна обработка 2 часов аудио в месяц, а аккаунты можно при желании создавать до бесконечности — нужна только почта. Ну и если всё-таки решитесь оплатить, то есть несколько вариантов: либо подписка, либо покупка кредитов. Примерно выходит 1-2 доллара за час аудио.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Meta* выпустили в открытый доступ новый инструмент для маркировки видео, сгенерированных нейросетью — Video Seal. Он стал логичным продолжением линейки — Watermark Anything для картинок, Audio Seal для аудио, и теперь вот добрались до видео.

Уникальность технологий маркировки от Meta* в том, что водяные знаки устойчивы к изменениям файлов — их можно сжимать, обрезать, перезаливать в социальные сети. Знак при этом сохранится. Дополнительно можно добавить какое-нибудь слово из 6 букв на свой вкус — оно тоже станет частью видео.

Вообще сама маркировка — не что-то новое, каждый сталкивался с ней в соцсетях или рекламе (привет Яндексу, который помечает в Директе картинки, созданные Шедеврумом).

Но зачем она нужна? На этот счёт есть понятные опасения — что ИИ могут использовать для дезинформации, распространения фейков, влияния на процессы внутри государства и так далее. Именно поэтому мы видим мировой тренд — правительственные институты (в случае Америки крупные частные компании) в самых разных странах одновременно засуетились, пытаясь взять распространение сгенерированного контента под контроль. Важно это и с точки зрения авторского права — чтобы затруднить пиратское распространение чужого контента.

В 2021 году появилась американская Коалиция за аутентичность и контролируемое происхождение контента (C2PA), которая пытается продвигать и унифицировать правила размещения метаданных в цифровом контенте. Сегодня крупнейшие компании (Microsoft, Adobe, Google, OpenAI, Stability AI при поддержке Arm, BBC, Intel, Sony и так далее) работают в ней над стандартами маркировки контента, созданного ИИ.

В 2019 Китай принял правила маркировки «фейковых новостей» и дипфейков, а к 2023 году вообще ввёл обязательную маркировку для всех ИИ-сервисов, действующих на территории Китая.

Не удивительно, что на фоне этих новостей YouTube внедрил систему с добавлением метки Altered or Synthetic content к созданным ИИ видео, а соцсети Meta* начали маркировать такой контент и просят пользователей указывать его происхождение при загрузке.

Россия тоже не осталась в стороне — с мая 2024 года Государственная Дума разрабатывает законопроект о маркировке контента, который создан с помощью нейросетей. Ну и пример Яндекса показывает, насколько важно потребителю понимать, видя рекламу, что это не реальная фотография предмета, а созданное нейросетью изображение.

В развитии маркировки сейчас активно участвуют все страны, у которых есть собственные разработки в сфере ИИ — США, Китай и Россия. К чему это приведёт и повлияет ли как-то на опыт пользователей — остаётся только гадать. Но учитывая гигантский объём трафика, возможность локальной генерации на собственном компьютере и растущее качество работы нейросетей — отследить весь сделанный ИИ-контент будет просто невозможно, как ни старайся. Зато дополнительные ресурсы на процесс маркировки и идентификации контента потребуются.

*организация признана в РФ экстремистской
Microsoft продала телеком ради ИИ?

В этом месяце Microsoft продали купленную 4 года назад компанию Metaswitch. Покупателем выступили Alianza — они специализируются на разработке облачных платформ для операторов связи.

Сделка включает не только покупку технологий Metaswitch — но и передачу более 800 клиентов, включая 19 из 20 крупнейших операторов в мире. И если Alianza занимается облачными технологиями, то Metaswitch делают ПО для телекоммуникаций и технологии 5G, и в итоге 2 компании могут объединить инфраструктуру и компетенции.

Изначально Microsoft покупали Metaswitch для интеграции в собственную платформу Azure и улучшения технологий 5G, но сейчас решили сконцентрироваться на своих основных бизнес-направлениях — облачных технологиях и ИИ.

Сделка между Alianza и Microsoft подчёркивает новый тренд в телекоммуникациях: переход к облачным и AI-ориентированным сервисам. Операторы связи внедряют облачные решения, чтобы модернизировать инфраструктуру, оптимизировать затраты и оставаться конкурентоспособными.

Этот тренд мы видим и на российском рынке: МТС ещё в 2017 году создал MTS AI, дочку, которая занимается созданием on-premise сервисов для партнёров на базе ИИ. МТС использует их и в собственных продуктах. Ростелеком также развивает экосистему продуктов для IT «Лукоморье», куда интегрирует искусственный интеллект.

Однако важно понимать, что Microsoft не отказывается от телекома — она просто отдаёт его «на аутсорс». Вице-президент Microsoft Юсеф Халиди сказал: «Телекоммуникационная отрасль остается приоритетом для Microsoft… По мере развития нашей облачной платформы и возможностей искусственного интеллекта такие партнеры, как Alianza, играют решающую роль в оказании поддержки нашим общим клиентам». Сумма и условия сделки, к сожалению, не оглашаются, но такая сделка сильно укрепляет позиции Alianza — партнёра Microsoft — на рынке, позволяя в перспективе обеим компаниям заработать больше денег.
👍1
Пока писали пост про генерацию подкастов, столкнулись со странной особенностью текстов про NotebookLM от Гугла — люди часто воспринимают его либо просто как сервис для генерации подкастов, либо как «умные заметки» для студентов типа Notion. Сегодня хотим написать, почему считаем его чем-то большим — фактически, полноценной кастомизируемой RAG системой для пользователей и одним из самых полезных сервисов для работы с информацией.

Сначала пару слов про то, что такое RAG (Retrieval Augmented Generation). Это специальный метод работы с большими языковыми моделями, где пользователи не просто задают вопрос (надеясь, что нужная информация попадалась модели во время тренировки) — а снабжают модель всем необходимым контекстом. По такому принципу работает, например, Нейро от Яндекса — сначала модель получает запрос, потом идёт с ним в поиск, собирает актуальную информацию с веб-страниц и уже на основе этой информации, со ссылками и контекстом даёт ответ пользователю.

У такого подхода очень много плюсов, потому что он позволяет избежать донастройки модели, легко обновлять базу данных новыми сведениями и в целом дешевле и проще в использовании. Но из описания понятно, что самый главный его плюс — возможность свести к минимуму «галлюцинации» модели (это когда она не знает ответ и начинает его самозабвенно на ходу придумывать).

Так вот NotebookLM — это сервис, который позволяет вам загрузить до 50 самых разных источников (сайты, документы, аудио, видео), сформировав тот самый контекст для работы нейросети. Каждый источник может содержать до 500000 слов (то есть примерно 1000 стандартных книжных страниц). Сервис будет «понимать» содержание всех источников, вплоть до ссылок на конкретные строчки конкретных документов, что позволит легко проверить результаты работы нейросети. При этом в основе сервиса одна из лучших мультимодальных моделей Гугла — Gemini 2.0 — которая легко понимает ваши запросы. Понятно, что Гугл предупреждают: «Ответы NotebookLM могут быть неточны. Обязательно проверяйте их» — но пока это всё равно самый надёжный способ работы с ИИ.

В итоге полностью меняется подход работы с данными — больше не нужно самостоятельно изучать, например, API какого-нибудь сервиса, 7 томов исследований или 10 часов лекций. Достаточно загрузить их сюда, задать вопросы о деталях документов, сказать найти неточности или странные аномалии в данных, попросить предложить темы и структуру эссе или статей, которые могут на этих источниках основываться — и тем самым посмотреть на объект изучения с разных сторон. В данном случае функционал платформы не ограничен просто кратким пересказом, чем сегодня практически невозможно удивить пользователя.

При этом каждый ответ нейросети сопровождается ссылкой на конкретную цитату из источника — то есть можно пройти и проверить, не придумала ли вдруг она что-то лишнее.

Ну и самое удивительное, что сервис отлично работает на русском языке (кроме генерации подкастов) и пока что полностью бесплатный. Полноценных аналогов у него нет, ну или мы не нашли, хотя есть многообещающие конкуренты вроде NotebookLlama или более простые альтернативы, такие как ChatPDF, боты ChatGPT и Perplexity, которые тоже позволяют загрузить файл и задать вопросы по его содержанию.
👍2💋1
Аишка
Perplexity, аналог Яндекс Нейро, также успешно провел три раунда финансирования за последний год и планирует еще один, что может увеличить его стоимость до 9 миллиардов долларов
На фоне громкого обсуждения релиза OpenAI своего нового поколения думающей модели o3 потерялась ещё одна важная новость — Perplexity на днях купили стартап Carbon и пообещали прийти в Google Docs, Notion и Slack

Carbon, стартап из Сиэтла, специализируется на RAG-системах — подключает внешние данные к большим языковым моделям. Учитывая, что это основная деятельность Perplexity, поглощение кажется очень логичным.

Теперь компания обещает, что уже в начале 2025 года сделает поиск по файлам и рабочим сообщениям пользователей в Notion, Google Docs, Slack и других корпоративных приложениях — то есть уже не просто будет предоставлять услуги поиска по Интернету, а зайдёт на территорию корпоративного поиска к конкурентам вроде Glean или Google Cloud Search.

Всего год назад Perplexity купили Spellwise от бывшего главы разработки экспериментальных проектов Яндекса — клавиатуру для IOS, которая помогала с помощью ИИ писать или редактировать тексты (сейчас так умеет Яндекс Клавиатура, например). Компания предпочитает делать точечные покупки, которые потом бесшовно интегрируются в их флагманский продукт — поиск.

За день до этого Блумберг поделился новостью от своих источников, что Perplexity всё-таки привлекли новый раунд инвестиций в 500 миллионов долларов и теперь их оценка выросла до 9 миллиардов, увеличившись в 3 раза всего лишь с июня.

Учитывая планы расширить сегмент рынка и уйти в корпоративный поиск, проблем с привлечением инвестиций, скорее всего, не будет и дальше: в числе инвесторов Perplexity — New Enterprise Associates, инвесткомпания Bezos Expeditions, Nvidia, бывший гендиректор YouTube Сьюзен Воджицки и так далее.
Компании перестарались с внедрением функции суммаризации текста везде, где только можно

Сегодня появилась возможность не читать полностью практически ничего. Уведомления, письма, сайты, видео, целые книги — всё укладывается в несколько абзацев текста. Скоро, вероятно, и в Интернет мы будем ходить «суммированный»: одни нейросети будут генерировать контент по запросу вместо людей, другие — отображать этот сгенерированный контент в пересказанном виде, как в испорченном телефоне. Хорошая ли это тенденция?

Огромная проблема любых нейросетей — галлюцинации, от которых практически невозможно избавиться. Если речь идёт просто о сжатом пересказе статьи с чьим-то мнением, то с этим ещё можно смириться. Но как быть с более серьёзными кейсами?

Например, с поиском. Когда Google добавили в свой поиск AI ассистента, он сразу стал рекомендовать пользователям есть камни хотя бы раз в день. Понятно, что вопрос был глупый — «сколько камней в день мне нужно есть». Но ведь это просто гиперболизированная иллюстрация того, как галлюцинирует нейросеть.

Нейро в этом плане работает тоже не идеально — можете сами попробовать спросить поиск Яндекса, сколько ног у лошади. Причём разработчики сервиса постоянно напоминают, что ИИ может ошибаться в подобных вопросах. Но ведь ошибка может быть и в каком-то важном ответе — мы в редакции неоднократно ловили что Нейро, что Perplexity в галлюцинациях, противоречиях предыдущим сообщениям и в целом странной работе с источниками (когда для ответа берётся случайная фраза из статьи на условном Дзене, которая вообще не об этом).

Недавний громкий кейс — проблемы Apple Intelligence в уведомлениях IOS 18.2. Иногда он просто выдаёт глупости, но в худшем случае — искажает содержание уведомления. На днях пользователям показали ложные новости с BBC про самоубийство Луиджи Манджионе и с NY Times про арест Нетаньяху. Хотя нейросеть просто «работала» — она прочитала текст уведомлений и суммировала их на свой лад. Представьте, как легко будет получить некорректную информацию из таких уведомлений, если привыкнуть не читать оригиналы?

Недавно Яндекс Почту добавили Нейрофильтр, который призван отобрать самые «важные» письма и показать их вам в сокращённом виде. При этом вариантов настроить критерии «важности» нет, а суммированный текст часто сокращается буквально до нескольких слов, при прочтении которых легко как раз таки упустить что-то важное. Понятно, что можно всегда зайти в тело письма проверить — но зачем тогда вообще сокращать, если всё равно каждый раз приходится заходить и перепроверять?

Создаётся ощущение, что компании по всему миру усиленно пытаются сделать нейросети привычной частью взаимодействия пользователя с их сервисами. Но как только пользователь привыкнет к сокращённым текстам, пересказам, сгенерированным ответам — есть риск, что он перестанет ожидать от них подвоха и проверять правильность информации.

Очень подходит сюда цитата нашего главреда — «Люди тоже галлюцинируют, но в этом случае у каждой галлюцинации есть имя и фамилия». В случае с нейросетями никаких отественных нет, хотя бы потому, что мы сами не до конца понимаем, откуда именно берётся ответ и каким он будет в следующий раз. А у нейросетей нет страха наказания за враньё и фейки, которые в определённых обстоятельствах могут сломать жизнь живому человеку.

Одно из решений проблемы — ограничение «креативности» моделей и предоставление контекста, с которым она будет работать (те самые RAG системы). Но даже такой вариант не идеален.

Как будто бы пора перестать добавлять суммаризацию всего и всюду для «экономии» времени пользователей, нет такого ощущения?
👍2🤔1
Media is too big
VIEW IN TELEGRAM
Нетфликс активно использует ИИ в своих продуктах — хотя мало об этом рассказывает

Нейросети, например, отвечают за алгоритмы рекомендации и персонализации контента на платформе, о чем уже было написано много статей. Они анализируют поведение пользователей, ищут закономерности и сходства в их предпочтениях, а также изучают жанр, актёрский состав, диалоги, музыку и эффекты в продуктах, чтобы адаптировать рекомендации под интересы каждого пользователя в режиме реального времени.

Для этого компания использует продвинутые внутренние технологии, вроде связки инструментов SepFormer и Bandit. Эти инструменты позволяют разделить музыку, диалоги и фоновые звуки в сведённых треках для более глубокого анализа и последующего улучшения качества звука.

Изображение тоже нужно анализировать — и для этого существует платформа Video Annotator. Она использует возможности больших мультимодальных языковых моделей для распознавания образов на видео и картинках. Это важно для поиска и обнаружения контента, персонализации и создания рекламы.

ИИ также анализирует показатели проектов компании за прошлые годы, изучая сценарии, героев, темы и динамику сюжета. Это позволяет предсказать, какие элементы будут наиболее привлекательны для зрителей. На основе этих данных продюсеры могут принимать более обоснованные решения при создании новых шоу и сериалов.

И вот в соцсетях недавно появилось и набрало много просмотров новое видео якобы с демонстрацией того, как Нетфликс использует нейросеть для липсинка (вероятнее всего, если это не просто случайное совпадение озвучки и движения губ, что пользователь попал в группу А/Б-тестирования этой функции). Такая технология обеспечивает синхронизацию речи с движениями губ актёров, что делает локализацию более естественной. Учитывая стремление Нетфликса завоевать международный рынок и создавать продукты с учётом локальных особенностей, такое нововведение может уменьшить языковой барьер при потреблении контента.

У Нетфликса в дубляже вообще большой бэкграунд — в 2021 году они обработали более 5 миллионов минут видео для улучшения качества озвучки. Можно предположить, что компания готовит технологии, подобные переводу и дубляжу с липсинком от Heygen. Автоматический перевод уже не является чем-то новым — его тестируют в YouTube и давно добавили в Яндекс Браузере — но проблема заключается в том, чтобы сделать его максимально бесшовным и естественным. Текущие решения не могут.

Из-за более концентрированной русскоязычной аудитории у наших онлайн-кинотеатров пока нет необходимости активно дублировать контент. Однако они, а в частности Кинопоиск, тоже нашли применение нейросетям — интегрировав технологии распознавания актёров и музыки в кадре. В первом случае используется нейросеть DeepDive, которая совмещает компьютерное зрение с доступом к базе данных изображений Кинопоиска.

Будем внимательно следить за тем, окажется ли видео правдивым и релизнет ли Нетфликс в итоге автоматический липсинк, не говоря уж о дубляже. Ведь это может привести к революции в индустрии дубляжа и перевода и сильному её сокращению, если не вымиранию.
Лаборатория искусственного интеллекта Сбера совместно со студентами ИТМО создали и опубликовали в открытом доступе библиотеку RIDE.

Эта библиотека предназначена для ускорения расчета кратчайшего пути на графе. Грубо говоря, это инструмент, который помогает компьютерам быстро находить кратчайший путь между двумя точками на карте — и это можно использовать для навигации, доставки или дизайна сложных транспортных систем.

Можно предположить, что в дальнейшем эту технологию будут применять для улучшения сервисов дочерних компаний Сбера — 2ГИС и Ситидрайв.

Учитывая, что конкурировать с Яндекс Картами очень сложно, в 2ГИС выбрали несколько иной подход — они ориентируются на сегменты B2B и B2G, интегрируя современные технологии. Например, можно вспомнить 2ГИС Про — решение для работы с большими данными и их визуализации на картах; а также запущенное в этом месяце приложение Линза, которое с помощью искусственного интеллекта позволяет осуществлять мониторинг городской среды, распознавать объекты с помощью камеры и анализировать полученные данные на серверах компании.

Предполагается, что этот сервис будет полезен для государственных проектов и служб, связанных с мониторингом городской инфраструктуры. Благодаря ИИ и машинному зрению коммунальные службы смогут в реальном времени получать с камер смартфонов данные о состоянии дорожного покрытия, знаков, фонарей и мусора, видеть их на карте, фиксировать инциденты и оперативно их устранять.

У Яндекса есть собственное решение для анализа больших данных — DataLens, которое используется для анализа самых разных данных, включая информацию на картах. Однако конкретного решения для B2B или B2C мы не нашли — видимо, 2ГИС тоже, раз поспешили занять эту нишу.
👍2
«Яндекс» связал рост финансовых показателей с интеграцией ИИ в массовые сервисы

В декабре «Яндекс» сообщил журналистам, что связывают рост всех своих финансовых показателей «с развитием и интеграцией ИИ в массовые сервисы». По данным компании, «уже сейчас 99 процентов выручки рекламной сети "Яндекса" обеспечивают инструменты, которые с помощью ИИ управляют кампаниями». Говоря же о генеративном ИИ, в «Яндексе» сказали, что внедрили большую языковую модель YandexGPT в 20 собственных сервисов. В их числе и потребительские платформы, например «Алиса», «Поиск», «Браузер» и другие.

Хотя в Альянсе ИИ (объединяет «Яндекс», VK, «Уралхим», «Северсталь» и т. п.) настаивают, что важно всего видеть реальную пользу от ИИ, выражающуюся в деньгах, но срок окупаемости может составлять до нескольких лет, и в нем нужно учитывать не только стоимость разработки, но и стоимость инфраструктуры и вычислительной техники.

Так что логично, что вложения в развитие ИИ могут не давать быстрого эффекта на финансовые показатели: технология относительно недавно вышла в массовую эксплуатацию и сценариев ее монетизации пока не так много. Однако у «Яндекса», например, с апреля действует подписка на опцию «Алиса Про» с интегрированной в нее генеративной сетью YandexGPT 3. Таким образом компания делает первые шаги к монетизации.
Недавно в Гугле назвали 5 основных ИИ-трендов для бизнеса в 2025 году. Среди них:

Мультимодальный искусственный интеллект, который будет обрабатывает информацию сразу из текста, изображений, аудио и видео, обеспечивая более широкое понимание контекста.

ИИ-агенты, которые будут автоматизировать сложные задачи и рабочие процессы бизнеса. Такие агенты уже внедряются для выполнения функций техподдержки, кодинга, обработки данных и «креатива» (генерации идей и медиаконтента), просто масштаб внедрения и связность действий, в том числе благодаря мультимодальности, вырастут.

Поиск на основе ИИ, который позволит любому предприятию внедрить поиск по внутренней базе данных, документации, товарам и так далее, выйдя за рамки ключевых слов. Для доступа к данным легко будет использовать изображения, аудио, видео и разговорные запросы. Причём, по прогнозам Гугла, рынок корпоративного поиска к 2031 году вырастет почти до 13 миллиардов долларов. Видимо, это понимают и Perplexity, раз инвестируют деньги в покупку RAG стартапов.

• Дальнейшее улучшение клиентского опыта за счёт персонализации взаимодействия с клиентами, предоставления рекомендаций, улучшения поиска и повышения лояльности к бренду.

Безопасность на основе ИИ для обнаружения и предотвращения угроз, автоматизации задач безопасности и ускорения времени реагирования. Учитывая растущее число угроз и растущий же рынок кибербезопасности, потребность в защите сетевой инфраструктуры может стать новым драйвером инвестиций в искусственный интеллект.

А что в России? Помимо уже упомянутых Гуглом трендов, которые будут актуальны и для нашего рынка тоже, есть и другие, более специфичные.

Например, государственная поддержка ИИ — в этом году федеральный проект «Искусственный интеллект» был включён в нацпроект «Экономика данных», а национальную стратегию развития ИИ продлили до 2030 года.

Это подстегнёт развитие отечественных генеративных нейросетей, в то время как большая часть стран в мире пользуется готовыми зарубежными продуктами. Ждём новых моделей от Яндекса со Сбером, а также fine-tuned модели на базе решений в открытом доступе от энтузиастов (вроде Saiga и Vikhr) и крупных игроков рынка — МТС, Т-Банка, Авито и так далее.

Пока ИИ применяется довольно локально и в некоторых сферах, поэтому помимо банковской сферы и здравоохранения стоит ожидать его активного внедрения в кибербезопасность, транспорт, логистику, образование, энергетику и промышленность.

Ещё один тренд — экспорт российских ИИ-решений. В июле 2024 года на ИННОПРОМе Российский экспортный центр и Федеральный центр прикладного развития искусственного интеллекта заключили соглашение о сотрудничестве, направленное на рост экспорта отечественного ПО и радиоэлектронной продукции на зарубежные рынки. В рамках соглашения они будут способствовать продвижению отечественным ИТ-брендов и решений за пределами России. Однако важно даже не это, а сами продукты — благодаря выгодному соотношению цены и качества российских решений, они с высокой вероятностью будут пользоваться спросом на рынках СНГ, Азии и Латинской Америки.

Самое неприятное — это нехватка кадров, которая сохранится в 2025 году и будет мешать компаниям расти.
👍2👎1
Неплохой вариант понять, насколько сложно устроена LLM — посмотреть визуализацию всех этапов работы нейросети

Брендан Байкрофт подготовил наглядную 3Д-модель LLM и сделал гайд по всем этапам её работы (именно inference) с пояснениями. Здесь мы видим и обработку ввода, и его токенизацию, превращение в вектора, генерацию логитов и так далее, вплоть до вывода наиболее вероятного последующего токена.

К сожалению, пока набор моделек небольшой, но даже на нём можно наглядно проследить эволюцию GPT от поколения к поколению. Начинаешь лучше ценить скорость работы современных, куда более сложных LLMок, учитывая количество операций, которые им приходится совершать для генерации каждого следующего токена.

Сам гайд на английском, но текст легко переводится при желании. Да и это просто красиво…
🤩2
Что за САПФИР?

На базе фонда «Сколково» в начале 2025 года будет запущено Стратегическое агентство поддержки и формирования ИИ-разработок (САПФИР), которое станет координационным центром для развития этой отрасли. Его задача — объединить усилия бизнеса, науки и государства, чтобы превратить ИИ в один из драйверов экономики.

Курировать направление будет Минэкономразвития, а руководителем станет заместитель главного управляющего директора по экспертизе и финансовой поддержке «Сколково» Татьяна Союзнова.

Резиденты «Сколково» уже показали примеры успешной интеграции ИИ в продукты: система «К-Скай» первой в стране получила статус медицинского изделия с ИИ, а нейроимплант от компании «Сенсор-Тех» ELVIS по примеру Neuralink установили примату — он призван помочь ослепшим людям частично вернуть зрение.

Нейроимпланты достались не только обезьянам, но и крысе — лаборатория «Нейри» совместно с МГУ подключили мозг крысы к ИИ — «искусственной интуиции» (в итоге инвазивный интерфейс с ИИ подсказывает крысе правильные ответы на вопросы). Есть и проекты для улучшения логистики — «Моринтех» оптимизирует ледовые маршруты Северного морского пути, а «Тераплан» ускорил доставку Почты России.

Государство планирует направить 5% федерального бюджета на науку в 2025 году на исследования в сфере ИИ. Причём ещё 15% расходов пойдут на разработки, где ИИ станет ключевым инструментом. А в 2025 году пройдет новая волна отбора исследовательских центров с фокусом на создании «сильного ИИ» — технологий, которые стремятся приблизиться к человеческому мышлению (привет, AGI).

ИИ для России — не просто тренд, а стратегический ресурс. Согласно Национальной стратегии развития ИИ, к 2030 году прирост ВВП страны от его применения составит 11,2 трлн рублей.

Создание САПФИРа и наращивание финансирования исследований в области ИИ — продолжения тренда на поддержку и консолидацию этой отрасли, а также иллюстрация намерения России занять заметное место в гонке с США, Китаем и ЕС. Россия, несмотря на более скромные инвестиции по сравнению с глобальными игроками, делает ставку на синергию государства, науки и бизнеса. А САПФИР, как предполагается, должен стать центральной площадкой для координации этих усилий.