Аишка
962 subscribers
706 photos
66 videos
2 files
453 links
Side-канал @contentreview с новостями из области искусственного интеллекта (AI)

Наши каналы:
Основной (телеком и IT) – @contentreview
Песочница (БигТех) – @BigTechSandbox
Электричка – @econtentreview
Download Telegram
Команда бывших руководителей Google и Stripe объединилась для создания универсальной операционной системы для ИИ.

Стартап /dev/agents возглавляет бывший технический директор Stripe и вице-президент Google по инженерии Дэвид Синглтон. Среди соучредителей также Хьюго Барра (экс-руководитель Android и Xiaomi), дизайнер Николас Джиткофф (Chrome OS) и технический директор Фикус Киркпатрик (Android).

Чего хотят авторы?
• Создать универсальную ОС — то есть разработать операционную систему, которая будет работать на различных устройствах от смартфонов до автомобилей.
• Интегрировать ИИ-агентов для выполнения рутинных задач с минимальным вмешательством человека. Они смогут бронировать билеты или программировать.
• Сделать новый пользовательский интерфейс для более естественного взаимодействия с ИИ-агентами.

Стартап уже привлек 56 миллионов долларов инвестиций от Index Ventures и CapitalG (инвестиционное подразделение Alphabet). На данный момент он оценивается в 500 миллионов долларов.

Первая версия операционной системы ожидается в середине 2025 года. Основатели уверены, что создание такой платформы может значительно ускорить развитие ИИ-технологий и улучшить взаимодействие между ними. Если проект будет успешен, то мы увидим всплеск интеграции ИИ сервисов во все операционки, хотя уже даже наблюдали такие попытки со стороны Microsoft с их Copilot, Apple с их Apple Intelligence и Google после выпуска Gemini Nano.

При этом есть другие интересные примеры — ещё в июле в Китае анонсировали ОС OpenKylin. Как заявляют разработчики, с интегрированной поддержкой языковых моделей и генерацией текста в изображение, хотя пока это просто Линукс с предзагруженными нейросетями и ни о какой бесшовной интеграции речи не идёт. Но тренд на бесшовную интеграцию ИИ в операционные системы уже прослеживается у всех участников рынка.
Не так давно Сбер выпускал свою улучшенную модель GigaChat Max, и вот компания уже отчиталась о том, что ГигаЧат сдал экзамен на врача.

Пока это только первичная аккредитация по специальности «Лечебное дело», куда входит диагностика, лечение и профилактика заболеваний у взрослых, но результат уже впечатляющий. Чтобы справиться, модель была специально дообучена на «материалах от нескольких сотен врачей».

Экзамен проходил на базе Первого Московского государственного медицинского университета имени И. М. Сеченова и состоял из двух частей: теста с 80 вопросами и решения двух ситуационных задач. GigaChat MAX ответила правильно на 83% тестовых вопросов и дала 20 верных ответов на ситуационные задачи, что выше необходимого минимума в 17 ответов.

В Сбере считают, что успешная сдача экзамена является важным шагом к практическому использованию искусственного интеллекта в здравоохранении. Ранее Директор Центра индустрии здоровья Сбербанка Сергей Жданов говорил о том, что будущее здравоохранения — за персонализированными ИИ-помощниками, которые будут вместе с человеком следить за его здоровьем. И, судя по всему, именно по этому пути идёт Сбер, планируя интегрировать ГигаЧат в СберЗдоровье (а там и Еаптека рядом, чтобы сразу продать вам нужные лекарства). Целая экосистема в области цифровой медицины.

Теперь ждём развития модели по отдельным медицинским специальностям — терапии, кардиологии, неврологии и гастроэнтерологии, эти направления компания уже анонсировала.
YandexGPT 4 Pro стала доступна не только для пользователей Yandex Cloud, но и в приложении Алисы.

На данный момент это самая «мощная» языковая модель от Яндекса. Пользоваться ей смогут только юзеры, заплатившие за опцию «Про», а в ближайшее время обещают добавить эту возможность ещё и в колонки с ТВ-станциями.

По словам Яндекса, новая модель умеет рассуждать, обрабатывает больше информации за раз и выигрывает у предыдущей в 58% случаев.

Интересно, что на арене Russian LLM leaderboard YandexGPT 4 Pro набрала 59.24 балла, тогда как их бесплатный конкурент GigaChat Max — 86.7. Хотя при этом последняя не умеет рассуждать и обрабатывает меньше текста, что сильно сужает сценарии использования. Предлагаем вам попробовать обе модели и поделиться результатами.
👀3
В ChatGPT появится реклама

Другого выхода нет, это признает и Сэм Альтман

Компания OpenAI хоть и стоит больше 150 миллиардов долларов, но расходует деньги со страшной скоростью. В одном только 2024 году на развитие и обучение своей модели ИИ компания потратила 5 миллиардов долларов, и нет никаких признаков, что расходы перестанут расти. Между тем платных подписчиков у ChatGPT Plus сейчас около 7,7 миллиона человек, что при стоимости подписки 20 долларов приносит OpenAI чуть меньше 2 миллиардов долларов. Если Сэм Альтман хочет и дальше вкладывать миллиарды долларов в развитие, ему придется пойти на запуск в бесплатной версии ChatGPT рекламы в том или ином виде. Хотя он и заявлял, что ему «не нравятся они [рекламные объявления] в целом».

В рекламе возможность увеличить прибыль и тем самым закрыть какую-то часть затрат на развитие видит и Сара Фрайар, финансовый директор OpenAI, о чем она сообщила в интервью Financial Times. Ранее OpenAI уже переманила ряд специалистов по рекламе у Марка Цукерберга и из Google, но по словам Сары в ближайшем будущем рекламы в ChatGPT не появится.

Это вызывает определенные сомнения. Конечно, некоторую инъекцию выручки может дать Apple, которая встроила форму подписки на ChatGPT Plus в iOS 18.2. Но куда больше перспектив в рекламной монетизации у сервиса ChatGPT Search: пользователи в принципе привыкли к тому, что в традиционных поисковых системах присутствует реклама и ее появление в обогащенном поиске ChatGPT вряд ли вызовет сильную негативную реакцию.

Стоит отметить, что в сентябре рекламу в обогащенном поиске тестировал Яндекс: в сервисе Нейро первым абзацем шла реклама (о чем сообщалось прямо в конце абзаца текста), и уже после – ответ на запрос. Нам, возможно, просто повезло: Яндекс часто проводит эксперименты на ограниченной выборке пользователей, попасть в которую можно лишь случайно. В любом случае, раскатывать на всех пользователей Нейро рекламу Яндекс не стал. По крайней мере нашей редакции она больше не попадалась.
🔥2
«Яндекс» празднует десятилетие использования нейросетей

Первая нейросеть в поиске «Яндекса» появилась 10 лет назад — в декабре 2014 года компания впервые применила их для поиска похожих изображений. После этого Яндекс стал гораздо лучше искать семантически близкие изображения. Интересно, что первый опыт с нейросетями у компании случился еще в 2012 году — тогда их использовали для предсказания пробок, а уже в 2016 году впервые применили для ранжирования сайтов.

Позже, в 2020 году в «Поиск» внедрили собственный трансформер YATI, что стало самым значительным улучшением качества поиска со времен «Матрикснета» 2009 года. В машинном переводе «Яндекс» впервые применил нейросеть в 2017 году. Сейчас, в 2024 году в «Поиске» уже используются мультимодальные VLM-нейросети в технологии Нейро, что позволяет пользователям задавать вопросы, комбинируя текст и изображения, и получать развернутые ответы.

Другие участники рынка, такие как Сбер, VK, МТС, обратили внимание на развитие нейросетей только в последние несколько лет, в то время как нейросетям «Яндекса» уже больше десяти лет, что дает компании серьезное конкурентное преимущество. Путь развития нейросетевых технологий в «Яндексе», с одной стороны, демонстрирует планомерную, кропотливую работу, а с другой — говорит о неотвратимости технологических трансформаций отрасли.
ИИ впервые используют при подготовке прямой линии президента РФ

С помощью языковой модели планируют обрабатывать все поступающие вопросы (несколько миллионов), суммировать, разбивать по категориям — чтобы заранее иметь представление о том, что волнует население.

Раньше для анализа вопросов использовали членов Общероссийского народного фронта, которые работали в течение года, но в этот раз решили отказаться от ручного труда в пользу автоматизации и современных технологий. Отвечать за анализ вопросов доверили нейросети GigaChat от Сбера.

Одновременно с самими вопросами будет собираться информация о регионе, возрасте тех, кто обращается, проблематике — то есть получится собрать «большие данные» для анализа.
🌚1
ChatGPT подорожает в 10 раз

За подписку Pro хотят брать 200 долларов. Это один из обещанных Сэмом Альтманом «громких анонсов»?

Пользователи социальной сети X потрошат сайт Open AI в поисках информации о грядущих анонсах. Один из них, Тибор Блахо, обнаружил страницу с новой подпиской Pro. На данный момент существует лишь одна подписка для простых пользователей – Plus за 20 долларов в месяц. Версия Pro стоит уже 200 долларов и включает в себя дополнительно неограниченный доступ к моделям o1, o1-mini и GPT-4o, а также доступ к режиму o1 pro, который, как утверждается, потребляет больше вычислительной мощности для наилучших ответов на сложнейшие вопросы.

Очевидно, что все, что входит в подписку Pro, не будет доступно простым подписчикам ChatGPT Plus. Наиболее важным элементом пакета Pro является неограниченный доступ к новой версии языковой модели o1, представленной Open AI в сентябре. В ней используется метод обучения с подкреплением, что дает надежды на более глубокие и продуманные ответы, хотя скорость работы от этого ниже (или требует сильно больше вычислительных мощностей), скорость генерации ответа – от 10 до 30 секунд. Модель, как утверждается, способна выстраивать длинные цепочки размышлений перед тем, как дать ответ. В ходе тестирования на примере отборочного экзамена международной математической олимпиады модель показала 83% правильных ответов, в то время как ее предшественник GPT-4o справился только с 13%.

Это все, разумеется, хорошо, но повышение стоимости подписки в 10 раз выглядит слишком агрессивным шагом. У ChatGPT Plus сегодня не так уж много подписчиков, а у Open AI бизнес-модель трещит по швам: выручка не покрывает растущие расходы. Это привело к тому, что начались разговоры о неизбежном появлении в ChatGPT рекламы для повышения доходов от бесплатной версии.

Ранее Сэм Альтман, генеральный директор Open AI, анонсировал серию 12 анонсов за 12 дней.
👀4🤔1
«Думающие» модели от OpenAI теперь можно ещё и тренировать — компания представила для них Reinforcement finetuning

Что это значит? Модели можно дать свои данные и критерии для их оценки, чтобы научить решать определённые, очень узкие задачи, даже если она не разбирается в нужной вам сфере. Сами разработчики говорят, что сильнее всего пригодится эта функция в медицине, юриспруденции, финансах и инженерии.

Самое удивительное, что для этого не нужны петабайты данных — достаточно 20 примеров задач и решений, чтобы начать тренировку. Хотя, конечно, чем меньше датасет — тем хуже качество результата. Модель получает данные, «учится» от нескольких часов до нескольких дней и начинает решать похожие задачи, учитывая приобретённый контекст.

Пока запустили альфа-версию с ограниченным числом участников, но компания уже планирует публичный релиз в начале 2025 года. Желающие могут подать заявку на участие в альфе на сайте OpenAI.
2
Media is too big
VIEW IN TELEGRAM
Google выпустила апгрейд нейросети для генерации видеоигр

Genie 2 от Deep Mind отличается от предыдущих версий и конкурентов тем, что может не просто создавать движущихся куда-то в пустоту персонажей — она умеет запоминать сгенерированный мир (если вы отойдёте и вернётесь обратно, все предметы будут на месте), делать его интерактивным, генерировать взаимодействия персонажей с объектами этого мира и добавлять физические симуляции огня и воды.

Ограничения у модели, правда, пока существенные: максимальная длительность генерации 1 минута, а и без того низкое разрешение портят артефакты — мерцание, кривые анимации, изменение контуров и цветов предметов в реальном времени.

Но сами авторы говорят, что это только сырая начальная стадия, так что ждём развития технологии.
🔥2
В России создали первую открытую (open source) среду для контекстного обучения неройсетей с подкреплением — XLand-MiniGrid

Спасибо за это стоит сказать ученым из лаборатории T-Bank AI Research и Института AIRI, а также студентам МФТИ, Сколтеха и Иннополиса.

XLand-MiniGrid — это виртуальная платформа, где ИИ обучается методом проб и ошибок, ввзаимодействуя со средой, приобретая знания и получая вознаграждение за правильное выполнение действий.

Почему это важно?

• Из конкурентов этой платформы — OpenAI Gym, DeepMind Lab от Google и Unity ML-Agents. Все эти решения — закрытые и проприетарные, поэтому ограничивают исследователей. Здесь же можно написать и запустить свои модули или даже полностью переписать программу при необходимости.

• Обещают, что XLand-MiniGrid разработана на базе JAX (специальная библиотека Python) , что обеспечивает высокую производительность и возможность выполнения миллиардов операций в секунду.

• Представлен большой датасет — более 100 миллиардов примеров действий ИИ в 30 тысячах задач — который сокращает время и ресурсы, нужные для обучения моделей.
Сегодня делимся кое-чем прикладным: вероятно, все знают и пользуются chatGPT, но гораздо меньше людей пользуются не менее полезным и функциональным (а в ряде случаев даже более удобным) сервисом — Le Chat от Mistral AI.

Это французская компания, основанная бывшими сотрудниками Meta и Google DeepMind. Она получила финансирование от Франции и венчурных фондов на «импортозамещение», то бишь создание европейского аналога chatGPT. Важно, что моделями компания делится со всеми — они опенсорсные.

Не так давно Mistral выпустили чат-бота Le Chat, который работает на их самой крутой модели, сопоставимой по возможностям с GPT4.

Но помимо сопоставимого уровня ответов у сервиса есть несколько других ключевых преимуществ:
• Доступен в России без ВПН
• Полностью бесплатный (по крайней мере, пока)
• Позволяет бесплатно генерировать картинки в чате через Flux (одну из лучших реалистичных моделей на рынке), без ограничений по количеству. Кое-кто из пользователей даже смог обойти цензуру и добиться генерации изображений 18+
• Даёт неограниченное количество бесплатных запросов по API (при условии, что вы делитесь данными с компанией)

Конечно, сервис не сравнится с возможностями «думающих» моделей, о которых мы напишем чуть позже, но даёт бесплатный и неограниченный доступ к одной из самых лучших языковых моделей на сегодняшний день.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Состоялся официальный релиз Sora. Модель будет доступна на сайте sora.com

Sora — это модель OpenAI для генерации видео на основе текстового запроса. Она была представлена 15 февраля 2024 года и позволяет генерировать реалистичные видео продолжительностью до одной минуты.

Особенность сервиса Sora в том, что параллельно с генерацией будут доступны и другие инструменты, а также редактор видео. Что-то похожее мы можем сейчас увидеть у Runwayml.

По ссылке уже есть примеры генераций и надпись «coming soon» — подписчики смогут протестировать модель уже скоро.

Лимиты:
• 50 генераций в месяц с аккаунтом Plus за $20
• бесконечно генераций с аккаунтом Pro за $200

Upd. Доступ открылся, но модель недоступна в ЕС и Великобритании из-за сложностей регулирования — ищите ВПН с серверами в США.
🔥1
Аишка
Состоялся официальный релиз Sora. Модель будет доступна на сайте sora.com Sora — это модель OpenAI для генерации видео на основе текстового запроса. Она была представлена 15 февраля 2024 года и позволяет генерировать реалистичные видео продолжительностью…
Теперь к нюансам:
• Стандартная длина видео от 5 до 20 секунд (для подписчиков Plus максимум 5)
• Разрешение от 480p до 1080p (Plus подписчики ограничены 720p)
На более длинные видео и увеличенные разрешения уходит больше кредитов.

Дополнительные инструменты:
• Storyboard для режиссуры видео (можно попросить Sora сделать видео оленя, который именно на пятой секунде подпрыгивает)
• Инструменты для смешения видео, продления существующих и так далее
• К видео можно применять стили и создавать свои
Media is too big
VIEW IN TELEGRAM
Не Sora единой

На рынке уже есть огромное количество решений для генерации видео — Luma, Runway, китайский Kling, русский Кандинский (хотя он всё ещё даёт более стилизованные и не слишком реалистичные результаты), запущенный в начале декабря Veo от Google. А ещё 4 декабря вышла новая китайская нейросеть Hunyuan Video от компании Tencent, о которой хочется рассказать отдельно.

Сравнивать напрямую их с Sora смысла нет — у модели Hunyuan только 13 миллиардов параметров (количество параметров модели Sora мы не знаем, но предполагаем, что сильно больше), а максимальная длина итогового видео 5 секунд.

Что же в ней тогда особенного? Важно, что компания выпустила свои модели в открытый доступ и опубликовала исходный код, чем не могут похвастаться решения от OpenAI или Google. Сегодня это — крупнейшая модель для генерации видео с открытым исходным кодом, доступная бесплатно для всех желающих.

И при всём при этом она по качеству результата сопоставима с перечисленными в начале проприетарными флагманами вроде Runway Gen-3 или Luma 1.6, создавая корректную анатомию и адекватные с точки зрения физики видео.

Пользователь может выбирать разрешение итогового результата, поэтому в теории её можно запустить даже на не самых мощных устройствах. Хотя, конечно, чтобы раскрыть возможности модели на максимум, потребуется мощный компьютер.

Публикация такой большой опенсорс модели — это огромная возможность для исследователей и пользователей по всему миру, которые смогут построить свои решения и сервисы на базе этой модели, не оглядываясь на ограничения и правила работы с API компаний вроде OpenAI. Ну и в целом этот релиз — наглядная демонстрация возможностей небольших открытых моделей, что в последнее время становится трендом у крупных компаний, которые хотят переносить функции на устройства пользователя и запускать нейросети локально.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть от Nvidia понимает и генерирует звук как люди?

В мире есть несколько популярных сервисов для генерации звуков и музыки. В основном все пользуются Suno или Udio как самыми доступными — не нужно ничего устанавливать и можно пользоваться через сайт.

Но у них есть ряд ограничений — они не умеют работать с входным аудиофайлом, могут лишь продлить его на основе звуковой дорожки, а также не дают полного контроля над вокалом и прочими параметрами трека на выходе.

Эту проблему призвана исправить новая нейросеть от Nvidia — Fugatto. Её не стоит рассматривать как альтернативу генеративным сетям вроде Suno или Udio, это принципиально иной и более совершенный подход к работе со звуком.

Fugatto не просто генерирует звук на основе текстового описания — она «понимает» запрос пользователя и умеет выполнять инструкции по отношению к аудио.

Проще всего принцип работы с моделью понять на примере запросов, которые показали нам сами Nvidia (все примеры есть в видео, прикреплённом к посту):
«Создай звук, в котором проезжающий поезд превращается в пышный струнный оркестр»
«Изолируй голос от фоновых звуков» + нужный аудио-трек
«Спокойным голосом, с американским акцентом произнеси: «Дети разговаривают у двери»
«Преврати спокойный голос в злой» + нужный аудио-трек
«Добавь барабаны к синтезатору» + нужный аудио-трек

Нейросеть умеет понимать естественный язык, генерировать новые звуки, не существующие в природе, генерировать голос людей, менять данные на вход треки, добавляя в них новые инструменты или вокал, менять тембр, эмоции голоса и так далее. Эдакий швейцарский нож в мире работы со звуком.

Так чего вы ждёте, дайте попробовать… Сказали мы, но есть нюанс. Пока не понятно, когда модель сделают доступной для пользователей и сделают ли вообще. В то время как Suno, Udio, Stable Audio, Riffusion и другие существуют, работают и развиваются уже сегодня.
🔥1
Forwarded from Roem.ru
Яндекс делает свой десктопный офисный редактор со своей GPT. Web-версию можно попробовать уже сейчас

Компания "Яндекс" сообщила о выпуске на публику новой версии сервиса "Документы".

Апгрейд не только закрывает часть традиционных претензий вида "Яндекс.Документы не такие же как Google Docs", но и должен, в теории помогать с их составлением при помощи Яндекс.GPT (в редакции Roem.ru эта фича не заработала, хотя интерфейсное сообщение, в целом, дало правильный ответ на заданный вопрос)

Из того что обещано компанией в будущем интересны комментирование частей документа (одна из часто используемых в совместной работе фич Google Docs), а также выпуск десктопной версии офиса и web-версии в Enterprise варианте, для разворачивания на собственной инфраструктуре организаций.
Media is too big
VIEW IN TELEGRAM
Чтобы сделать подкаст, теперь нужен только текст — остальное сгенерирует нейросеть

Компания ElevenLabs выпустила новый инструмент под названием GenFM, который позволяет создавать подкасты на основе загруженного текста. Можно использовать в том числе PDF-документы или статьи.

Доступен сервис пока только в приложении ElevenReader на IOS, но в ближайшие недели появится и на Android.

Альтернатива есть у Google и называется NotebookLM — в числе прочих функций там есть возможность генерации подкаста на заданную тему или по тексту с участием нескольких спикеров. Тем не менее, у Google есть значимый недостаток — сервис работает только на английском языке, а в GenFM доступно целых 32 языка, включая русский.

ElevenLabs также старается добиться более естественного звучания и разнообразия голосов, поэтому их здесь более 10, а в саму озвучку добавляются придыхания и прочие человеческие звуки.
👍3
Ещё полгода назад не было особого смысла писать о возможностях нейросетей в генерации 3Д-моделей — результаты вряд ли могли использоваться в продакшене без доработки, которая иногда по времени занимала столько же, сколько создание модели с нуля.

Особенно показательным был кейс компании Kaedium. В 2023 году она ворвалась в интернет с новостями о «революционном методе генерации моделей с правильной топологией» — результат был очень похож на работу специалиста, хотя заявлялось, что модели генерирует нейросеть (чью работу, правда, «модерирует отдел контроля качества»). Как оказалось, «контроль качества» в виде толпы индусов и делал эти модели, которые затем продавались пользователям под видом сгенерированных ИИ.

Наработки крупных компаний вроде OpenAI с их Point-E и Google с DreamFusion были опубликованы давно — ещё в 2022 году — и, хотя были инновационными для своего времени, с тех пор устарели и не превратились в полноценный рабочий сервис.

Однако всего за какие-то последние полгода ситуация сильно поменялась. Появляются простые и дешёвые решения, которые способны из картинки или текстового запроса сгенерировать модель с вменяемой топологией.

Первыми коммерческую нишу заняли стартапы вроде Meshy или Masterpiece X, которые зарабатывают на подписке, «продавая» виртуальные кредиты на генерацию. В игру вступили и более крупные игроки вроде Stability и Luma, выпустив свои сервисы — Tripo и Genie соответственно. Недавно Nvidia на European Conference on Computer Vision показывала свой экспериментальный сервис LATTE3D.

И вот теперь начинается новый этап развития генерации 3Д-моделей. Буквально несколько дней назад Microsoft запустила бесплатную нейросеть Trellis, которая доступна всем желающим (в том числе и для локального запуска) и может не только создавать объекты, но и модифицировать их по текстовому запросу. Более того, вам не нужна для этого рендер-ферма — достаточно видеокарты Nvidia с 16 гигабайтами видеопамяти, что вполне доступно даже для фрилансеров, не говоря уже про малый или средний бизнес.

Результаты пока не идеальны, но становится видно, что генерация 3Д представляет уже не просто исследовательский интерес, но становится трендом. И, вероятнее всего, скоро стоит ждать модели от других крупных игроков.

А вот Россия, к сожалению, сильно отстаёт — до сих пор нет ни одного готового решения в этой области. Да, есть более нишевое ПО — вроде нейросети для построения 3Д-моделей месторождений полезных ископаемых на основе сейсмических данных — но это совсем другая история.

И пускай запрос на генерацию 3Д-моделей куда ниже, чем на генерацию текста, картинок или даже видео — но и аудитория у таких сервисов совсем другая. Это студии и фрилансеры, которые готовы использовать нейросети как инструмент для работы, и потому заплатят за удобный, надёжный и экономящий время сервис куда больше, чем обычные пользователи готовы платить за подписку OpenAI. Особенно полезны такие сервисы будут для развития российского геймдева (о котором так много разговоров в последнее время), ведь на рынке сейчас мало специалистов и стоят они дорого.
👍1