Что за Manus и почему вокруг него столько шума
На днях китайский стартап Monica.im представил платформу Manus (в переводе с латинского «рука», то бишь сервис должен стать вашими цифровыми руками). Это очередной агент, который автономно выполняет задачи пользователя. Собственно, но этом можно и закончить… Но лучше использовать этот инфоповод, чтобы поговорить об автономных агентах в целом.
Некоторое время назад у OpenAI вышел Operator – амбициозный и бесполезный сервис, который призван решать в Интернете важные задачи вместо пользователя. Нужно заказать столик в ресторане? Написали детали чат-боту, а он сам пойдёт на сайт и выполнит все необходимые шаги. Такие удивительные возможности – и всего за 200 долларов в месяц.
Manus же стал китайской копией Operator от OpenAI: это такой же агент, который запускается на удалённом сервере с линуксом, ходит за пользователя на сайты и пытается выполнять там какие-то действия. Судить о работе пока можно только по отобранным примерам с сайта компании – сервис работает по приглашению, и на нашу заявку на получение доступа никто не ответил.
У всех подобных сервисов есть несколько фундаментальных проблем:
• пользователь арендует удалённый сервер, передавая свои чувствительные данные третьим лицам
• на этом сервере работает ИИ-модель, с трудом понимающая, что она делает
• этот ИИ, как слепой котёнок, идёт по первым ссылкам из поисковой выдачи.
Он кликает на кнопки, ошибается, пробует снова – и изо всех сил пытается выполнить действия, на которые у пользователя уйдут несколько минут. Ещё и совершая ошибки в процессе.
Более того, сам сервис требует постоянного контроля – нужно оставаться на связи, авторизовываться, отвечать на уточняющие вопросы. И ради чего? Бронь авиабилета ему всё равно не доверить, потому что нужно несколько раз перепроверить введённые данные, добавить ID бонусной программы и подтвердить транзакцию. Поиск информации и работа с документами давно уже есть в Perplexity и подобных сервисах, которые делают то же самое быстрее и понятнее.
Пока Manus, Operator, Computer Use от Claude, UI-TARS от Bytedance, Proxy от Convergence и так далее – просто proof of concept, технические демо-версии, которые сделаны скорее с исследовательскими целями. Пишут про них не потому, что «появился новый полезный продукт», а потому что «хайп».
Гораздо более логичным выглядит подход Perplexity, Яндекса и Google, которые работают не с интерфейсом виртуального браузера, а с полученными напрямую (по API или через парсинг) данными. В случае Яндекса и Google – ещё и в рамках собственной экосистемы, где они могут наладить бесшовный обмен данными между разными сервисами, обеспечив как раз возможность и покупать билеты, и арендовать столики в ресторанах, и заказывать еду. И если здесь видно будущее развитие агентов, то у сервисов, которые пользуются виртуальным браузером и симулируют поведение людей, оно пока туманное.
На днях китайский стартап Monica.im представил платформу Manus (в переводе с латинского «рука», то бишь сервис должен стать вашими цифровыми руками). Это очередной агент, который автономно выполняет задачи пользователя. Собственно, но этом можно и закончить… Но лучше использовать этот инфоповод, чтобы поговорить об автономных агентах в целом.
Некоторое время назад у OpenAI вышел Operator – амбициозный и бесполезный сервис, который призван решать в Интернете важные задачи вместо пользователя. Нужно заказать столик в ресторане? Написали детали чат-боту, а он сам пойдёт на сайт и выполнит все необходимые шаги. Такие удивительные возможности – и всего за 200 долларов в месяц.
Manus же стал китайской копией Operator от OpenAI: это такой же агент, который запускается на удалённом сервере с линуксом, ходит за пользователя на сайты и пытается выполнять там какие-то действия. Судить о работе пока можно только по отобранным примерам с сайта компании – сервис работает по приглашению, и на нашу заявку на получение доступа никто не ответил.
У всех подобных сервисов есть несколько фундаментальных проблем:
• пользователь арендует удалённый сервер, передавая свои чувствительные данные третьим лицам
• на этом сервере работает ИИ-модель, с трудом понимающая, что она делает
• этот ИИ, как слепой котёнок, идёт по первым ссылкам из поисковой выдачи.
Он кликает на кнопки, ошибается, пробует снова – и изо всех сил пытается выполнить действия, на которые у пользователя уйдут несколько минут. Ещё и совершая ошибки в процессе.
Более того, сам сервис требует постоянного контроля – нужно оставаться на связи, авторизовываться, отвечать на уточняющие вопросы. И ради чего? Бронь авиабилета ему всё равно не доверить, потому что нужно несколько раз перепроверить введённые данные, добавить ID бонусной программы и подтвердить транзакцию. Поиск информации и работа с документами давно уже есть в Perplexity и подобных сервисах, которые делают то же самое быстрее и понятнее.
Пока Manus, Operator, Computer Use от Claude, UI-TARS от Bytedance, Proxy от Convergence и так далее – просто proof of concept, технические демо-версии, которые сделаны скорее с исследовательскими целями. Пишут про них не потому, что «появился новый полезный продукт», а потому что «хайп».
Гораздо более логичным выглядит подход Perplexity, Яндекса и Google, которые работают не с интерфейсом виртуального браузера, а с полученными напрямую (по API или через парсинг) данными. В случае Яндекса и Google – ещё и в рамках собственной экосистемы, где они могут наладить бесшовный обмен данными между разными сервисами, обеспечив как раз возможность и покупать билеты, и арендовать столики в ресторанах, и заказывать еду. И если здесь видно будущее развитие агентов, то у сервисов, которые пользуются виртуальным браузером и симулируют поведение людей, оно пока туманное.
🔥2
Gemma 3: ещё больше возможностей при малых ресурсах
Google выпустил новую модель ИИ Gemma 3. Главная фишка этой модели – способность работать на одном графическом процессоре (GPU или TPU). В итоге модель тратит меньше ресурсов, чем конкуренты, и показывает более высокие результаты. Gemma 3 может эффективно работать на обычном ноутбуке или даже смартфоне – этот трек кажется логичным развитием Gemini Nano, которая интегрируется в смартфоны Pixel и работает на них локально. Правда, есть большая разница: если Gemini проприетарная модель компании, то Gemma выложена в открытый доступ.
Это хорошая новость для бизнеса, который сможет ещё дешевле локально разворачивать ИИ для своих нужд: очень часто для этого не нужны мощности топовых моделей от OpenAI или Anthropic. Подобный тренд мы видим у всех игроков рынка.
Технически Gemma 3 впечатляет: она поддерживает анализ текста, изображений и даже коротких видео (по заявлениям Google, в AI Studio такого функционала нет), работает с более чем 35 языками из коробки, без файнтюна, и имеет большое контекстное окно в 128000 токенов. В ходе тестов оказалась, что она неплохо понимает русский язык, решает уравнения и пишет код (калькулятор с интерфейсом на Питоне написала сразу и без ошибок). Модель предлагается в разных размерах — от компактной версии 1B до более мощных с 27 миллиардами параметров.
За год с момента выпуска первой версии в экосистеме Gemma уже более 100 миллионов загрузок и более 60000 вариантов моделей “Gemmaverse” – доработанных сообществом под определённые задачи.
Google выпустил новую модель ИИ Gemma 3. Главная фишка этой модели – способность работать на одном графическом процессоре (GPU или TPU). В итоге модель тратит меньше ресурсов, чем конкуренты, и показывает более высокие результаты. Gemma 3 может эффективно работать на обычном ноутбуке или даже смартфоне – этот трек кажется логичным развитием Gemini Nano, которая интегрируется в смартфоны Pixel и работает на них локально. Правда, есть большая разница: если Gemini проприетарная модель компании, то Gemma выложена в открытый доступ.
Это хорошая новость для бизнеса, который сможет ещё дешевле локально разворачивать ИИ для своих нужд: очень часто для этого не нужны мощности топовых моделей от OpenAI или Anthropic. Подобный тренд мы видим у всех игроков рынка.
Технически Gemma 3 впечатляет: она поддерживает анализ текста, изображений и даже коротких видео (по заявлениям Google, в AI Studio такого функционала нет), работает с более чем 35 языками из коробки, без файнтюна, и имеет большое контекстное окно в 128000 токенов. В ходе тестов оказалась, что она неплохо понимает русский язык, решает уравнения и пишет код (калькулятор с интерфейсом на Питоне написала сразу и без ошибок). Модель предлагается в разных размерах — от компактной версии 1B до более мощных с 27 миллиардами параметров.
За год с момента выпуска первой версии в экосистеме Gemma уже более 100 миллионов загрузок и более 60000 вариантов моделей “Gemmaverse” – доработанных сообществом под определённые задачи.
👍2
Зачем нужны такие вложения? С одной стороны, Google диверсифицирует риски, получает доход от растущих стартапов и доступ к передовым технологиям. Но есть и более интересная цель – дело в том, что Anthropic покупает значительные объемы вычислительных мощностей у своих крупных инвесторов, Google (14%) и Amazon (8%). То есть компания, по сути, перекладывает деньги себе же в карманы, обеспечивая параллельно дополнительный спрос на облачные вычисления.
Это подтверждает и тот факт, что ни голосующих прав, ни места в совете у Google нет – даже став крупным акционером (с долей в 14% и возможностью увеличить ее до 15%), они намеренно решили остаться «в тени», чтобы не вызывать вопросов регуляторов. При этом уже в сентябре 2025 года Google планирует внести в Anthropic еще 750 миллионов долларов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Ритм (13.03.2025)
CR AI
Утренний #нейротрек
Сегодня слушаем «Ритм» – симфонию современного города, где каждый бит рассказывает историю о движении вперёд
Сегодня слушаем «Ритм» – симфонию современного города, где каждый бит рассказывает историю о движении вперёд
Искусственный интеллект – это просто пузырь?
У коллег из WSJ вышла статья, приуроченная к 25-летнему «юбилею» краха пузыря доткомов. Конечно, в контексте сегодняшнего дня – где появился новый потенциальный пузырь в виде технологий ИИ.
Аналогия оправдана – мы писали и про отсутствие ROI от внедрения ИИ, и про растущие на этом фоне год от года инвестиции в ИИ-стартапы (а только в прошлом году 8 из 10 крупнейших раундов привлечения инвестиций в мире достались ИИ-компаниям). Несмотря на отсутствие понимания, как именно внедрить искусственный интеллект и оправдать затраты на обучение и инференс моделей, рынок активно растёт.
Чего только стоят громкие заявления Сэма Альтмана, который, косплея Адама Ньюмана из WeWork, планирует в ближайшем будущем привлекать инвестиции уже не миллиардрами, но триллионами. И это на том фоне, что убыточной остаётся даже подписка за 200 долларов в месяц, а большая часть пользователей ChatGPT (да и других сервисов) пользуются бесплатными версиями продуктов.
В статье WSJ пишут о «хороших» и «плохих» пузырях. В рамках первых финансирование получают революционные технологии, которые по итогу провоцируют трансформацию рынка (пускай и не так быстро, как этого ожидают отдельные компании и инвесторы). Только вряд ли «хорошим» посчитают пузырь компании и государства, которые тратят огромные деньги на проекты по развитию ИИ, делая ставку на будущий рост производительности труда и «просачивание» технологии в другие сферы вместе с ростом спроса.
Множество дата-центров строятся только для того, чтобы компании могли увеличивать число параметров моделей ИИ, которые в свою очередь нужно выпускать для того, чтобы не отстать в технологической гонке и не потерять пользователей на конкурентном и (пока ещё) переоценённом рынке без понятных способов монетизации. Стартапы сейчас думают исключительно о технологии и продуктах, в которые эту технологию можно будет красиво упаковать – а дальше пользователи и бизнес должны уже сами придумывать, как и что с этим сделать. Так появился, например, Operator.
На этом фоне куда более взвешенным кажется подход российских компаний. Тот же Яндекс точечно внедряет ИИ в продукты своей экосистемы, делая ставку не на агентные системы (по крайней мере, пока), а на ИИ как инструмент, облегчающий жизнь пользователям. Делается это в рамках поиска, работы с информацией в Интернете, редактуры текстов. Коллеги недавно писали про УТП Яндекса, который отдаёт приоритет не технологии в вакууме, а опыту пользователя, взаимодействующего с ней.
Пока рано говорить однозначно о том, есть ли пузырь на рынке ИИ или он только надувается. Но можно согласиться с тем, что полученные сейчас инфраструктура и технологии останутся и в перспективе действительно смогут повысить производительность труда во всём мире. Только когда это будет? Одно радует – производительность труда отдельных людей, генерирующих тексты и картинки, ИИ повышает уже сейчас. И над монетизацией технологии пользователям ломать голову не нужно.
У коллег из WSJ вышла статья, приуроченная к 25-летнему «юбилею» краха пузыря доткомов. Конечно, в контексте сегодняшнего дня – где появился новый потенциальный пузырь в виде технологий ИИ.
Аналогия оправдана – мы писали и про отсутствие ROI от внедрения ИИ, и про растущие на этом фоне год от года инвестиции в ИИ-стартапы (а только в прошлом году 8 из 10 крупнейших раундов привлечения инвестиций в мире достались ИИ-компаниям). Несмотря на отсутствие понимания, как именно внедрить искусственный интеллект и оправдать затраты на обучение и инференс моделей, рынок активно растёт.
Чего только стоят громкие заявления Сэма Альтмана, который, косплея Адама Ньюмана из WeWork, планирует в ближайшем будущем привлекать инвестиции уже не миллиардрами, но триллионами. И это на том фоне, что убыточной остаётся даже подписка за 200 долларов в месяц, а большая часть пользователей ChatGPT (да и других сервисов) пользуются бесплатными версиями продуктов.
В статье WSJ пишут о «хороших» и «плохих» пузырях. В рамках первых финансирование получают революционные технологии, которые по итогу провоцируют трансформацию рынка (пускай и не так быстро, как этого ожидают отдельные компании и инвесторы). Только вряд ли «хорошим» посчитают пузырь компании и государства, которые тратят огромные деньги на проекты по развитию ИИ, делая ставку на будущий рост производительности труда и «просачивание» технологии в другие сферы вместе с ростом спроса.
Множество дата-центров строятся только для того, чтобы компании могли увеличивать число параметров моделей ИИ, которые в свою очередь нужно выпускать для того, чтобы не отстать в технологической гонке и не потерять пользователей на конкурентном и (пока ещё) переоценённом рынке без понятных способов монетизации. Стартапы сейчас думают исключительно о технологии и продуктах, в которые эту технологию можно будет красиво упаковать – а дальше пользователи и бизнес должны уже сами придумывать, как и что с этим сделать. Так появился, например, Operator.
На этом фоне куда более взвешенным кажется подход российских компаний. Тот же Яндекс точечно внедряет ИИ в продукты своей экосистемы, делая ставку не на агентные системы (по крайней мере, пока), а на ИИ как инструмент, облегчающий жизнь пользователям. Делается это в рамках поиска, работы с информацией в Интернете, редактуры текстов. Коллеги недавно писали про УТП Яндекса, который отдаёт приоритет не технологии в вакууме, а опыту пользователя, взаимодействующего с ней.
Пока рано говорить однозначно о том, есть ли пузырь на рынке ИИ или он только надувается. Но можно согласиться с тем, что полученные сейчас инфраструктура и технологии останутся и в перспективе действительно смогут повысить производительность труда во всём мире. Только когда это будет? Одно радует – производительность труда отдельных людей, генерирующих тексты и картинки, ИИ повышает уже сейчас. И над монетизацией технологии пользователям ломать голову не нужно.
🔥1😁1
Вышел новый GigaChat
С релизом GigaChat 2.0 чуда не произошло. Конкретики в анонсе минимум, зато есть утверждение, что эта модель «сильнейшая на русском языке». Основанием стал бенчмарк, где нет моделей Яндекса (да и кучи других).
Можно похвалить команду за увеличение контекстного окна – точный размер токенов не говорят, но теперь вроде как модель воспринимает 200 страниц текста против 48 у предыдущей версии.
Попробовать GigaChat 2 можно в кабинете разработчика. Удручает низкая скорость вывода токенов. Есть надежда, что она увеличится после появления версии 2 на сайте. Сервис бесплатный – пользоваться моделью может любой желающий.
Что с тестами? Задачу из курса алгебры 9 класса он решить не смог. Yandex GPT 5 Pro и Gemma справились. Хотя, возможно, это просто случайность, потому что на другой задаче дали неверный ответ уже все 3 модели – предметы из 9 класса пока даются им с трудом.
С просьбой написать код калькулятора на Питоне он справился не с первого раза – сначала вообще не смог вывести код полностью, потому что не хватило токенов, потом пытался исправить ошибку, и только после просьбы написать всё заново у него получилось.
С изменением стиля, написанием и сокращением текста работает неплохо, хотя не всегда следует задаче, начинает галлюцинировать и придумывать текст от себя. Переводить с английского и обратно умеет – результат не слишком художественный, но смысл сохраняется даже у сложных предложений.
Сейчас главный минус GigaChat – отсутствие доступа в Интернет, из-за чего он имеет весьма ограниченное понимание мира при ответах на вопросы и работе с данными. Возможно, для редактуры и переписывания текста это неплохой инструмент, но пока не совсем понятно, как ещё его использовать и зачем.
С релизом GigaChat 2.0 чуда не произошло. Конкретики в анонсе минимум, зато есть утверждение, что эта модель «сильнейшая на русском языке». Основанием стал бенчмарк, где нет моделей Яндекса (да и кучи других).
Можно похвалить команду за увеличение контекстного окна – точный размер токенов не говорят, но теперь вроде как модель воспринимает 200 страниц текста против 48 у предыдущей версии.
Попробовать GigaChat 2 можно в кабинете разработчика. Удручает низкая скорость вывода токенов. Есть надежда, что она увеличится после появления версии 2 на сайте. Сервис бесплатный – пользоваться моделью может любой желающий.
Что с тестами? Задачу из курса алгебры 9 класса он решить не смог. Yandex GPT 5 Pro и Gemma справились. Хотя, возможно, это просто случайность, потому что на другой задаче дали неверный ответ уже все 3 модели – предметы из 9 класса пока даются им с трудом.
С просьбой написать код калькулятора на Питоне он справился не с первого раза – сначала вообще не смог вывести код полностью, потому что не хватило токенов, потом пытался исправить ошибку, и только после просьбы написать всё заново у него получилось.
С изменением стиля, написанием и сокращением текста работает неплохо, хотя не всегда следует задаче, начинает галлюцинировать и придумывать текст от себя. Переводить с английского и обратно умеет – результат не слишком художественный, но смысл сохраняется даже у сложных предложений.
Сейчас главный минус GigaChat – отсутствие доступа в Интернет, из-за чего он имеет весьма ограниченное понимание мира при ответах на вопросы и работе с данными. Возможно, для редактуры и переписывания текста это неплохой инструмент, но пока не совсем понятно, как ещё его использовать и зачем.
👍2🔥1
ИИ объединяет
МТС и Kokoc Group решили заключить стратегическое партнёрство, и одна из причин – ИИ. Они собираются добавить искусственный интеллект и другие инструменты от МТС AdTech на платформу Vitamin tools, которая нужна для управления рекламными компаниями.
Главная задумка – дать пользователям возможность автоматической генерации и модерации рекламных креативов в Telegram Ads. Хотя, конечно, ещё важнее в данном случае наработки МТС в машинном обучении и больших данных.
Это общий тренд по рынку – на других рекламных площадках в России уже есть похожие функции. В Директе, например, можно генерировать объявление целиком вместе с картинкой. И вроде бы сделанные ИИ объявления на 5% эффективнее обычных… Но нужно понимать, что эта цифра «в среднем по больнице».
МТС и Kokoc Group решили заключить стратегическое партнёрство, и одна из причин – ИИ. Они собираются добавить искусственный интеллект и другие инструменты от МТС AdTech на платформу Vitamin tools, которая нужна для управления рекламными компаниями.
Главная задумка – дать пользователям возможность автоматической генерации и модерации рекламных креативов в Telegram Ads. Хотя, конечно, ещё важнее в данном случае наработки МТС в машинном обучении и больших данных.
Это общий тренд по рынку – на других рекламных площадках в России уже есть похожие функции. В Директе, например, можно генерировать объявление целиком вместе с картинкой. И вроде бы сделанные ИИ объявления на 5% эффективнее обычных… Но нужно понимать, что эта цифра «в среднем по больнице».
👍1
Уже немного надоело писать про Google, но они сейчас главные ньюсмейкеры в мире ИИ. Компания представила очередное масштабное обновление экосистемы Gemini.
1) Теперь все аккаунты, даже без подписки, получают доступ к Gems — персонализированным версиям Gemini, оптимизированным для конкретных задач. Готовые шаблоны должны помочь в планировании, карьерном росте, кодинге и учёбе. Прикольно, хотя всего того же можно было добиться и раньше с помощью инструкций в чате.
2) Deep Research тоже теперь доступен всем и работает на обновлённой модели Gemini. Это сервис для углублённого поиска информации в Интернете и подготовке «отчётов» на заданную тему.
3) Интеграция с сервисами Google была доступна и ранее – Gemini могла искать информацию в поиске, Ютубе, музыке и так далее. Функция обновилась, приобрела название Personalization и начала видеть историю поисковых запросов пользователей. Это должно сделать ответы Gemini более персонализированными и релевантными. Как и в Алисе Яндекса, можно спрашивать погоду, последние новости и получать более «личную» выдачу.
4) Отдельно стоит отметить экспериментальную версию Gemini 2.0 Flash с мультимодальными возможностями, позволяющую редактировать изображения прямо в чате. Можно заменить фон, добавить надпись, сделать раскадровку, изменить цвет одежды, прическу и т.д. – получается не слишком деструктивный редактор, который вносит изменения точечно. Функция пока экспериментальная, но в будущем, вероятно, заменит привычную обработку фотографий.
5) Не забыли про разработчиков – теперь можно просто загрузить скриншот приложения в Gemini in Android Studio и конвертировать его в код. Это должно облегчить прототипирование и разработку под Android.
P.S. Кратко стоит упомянуть про Gemini Robotics. Если верить бенчмаркам, это лучшая моделью для робототехники. Роботы теперь могут общаться, анализировать ситуацию, делать даже те задачи, которым их не обучали, и совершать требующие мелкой моторики действия.
1) Теперь все аккаунты, даже без подписки, получают доступ к Gems — персонализированным версиям Gemini, оптимизированным для конкретных задач. Готовые шаблоны должны помочь в планировании, карьерном росте, кодинге и учёбе. Прикольно, хотя всего того же можно было добиться и раньше с помощью инструкций в чате.
2) Deep Research тоже теперь доступен всем и работает на обновлённой модели Gemini. Это сервис для углублённого поиска информации в Интернете и подготовке «отчётов» на заданную тему.
3) Интеграция с сервисами Google была доступна и ранее – Gemini могла искать информацию в поиске, Ютубе, музыке и так далее. Функция обновилась, приобрела название Personalization и начала видеть историю поисковых запросов пользователей. Это должно сделать ответы Gemini более персонализированными и релевантными. Как и в Алисе Яндекса, можно спрашивать погоду, последние новости и получать более «личную» выдачу.
4) Отдельно стоит отметить экспериментальную версию Gemini 2.0 Flash с мультимодальными возможностями, позволяющую редактировать изображения прямо в чате. Можно заменить фон, добавить надпись, сделать раскадровку, изменить цвет одежды, прическу и т.д. – получается не слишком деструктивный редактор, который вносит изменения точечно. Функция пока экспериментальная, но в будущем, вероятно, заменит привычную обработку фотографий.
5) Не забыли про разработчиков – теперь можно просто загрузить скриншот приложения в Gemini in Android Studio и конвертировать его в код. Это должно облегчить прототипирование и разработку под Android.
P.S. Кратко стоит упомянуть про Gemini Robotics. Если верить бенчмаркам, это лучшая моделью для робототехники. Роботы теперь могут общаться, анализировать ситуацию, делать даже те задачи, которым их не обучали, и совершать требующие мелкой моторики действия.
👍1