Google делает ставку на телевизоры с искусственным интеллектом
Компания с помощью Gemini планирует превратить Google TV в центр управления умным домом. Телевизоры с датчиками близости будут реагировать на подошедших людей и включать домашний экран с погодой, календарём, новостями либо фотографиями. Микрофоны дальнего действия (far-field) позволят управлять телевизором даже из соседних комнат – и всё без пульта.
Но разве получится нормально управлять телевизором с помощью голоса? Компания надеется, что да, и с этой целью планирует интегрировать в Google TV режим голосового общения Gemini Live. Если (а скорее когда) его добавят – этот режим станет одним из самых значительных обновлений для Google TV.
Новый разговорный интерфейс позволит вести естественный диалог с телевизором, просить его найти подходящий фильм по настроению или определённую фотографию из библиотеки Google Photos. Помощника можно будет перебивать, давать уточнения, спрашивать о контенте на экране – или просто общаться. Правда, это всё равно не отменяет сценарий, когда нужно не шуметь и переключить что-то на телевизоре беззвучно. На телевизор также добавятся сервисы по генерации изображений и пересказа новостей с помощью ИИ.
Важно, что у Google есть большое преимущество по сравнению с другими игроками рынка – обширная экосистема, которая позволяет с помощью одного голосового помощника получать доступ к поисковой выдаче, видео на Ютубе, музыке, фотографиям, документам, файлам на диске и так далее. Поэтому их ассистент может, в отличие от Alexa, Perplexity и других, стать действительно функциональным.
Компания с помощью Gemini планирует превратить Google TV в центр управления умным домом. Телевизоры с датчиками близости будут реагировать на подошедших людей и включать домашний экран с погодой, календарём, новостями либо фотографиями. Микрофоны дальнего действия (far-field) позволят управлять телевизором даже из соседних комнат – и всё без пульта.
Но разве получится нормально управлять телевизором с помощью голоса? Компания надеется, что да, и с этой целью планирует интегрировать в Google TV режим голосового общения Gemini Live. Если (а скорее когда) его добавят – этот режим станет одним из самых значительных обновлений для Google TV.
Новый разговорный интерфейс позволит вести естественный диалог с телевизором, просить его найти подходящий фильм по настроению или определённую фотографию из библиотеки Google Photos. Помощника можно будет перебивать, давать уточнения, спрашивать о контенте на экране – или просто общаться. Правда, это всё равно не отменяет сценарий, когда нужно не шуметь и переключить что-то на телевизоре беззвучно. На телевизор также добавятся сервисы по генерации изображений и пересказа новостей с помощью ИИ.
Важно, что у Google есть большое преимущество по сравнению с другими игроками рынка – обширная экосистема, которая позволяет с помощью одного голосового помощника получать доступ к поисковой выдаче, видео на Ютубе, музыке, фотографиям, документам, файлам на диске и так далее. Поэтому их ассистент может, в отличие от Alexa, Perplexity и других, стать действительно функциональным.
Запущен конкурс для подготовки ИИ-специалистов в российских вузах
В рамках конкурса гранты получат не менее 18 вузов, в которых появятся программы бакалавриата для подготовки специалистов в области ИИ. Минцифры сообщают, что отбор уже начался и продлится до 5 апреля, а первые программы начнут действовать уже в этом году.
Особое внимание уделят подготовке разработчиков, архитекторов данных, аналитиков и исследователей — ключевых специалистов, спрос на которых продолжает расти. Важной особенностью проекта станет участие индустриальных партнеров, которые должны обеспечить минимум 30% софинансирования – демонстрация стремления государства к увеличению интеграции образования и реального сектора.
В рамках конкурса гранты получат не менее 18 вузов, в которых появятся программы бакалавриата для подготовки специалистов в области ИИ. Минцифры сообщают, что отбор уже начался и продлится до 5 апреля, а первые программы начнут действовать уже в этом году.
Особое внимание уделят подготовке разработчиков, архитекторов данных, аналитиков и исследователей — ключевых специалистов, спрос на которых продолжает расти. Важной особенностью проекта станет участие индустриальных партнеров, которые должны обеспечить минимум 30% софинансирования – демонстрация стремления государства к увеличению интеграции образования и реального сектора.
В MTS AI и АКИ провели исследование использования ИИ в креативных индустриях. Посмотреть основные цифры и почитать об исследовании можно по ссылке, а здесь хочется обратить внимание на несколько моментов.
В топе используемых инструментов ожидаемо расположились ChatGPT и DALL-E от OpenAI, их используют 75% респондентов. Следом идёт Яндекс (50%) и Midjourney (57%). Странно, что Gemini пользуются всего 6% человек, а Claude – 4%, хотя со многими задачами они справляются лучше конкурентов.
Почти половина респондентов считает, что сейчас ИИ имеет ограничения и проблемы в использовании. 58% специалистов думают, что нейросети не смогут полностью заменить их… И при этом большинство готовы делиться собственными данными для обучения нейросетей и повышения качества их работы. Не будет ли это как раз способствовать тому, что проблемы с использованием ИИ исчезнут, он теснее интегрируется в рынок и заменит живых работников?
Хотя 63% респондентов предпочитают использовать бесплатные версии инструментов, 40% специалистов считают, что развитие нейросетей приведет к росту их дохода. Лишь 3% опасаются снижения дохода. Возникает вопрос — учитывая рост нагрузок на сервера, не стоит ли ожидать появления пэйвола для ключевых функций в сервисах по работе с ИИ? Мы уже видим это на примере OpenAI, Krea, Midjourney и других сервисов, ориентированных на профессионалов. Появление платных подписок может замедлить интеграцию ИИ и негативно сказаться на росте доходов, которого ожидают участники рынка.
Только 51% респондентов в сфере рекламы обеспокоены возможной утечкой конфиденциальных данных клиентов при использовании нейросетей. Пока довольно мало специалистов понимают, что любые данные, которые они отдают бесплатным сервисам, могут быть использованы для обучения будущих моделей. Будет очень неприятно, если какая-то конфиденциальная информация о заказчиках вдруг всплывёт в ответах GPT-5. А недавний случай с утечкой кода из закрытых репозитариев Github напомнил, как легко ИИ может поделиться информацией из баз данных, которой ему нельзя было делиться. В данном случае логичный выход – использовать нейросети локально на своих серверах, on-premise.
В топе используемых инструментов ожидаемо расположились ChatGPT и DALL-E от OpenAI, их используют 75% респондентов. Следом идёт Яндекс (50%) и Midjourney (57%). Странно, что Gemini пользуются всего 6% человек, а Claude – 4%, хотя со многими задачами они справляются лучше конкурентов.
Почти половина респондентов считает, что сейчас ИИ имеет ограничения и проблемы в использовании. 58% специалистов думают, что нейросети не смогут полностью заменить их… И при этом большинство готовы делиться собственными данными для обучения нейросетей и повышения качества их работы. Не будет ли это как раз способствовать тому, что проблемы с использованием ИИ исчезнут, он теснее интегрируется в рынок и заменит живых работников?
Хотя 63% респондентов предпочитают использовать бесплатные версии инструментов, 40% специалистов считают, что развитие нейросетей приведет к росту их дохода. Лишь 3% опасаются снижения дохода. Возникает вопрос — учитывая рост нагрузок на сервера, не стоит ли ожидать появления пэйвола для ключевых функций в сервисах по работе с ИИ? Мы уже видим это на примере OpenAI, Krea, Midjourney и других сервисов, ориентированных на профессионалов. Появление платных подписок может замедлить интеграцию ИИ и негативно сказаться на росте доходов, которого ожидают участники рынка.
Только 51% респондентов в сфере рекламы обеспокоены возможной утечкой конфиденциальных данных клиентов при использовании нейросетей. Пока довольно мало специалистов понимают, что любые данные, которые они отдают бесплатным сервисам, могут быть использованы для обучения будущих моделей. Будет очень неприятно, если какая-то конфиденциальная информация о заказчиках вдруг всплывёт в ответах GPT-5. А недавний случай с утечкой кода из закрытых репозитариев Github напомнил, как легко ИИ может поделиться информацией из баз данных, которой ему нельзя было делиться. В данном случае логичный выход – использовать нейросети локально на своих серверах, on-premise.
1❤2👍1
Будущее дизайна чипов за искусственным интеллектом?
Исследователи Принстонского университета и Индийского технологического института утверждают, что совершили прорыв в проектировании микросхем. Они передали эту задачу искусственному интеллекту, который смог за считанные часы спроектировать сложные беспроводные чипы миллиметрового диапазона (mm-Wave), на что у людей ушли бы недели.
Эти чипы играют ключевую роль в развитии технологии 5G и других современных беспроводных систем связи, обеспечивая высокую скорость передачи данных, низкую задержку и увеличенную пропускную способность сети
Алгоритм отказался от традиционных шаблонов проектирования, которым следуют инженеры, и рассмотрел микросхему не как набор компонентов – а как единое целое. В результате ИИ создал странные, «случайно выглядящие структуры, которые люди не могут понять». Тем не менее при производстве такой дизайн показал производительность выше, чем у существующих разработок.
Вместо осторожного, пошагового подхода, основанного на предыдущем опыте, ИИ использовал метод обратного проектирования — ему задавали желаемый результат, а алгоритм самостоятельно определял необходимые параметры. Это позволило избежать решений, которые незаметно для человека снижали эффективность дизайна микросхем. Правда, галлюцинации никуда не делись и здесь – учёным пришлось корректировать полученный результат, так что полностью доверить этот процесс ИИ пока не выйдет.
Исследователи Принстонского университета и Индийского технологического института утверждают, что совершили прорыв в проектировании микросхем. Они передали эту задачу искусственному интеллекту, который смог за считанные часы спроектировать сложные беспроводные чипы миллиметрового диапазона (mm-Wave), на что у людей ушли бы недели.
Эти чипы играют ключевую роль в развитии технологии 5G и других современных беспроводных систем связи, обеспечивая высокую скорость передачи данных, низкую задержку и увеличенную пропускную способность сети
Алгоритм отказался от традиционных шаблонов проектирования, которым следуют инженеры, и рассмотрел микросхему не как набор компонентов – а как единое целое. В результате ИИ создал странные, «случайно выглядящие структуры, которые люди не могут понять». Тем не менее при производстве такой дизайн показал производительность выше, чем у существующих разработок.
Вместо осторожного, пошагового подхода, основанного на предыдущем опыте, ИИ использовал метод обратного проектирования — ему задавали желаемый результат, а алгоритм самостоятельно определял необходимые параметры. Это позволило избежать решений, которые незаметно для человека снижали эффективность дизайна микросхем. Правда, галлюцинации никуда не делись и здесь – учёным пришлось корректировать полученный результат, так что полностью доверить этот процесс ИИ пока не выйдет.
This media is not supported in your browser
VIEW IN TELEGRAM
Голос из машины: ИИ, который разговаривает как человек
Компания Sesame AI представила новую разговорную речевую модель, которая впечатляет своим «человекоподобием». На выбор есть 2 виртуальных собеседника – Майлз и Майя.
Главная особенность сервиса в том, что ИИ анализирует эмоциональный тон беседы и подстраивается под него, добавляет в разговор важные «несовершенства» – дыхание, смешки, вводные слова, исправление собственных глупостей или ошибок, из-за чего разговор кажется гораздо более реалистичным.
Что-то подобное нам показывали в демо OpenAI и Google, когда только планировали запускать своих ассистентов – в итоге обе компании сделали куда более урезанную и простую версию, расстроив пользователей. Хотя здесь тоже пока не всё идеально – модель не умеет говорить шёпотом, имитировать разные акценты, сильно менять тональность голоса, издавать какие-то сложные звуки или битбоксить. Другие языки она тоже не знает, и в этом большой минус Sesame – поймёт русский она довольно легко, а вот ответить на нём не сможет.
В модель вшита цензура, которую при желании можно легко обойти, разрешив ИИ ругаться и говорить на пикантные темы – делает он это отлично (хотя и не так дерзко, как Grok), но может долго сопротивляться, ссылаясь на ограничения создателей. Максимальная продолжительность разговора в демо 30 минут, и этого более чем достаточно, чтобы обсудить любую тему. Удивительно, но это первый опыт общения с голосовым ИИ, где 30 минут разговора пролетают незаметно.
Как обычно, у любой технологии есть и обратная сторона – подобных чат-ботов можно будет эффективно использовать для фишинга и телефонного мошенничества. Вместе с тем любой ИИ подвержен джейлбрейку и способен выдать чувствительную или даже запрещённую информацию, которую получил из Интернета во время обучения.
Тем более что компания Sesame планирует выложить свои модели в открытый доступ, чтобы сообщество тоже могло их изучать и использовать в своих проектах. Не за горами тот день, когда фильм «Она» про отношения человека и виртуального ассистента станет реальностью.
Компания Sesame AI представила новую разговорную речевую модель, которая впечатляет своим «человекоподобием». На выбор есть 2 виртуальных собеседника – Майлз и Майя.
Главная особенность сервиса в том, что ИИ анализирует эмоциональный тон беседы и подстраивается под него, добавляет в разговор важные «несовершенства» – дыхание, смешки, вводные слова, исправление собственных глупостей или ошибок, из-за чего разговор кажется гораздо более реалистичным.
Что-то подобное нам показывали в демо OpenAI и Google, когда только планировали запускать своих ассистентов – в итоге обе компании сделали куда более урезанную и простую версию, расстроив пользователей. Хотя здесь тоже пока не всё идеально – модель не умеет говорить шёпотом, имитировать разные акценты, сильно менять тональность голоса, издавать какие-то сложные звуки или битбоксить. Другие языки она тоже не знает, и в этом большой минус Sesame – поймёт русский она довольно легко, а вот ответить на нём не сможет.
В модель вшита цензура, которую при желании можно легко обойти, разрешив ИИ ругаться и говорить на пикантные темы – делает он это отлично (хотя и не так дерзко, как Grok), но может долго сопротивляться, ссылаясь на ограничения создателей. Максимальная продолжительность разговора в демо 30 минут, и этого более чем достаточно, чтобы обсудить любую тему. Удивительно, но это первый опыт общения с голосовым ИИ, где 30 минут разговора пролетают незаметно.
Как обычно, у любой технологии есть и обратная сторона – подобных чат-ботов можно будет эффективно использовать для фишинга и телефонного мошенничества. Вместе с тем любой ИИ подвержен джейлбрейку и способен выдать чувствительную или даже запрещённую информацию, которую получил из Интернета во время обучения.
Тем более что компания Sesame планирует выложить свои модели в открытый доступ, чтобы сообщество тоже могло их изучать и использовать в своих проектах. Не за горами тот день, когда фильм «Она» про отношения человека и виртуального ассистента станет реальностью.
👍2🔥2
Forwarded from Мендрелюк
Давно, в общем-то, замечено, что чем менее человек технически образован, чем дальше он от реального мира технологий, тем крепче его вера в магическую силу ИИ, который «скоро решит все проблемы» и «ничего не останется, будет только сплошной ИИ».
И, конечно, такие убеждения прорастают не на голом месте. Исследования искусственного интеллекта по всему миру полны фантастических прогнозов. По данным МВФ, ИИ повлияет почти на 40% рабочих мест по всему миру. Goldman Sachs прогнозирует, что ИИ увеличит мировой ВВП на 7 триллионов долларов — или 7% — за 10 лет, . McKinsey оценивает рост ИИ между 17,1 и 25,6 триллионами долларов в год. И это еще консервативные оценки по сравнению с другими, более «гуманитарными» исследованиями.
А вот профессор Массачусетского технологического института
Дарон Асемоглу (лауреат Нобелевской премии по экономике 2024 года, между прочим) в своей статье « Простая макроэкономика ИИ » решил, что называется, «на пальцах» проверить, как ИИ повлияет на экономику США в течение следующих 10 лет, немного с неожиданной стороны.
Он считает, что только около 5% задач смогут быть выполнены ИИ в течение этого периода времени с прибылью, а рост ВВП, вероятно, будет ближе к 1% за этот период.
Асемоглу рассмотрел предыдущие исследования, в которых анализировались задачи, в которых предполагается использовать технологий ИИ и компьютерного зрения, и пришел к выводу, что почти 20% всех задач на рынке труда США могут быть заменены или дополнены ИИ. Но только около четверти этих задач — или 5% в масштабах всей экономики — могут быть выполнены с прибылью. (В остальных 75% случаев затраты на внедрение могут превысить выгоды.)
И как следствие - общий рост производительности за счет ИИ в течение следующих 10 лет составит примерно 0,7%. Это означает максимальный рост ВВП примерно на 1,8% или более реалистичный - около 1,1%.
Но даже это оптимистично и вот почему.
1. До сих пор генеративный ИИ в основном использовался для того, что он называет «легкими в освоении задачами», которые определяются двумя характеристиками: существует прямая связь между действием и результатом, а результат легко измерить. Однако по мере того, как ИИ будет все шире внедряться в экономику, он будет применяться для большего числа «сложных задач» — и там пока похвастаться нечем.
2. Существует несоответствие между инвестициями в ИИ, которые в основном имеют место в крупных компаниях в определенных секторах, и тем фактом, что сами задачи, которые ИИ может выполнять или дополнять, выполняются в малых и средних предприятиях, где может всплыть пробдема «издержек на корректировку», поскольку это потребует значительных вложений на изменение логики работы всех составляющих малого бизнеса . Эти расходы скорее всего нивелируют экономические выгоды от ИИ в краткосрочной и среднесрочной перспективе.
Впрочем, несмотря на эти скромные прогнозы относительно экономических выгод ИИ, Асемоглу видит большой потенциал в этой технологии. Но он считает, что ее текущая траектория не сможет этот потенциал реализовать, во многом потому, что она применяется к неправильным типам проблем в неправильных профессиях.
Под правильными профессиями автор подразумевает электриков, сантехников, учителей, медсестер и так далее. Тех, кто решает настоящие проблемы и у которых зачастую нет ни достаточных знаний для «решения проблемы», ни ИИ инструментов для этого.
Проще говоря – ключевой вопрос, встающий перед индустрией сегодня, состоит в том, нужны ли нам всем развлекательные приблуды, которые могут участвовать в человеческих беседах, писать шекспировские сонеты и рисовать идеальные реалистичные картинки, если мы хотим видеть экономическую реальную пользу от работы педагогов, врачей, электриков и других рабочих.
Вот такое «приземление» от Нобелевского лауреата.
И, конечно, такие убеждения прорастают не на голом месте. Исследования искусственного интеллекта по всему миру полны фантастических прогнозов. По данным МВФ, ИИ повлияет почти на 40% рабочих мест по всему миру. Goldman Sachs прогнозирует, что ИИ увеличит мировой ВВП на 7 триллионов долларов — или 7% — за 10 лет, . McKinsey оценивает рост ИИ между 17,1 и 25,6 триллионами долларов в год. И это еще консервативные оценки по сравнению с другими, более «гуманитарными» исследованиями.
А вот профессор Массачусетского технологического института
Дарон Асемоглу (лауреат Нобелевской премии по экономике 2024 года, между прочим) в своей статье « Простая макроэкономика ИИ » решил, что называется, «на пальцах» проверить, как ИИ повлияет на экономику США в течение следующих 10 лет, немного с неожиданной стороны.
Он считает, что только около 5% задач смогут быть выполнены ИИ в течение этого периода времени с прибылью, а рост ВВП, вероятно, будет ближе к 1% за этот период.
Асемоглу рассмотрел предыдущие исследования, в которых анализировались задачи, в которых предполагается использовать технологий ИИ и компьютерного зрения, и пришел к выводу, что почти 20% всех задач на рынке труда США могут быть заменены или дополнены ИИ. Но только около четверти этих задач — или 5% в масштабах всей экономики — могут быть выполнены с прибылью. (В остальных 75% случаев затраты на внедрение могут превысить выгоды.)
И как следствие - общий рост производительности за счет ИИ в течение следующих 10 лет составит примерно 0,7%. Это означает максимальный рост ВВП примерно на 1,8% или более реалистичный - около 1,1%.
Но даже это оптимистично и вот почему.
1. До сих пор генеративный ИИ в основном использовался для того, что он называет «легкими в освоении задачами», которые определяются двумя характеристиками: существует прямая связь между действием и результатом, а результат легко измерить. Однако по мере того, как ИИ будет все шире внедряться в экономику, он будет применяться для большего числа «сложных задач» — и там пока похвастаться нечем.
2. Существует несоответствие между инвестициями в ИИ, которые в основном имеют место в крупных компаниях в определенных секторах, и тем фактом, что сами задачи, которые ИИ может выполнять или дополнять, выполняются в малых и средних предприятиях, где может всплыть пробдема «издержек на корректировку», поскольку это потребует значительных вложений на изменение логики работы всех составляющих малого бизнеса . Эти расходы скорее всего нивелируют экономические выгоды от ИИ в краткосрочной и среднесрочной перспективе.
Впрочем, несмотря на эти скромные прогнозы относительно экономических выгод ИИ, Асемоглу видит большой потенциал в этой технологии. Но он считает, что ее текущая траектория не сможет этот потенциал реализовать, во многом потому, что она применяется к неправильным типам проблем в неправильных профессиях.
Под правильными профессиями автор подразумевает электриков, сантехников, учителей, медсестер и так далее. Тех, кто решает настоящие проблемы и у которых зачастую нет ни достаточных знаний для «решения проблемы», ни ИИ инструментов для этого.
Проще говоря – ключевой вопрос, встающий перед индустрией сегодня, состоит в том, нужны ли нам всем развлекательные приблуды, которые могут участвовать в человеческих беседах, писать шекспировские сонеты и рисовать идеальные реалистичные картинки, если мы хотим видеть экономическую реальную пользу от работы педагогов, врачей, электриков и других рабочих.
Вот такое «приземление» от Нобелевского лауреата.
Microsoft создаёт свой ИИ на фоне разногласий с OpenAI
Компания активно работает над сокращением своей зависимости от OpenAI – в разработке находится их собственное семейство языковых моделей под названием MAI. Если верить внутренним оценкам компании, оно не уступает продуктам OpenAI и Anthropic.
Это не значит, что партнёрство Microsoft и OpenAI прекращается. Первые пока ещё остаются крупнейшим инвестором ИИ-стартапа, да и сервера Azure критически важны для проектов OpenAI – например для реализации ChatGPT-Gov и запуска новых моделей. Партнерство Microsoft и OpenAI остается в силе как минимум до 2030 года. Тем не менее, StarGate показал, что Oracle и другие конкуренты не против потеснить Microsoft на рынке облачных вычислений.
История с созданием собственных LLM началась у компании не вчера. Их флагманский ИИ-помощник, Copilot, работает на ChatGPT с надстройкой в виде проприетарной модели Prometheus. Правда, она была разработана и оптимизирована специально для работы с технологиями OpenAI, но компетенции у Microsoft имеются. Также они постепенно интегрировали в продукты собственные модели Phi, хоть те являются малыми и решают узкие задачи.
Несмотря на это, компания всё ещё критически зависит от OpenAI. Можно вспомнить кризис, который случился в 2023 году, после отстранения советом директоров Сэма Альтмана. Это поставило под угрозу инвестиции Microsoft и их ИИ-направление. Компания требовала вернуть Альтмана и распустить совет директоров, а после позвали к себе в штат. Туда же грозились перейти практически 100% сотрудников OpenAI.
Тогда кризис удалось быстро купировать, вернув бывшего CEO, но осадочек остался – подобные ситуации в будущем могут ударить по компании куда сильнее, а стремление OpenAI к наращиванию доли других инвесторов и приобретению собственных ЦОДов угрожает условиям их сотрудничества. Поэтому разработка альтернативы in-house кажется логичным решением. Ключевой вопрос, особенно на фоне последних неудач Apple – а получится ли?
Компания активно работает над сокращением своей зависимости от OpenAI – в разработке находится их собственное семейство языковых моделей под названием MAI. Если верить внутренним оценкам компании, оно не уступает продуктам OpenAI и Anthropic.
Это не значит, что партнёрство Microsoft и OpenAI прекращается. Первые пока ещё остаются крупнейшим инвестором ИИ-стартапа, да и сервера Azure критически важны для проектов OpenAI – например для реализации ChatGPT-Gov и запуска новых моделей. Партнерство Microsoft и OpenAI остается в силе как минимум до 2030 года. Тем не менее, StarGate показал, что Oracle и другие конкуренты не против потеснить Microsoft на рынке облачных вычислений.
История с созданием собственных LLM началась у компании не вчера. Их флагманский ИИ-помощник, Copilot, работает на ChatGPT с надстройкой в виде проприетарной модели Prometheus. Правда, она была разработана и оптимизирована специально для работы с технологиями OpenAI, но компетенции у Microsoft имеются. Также они постепенно интегрировали в продукты собственные модели Phi, хоть те являются малыми и решают узкие задачи.
Несмотря на это, компания всё ещё критически зависит от OpenAI. Можно вспомнить кризис, который случился в 2023 году, после отстранения советом директоров Сэма Альтмана. Это поставило под угрозу инвестиции Microsoft и их ИИ-направление. Компания требовала вернуть Альтмана и распустить совет директоров, а после позвали к себе в штат. Туда же грозились перейти практически 100% сотрудников OpenAI.
Тогда кризис удалось быстро купировать, вернув бывшего CEO, но осадочек остался – подобные ситуации в будущем могут ударить по компании куда сильнее, а стремление OpenAI к наращиванию доли других инвесторов и приобретению собственных ЦОДов угрожает условиям их сотрудничества. Поэтому разработка альтернативы in-house кажется логичным решением. Ключевой вопрос, особенно на фоне последних неудач Apple – а получится ли?
Что за Manus и почему вокруг него столько шума
На днях китайский стартап Monica.im представил платформу Manus (в переводе с латинского «рука», то бишь сервис должен стать вашими цифровыми руками). Это очередной агент, который автономно выполняет задачи пользователя. Собственно, но этом можно и закончить… Но лучше использовать этот инфоповод, чтобы поговорить об автономных агентах в целом.
Некоторое время назад у OpenAI вышел Operator – амбициозный и бесполезный сервис, который призван решать в Интернете важные задачи вместо пользователя. Нужно заказать столик в ресторане? Написали детали чат-боту, а он сам пойдёт на сайт и выполнит все необходимые шаги. Такие удивительные возможности – и всего за 200 долларов в месяц.
Manus же стал китайской копией Operator от OpenAI: это такой же агент, который запускается на удалённом сервере с линуксом, ходит за пользователя на сайты и пытается выполнять там какие-то действия. Судить о работе пока можно только по отобранным примерам с сайта компании – сервис работает по приглашению, и на нашу заявку на получение доступа никто не ответил.
У всех подобных сервисов есть несколько фундаментальных проблем:
• пользователь арендует удалённый сервер, передавая свои чувствительные данные третьим лицам
• на этом сервере работает ИИ-модель, с трудом понимающая, что она делает
• этот ИИ, как слепой котёнок, идёт по первым ссылкам из поисковой выдачи.
Он кликает на кнопки, ошибается, пробует снова – и изо всех сил пытается выполнить действия, на которые у пользователя уйдут несколько минут. Ещё и совершая ошибки в процессе.
Более того, сам сервис требует постоянного контроля – нужно оставаться на связи, авторизовываться, отвечать на уточняющие вопросы. И ради чего? Бронь авиабилета ему всё равно не доверить, потому что нужно несколько раз перепроверить введённые данные, добавить ID бонусной программы и подтвердить транзакцию. Поиск информации и работа с документами давно уже есть в Perplexity и подобных сервисах, которые делают то же самое быстрее и понятнее.
Пока Manus, Operator, Computer Use от Claude, UI-TARS от Bytedance, Proxy от Convergence и так далее – просто proof of concept, технические демо-версии, которые сделаны скорее с исследовательскими целями. Пишут про них не потому, что «появился новый полезный продукт», а потому что «хайп».
Гораздо более логичным выглядит подход Perplexity, Яндекса и Google, которые работают не с интерфейсом виртуального браузера, а с полученными напрямую (по API или через парсинг) данными. В случае Яндекса и Google – ещё и в рамках собственной экосистемы, где они могут наладить бесшовный обмен данными между разными сервисами, обеспечив как раз возможность и покупать билеты, и арендовать столики в ресторанах, и заказывать еду. И если здесь видно будущее развитие агентов, то у сервисов, которые пользуются виртуальным браузером и симулируют поведение людей, оно пока туманное.
На днях китайский стартап Monica.im представил платформу Manus (в переводе с латинского «рука», то бишь сервис должен стать вашими цифровыми руками). Это очередной агент, который автономно выполняет задачи пользователя. Собственно, но этом можно и закончить… Но лучше использовать этот инфоповод, чтобы поговорить об автономных агентах в целом.
Некоторое время назад у OpenAI вышел Operator – амбициозный и бесполезный сервис, который призван решать в Интернете важные задачи вместо пользователя. Нужно заказать столик в ресторане? Написали детали чат-боту, а он сам пойдёт на сайт и выполнит все необходимые шаги. Такие удивительные возможности – и всего за 200 долларов в месяц.
Manus же стал китайской копией Operator от OpenAI: это такой же агент, который запускается на удалённом сервере с линуксом, ходит за пользователя на сайты и пытается выполнять там какие-то действия. Судить о работе пока можно только по отобранным примерам с сайта компании – сервис работает по приглашению, и на нашу заявку на получение доступа никто не ответил.
У всех подобных сервисов есть несколько фундаментальных проблем:
• пользователь арендует удалённый сервер, передавая свои чувствительные данные третьим лицам
• на этом сервере работает ИИ-модель, с трудом понимающая, что она делает
• этот ИИ, как слепой котёнок, идёт по первым ссылкам из поисковой выдачи.
Он кликает на кнопки, ошибается, пробует снова – и изо всех сил пытается выполнить действия, на которые у пользователя уйдут несколько минут. Ещё и совершая ошибки в процессе.
Более того, сам сервис требует постоянного контроля – нужно оставаться на связи, авторизовываться, отвечать на уточняющие вопросы. И ради чего? Бронь авиабилета ему всё равно не доверить, потому что нужно несколько раз перепроверить введённые данные, добавить ID бонусной программы и подтвердить транзакцию. Поиск информации и работа с документами давно уже есть в Perplexity и подобных сервисах, которые делают то же самое быстрее и понятнее.
Пока Manus, Operator, Computer Use от Claude, UI-TARS от Bytedance, Proxy от Convergence и так далее – просто proof of concept, технические демо-версии, которые сделаны скорее с исследовательскими целями. Пишут про них не потому, что «появился новый полезный продукт», а потому что «хайп».
Гораздо более логичным выглядит подход Perplexity, Яндекса и Google, которые работают не с интерфейсом виртуального браузера, а с полученными напрямую (по API или через парсинг) данными. В случае Яндекса и Google – ещё и в рамках собственной экосистемы, где они могут наладить бесшовный обмен данными между разными сервисами, обеспечив как раз возможность и покупать билеты, и арендовать столики в ресторанах, и заказывать еду. И если здесь видно будущее развитие агентов, то у сервисов, которые пользуются виртуальным браузером и симулируют поведение людей, оно пока туманное.
🔥2
Gemma 3: ещё больше возможностей при малых ресурсах
Google выпустил новую модель ИИ Gemma 3. Главная фишка этой модели – способность работать на одном графическом процессоре (GPU или TPU). В итоге модель тратит меньше ресурсов, чем конкуренты, и показывает более высокие результаты. Gemma 3 может эффективно работать на обычном ноутбуке или даже смартфоне – этот трек кажется логичным развитием Gemini Nano, которая интегрируется в смартфоны Pixel и работает на них локально. Правда, есть большая разница: если Gemini проприетарная модель компании, то Gemma выложена в открытый доступ.
Это хорошая новость для бизнеса, который сможет ещё дешевле локально разворачивать ИИ для своих нужд: очень часто для этого не нужны мощности топовых моделей от OpenAI или Anthropic. Подобный тренд мы видим у всех игроков рынка.
Технически Gemma 3 впечатляет: она поддерживает анализ текста, изображений и даже коротких видео (по заявлениям Google, в AI Studio такого функционала нет), работает с более чем 35 языками из коробки, без файнтюна, и имеет большое контекстное окно в 128000 токенов. В ходе тестов оказалась, что она неплохо понимает русский язык, решает уравнения и пишет код (калькулятор с интерфейсом на Питоне написала сразу и без ошибок). Модель предлагается в разных размерах — от компактной версии 1B до более мощных с 27 миллиардами параметров.
За год с момента выпуска первой версии в экосистеме Gemma уже более 100 миллионов загрузок и более 60000 вариантов моделей “Gemmaverse” – доработанных сообществом под определённые задачи.
Google выпустил новую модель ИИ Gemma 3. Главная фишка этой модели – способность работать на одном графическом процессоре (GPU или TPU). В итоге модель тратит меньше ресурсов, чем конкуренты, и показывает более высокие результаты. Gemma 3 может эффективно работать на обычном ноутбуке или даже смартфоне – этот трек кажется логичным развитием Gemini Nano, которая интегрируется в смартфоны Pixel и работает на них локально. Правда, есть большая разница: если Gemini проприетарная модель компании, то Gemma выложена в открытый доступ.
Это хорошая новость для бизнеса, который сможет ещё дешевле локально разворачивать ИИ для своих нужд: очень часто для этого не нужны мощности топовых моделей от OpenAI или Anthropic. Подобный тренд мы видим у всех игроков рынка.
Технически Gemma 3 впечатляет: она поддерживает анализ текста, изображений и даже коротких видео (по заявлениям Google, в AI Studio такого функционала нет), работает с более чем 35 языками из коробки, без файнтюна, и имеет большое контекстное окно в 128000 токенов. В ходе тестов оказалась, что она неплохо понимает русский язык, решает уравнения и пишет код (калькулятор с интерфейсом на Питоне написала сразу и без ошибок). Модель предлагается в разных размерах — от компактной версии 1B до более мощных с 27 миллиардами параметров.
За год с момента выпуска первой версии в экосистеме Gemma уже более 100 миллионов загрузок и более 60000 вариантов моделей “Gemmaverse” – доработанных сообществом под определённые задачи.
👍2
Зачем нужны такие вложения? С одной стороны, Google диверсифицирует риски, получает доход от растущих стартапов и доступ к передовым технологиям. Но есть и более интересная цель – дело в том, что Anthropic покупает значительные объемы вычислительных мощностей у своих крупных инвесторов, Google (14%) и Amazon (8%). То есть компания, по сути, перекладывает деньги себе же в карманы, обеспечивая параллельно дополнительный спрос на облачные вычисления.
Это подтверждает и тот факт, что ни голосующих прав, ни места в совете у Google нет – даже став крупным акционером (с долей в 14% и возможностью увеличить ее до 15%), они намеренно решили остаться «в тени», чтобы не вызывать вопросов регуляторов. При этом уже в сентябре 2025 года Google планирует внести в Anthropic еще 750 миллионов долларов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Ритм (13.03.2025)
CR AI
Утренний #нейротрек
Сегодня слушаем «Ритм» – симфонию современного города, где каждый бит рассказывает историю о движении вперёд
Сегодня слушаем «Ритм» – симфонию современного города, где каждый бит рассказывает историю о движении вперёд