✅ Grok 3 сказал мне, что 9.11 > 9.9 (распространено и у других LLM), но опять же, включение мышления решает это.
✅ Несколько простых головоломок работали нормально даже без мышления, например, "У Салли (девочки) 3 брата. У каждого брата 2 сестры. Сколько сестёр у Салли?" GPT4o, например, неправильно отвечает 2.
❌ К сожалению, чувство юмора модели не кажется явно улучшенным. Это распространённая проблема LLM с юмором и общим схлопыванием режимов - например, известно, что 90% из 1008 ответов ChatGPT на просьбу рассказать шутку были повторениями одних и тех же 25 шуток. Даже при более детальных промптах, уводящих от простых каламбуров (например, "дай мне стендап"), я не уверен, что это юмор на уровне современных достижений. Пример сгенерированной шутки: "Почему курица присоединилась к группе? Потому что у неё были барабанные палочки, и она хотела стать рок-звездой!" Режим мышления не помог, возможно, даже немного ухудшил ситуацию.
❌ Модель всё ещё кажется слишком чувствительной к "сложным этическим вопросам", например, сгенерировала страничное эссе, по сути отказываясь ответить, может ли быть этически оправданным неправильное обращение к чьему-то полу, если это означает спасение миллиона людей от смерти.
❌ Тест Саймона Уиллисона "Сгенерируй SVG пеликана на велосипеде". Это проверяет способность LLM располагать множество элементов на 2D-сетке, что очень сложно, потому что LLM не могут "видеть" как люди, поэтому располагают вещи вслепую, в тексте. Отмечаю как неудачу, потому что эти пеликаны довольно хороши, но всё же немного сломаны. У Claude получаются лучшие, но, думаю, они специально тренировали способности SVG во время обучения.
Итог
Судя по быстрой проверке в течение ~2 часов этим утром, Grok 3 + Thinking ощущается где-то на уровне самых современных моделей OpenAI (o1-pro, $200/месяц) и немного лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это невероятно, учитывая, что команда начала с нуля ~1 год назад - такие сроки достижения современного уровня беспрецедентны. Учтите также оговорки - модели стохастичны и могут давать слегка разные ответы каждый раз, и сейчас очень рано, поэтому нам придётся подождать гораздо больше оценок в течение следующих дней/недель. Ранние результаты LM arena выглядят весьма обнадёживающе. Пока что, большие поздравления команде xAI - у них явно огромная скорость и импульс, и я рад добавить Grok 3 в свой "совет LLM" и услышать, что он думает в будущем.
Сергей Булаев AI 🤖 - об AI и не только
✅ Несколько простых головоломок работали нормально даже без мышления, например, "У Салли (девочки) 3 брата. У каждого брата 2 сестры. Сколько сестёр у Салли?" GPT4o, например, неправильно отвечает 2.
❌ К сожалению, чувство юмора модели не кажется явно улучшенным. Это распространённая проблема LLM с юмором и общим схлопыванием режимов - например, известно, что 90% из 1008 ответов ChatGPT на просьбу рассказать шутку были повторениями одних и тех же 25 шуток. Даже при более детальных промптах, уводящих от простых каламбуров (например, "дай мне стендап"), я не уверен, что это юмор на уровне современных достижений. Пример сгенерированной шутки: "Почему курица присоединилась к группе? Потому что у неё были барабанные палочки, и она хотела стать рок-звездой!" Режим мышления не помог, возможно, даже немного ухудшил ситуацию.
❌ Модель всё ещё кажется слишком чувствительной к "сложным этическим вопросам", например, сгенерировала страничное эссе, по сути отказываясь ответить, может ли быть этически оправданным неправильное обращение к чьему-то полу, если это означает спасение миллиона людей от смерти.
❌ Тест Саймона Уиллисона "Сгенерируй SVG пеликана на велосипеде". Это проверяет способность LLM располагать множество элементов на 2D-сетке, что очень сложно, потому что LLM не могут "видеть" как люди, поэтому располагают вещи вслепую, в тексте. Отмечаю как неудачу, потому что эти пеликаны довольно хороши, но всё же немного сломаны. У Claude получаются лучшие, но, думаю, они специально тренировали способности SVG во время обучения.
Итог
Судя по быстрой проверке в течение ~2 часов этим утром, Grok 3 + Thinking ощущается где-то на уровне самых современных моделей OpenAI (o1-pro, $200/месяц) и немного лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это невероятно, учитывая, что команда начала с нуля ~1 год назад - такие сроки достижения современного уровня беспрецедентны. Учтите также оговорки - модели стохастичны и могут давать слегка разные ответы каждый раз, и сейчас очень рано, поэтому нам придётся подождать гораздо больше оценок в течение следующих дней/недель. Ранние результаты LM arena выглядят весьма обнадёживающе. Пока что, большие поздравления команде xAI - у них явно огромная скорость и импульс, и я рад добавить Grok 3 в свой "совет LLM" и услышать, что он думает в будущем.
Сергей Булаев AI 🤖 - об AI и не только
В Venture Beat статья о трансформации процесса разработки в текущих реалиях.
Replit в партнёрстве с Anthropic и Google Cloud превратил обычных сотрудников Zillow в разработчиков. И это не просто эксперимент - через приложения, созданные людьми, которые раньше никогда не писали код, сейчас проходит более 100 000 запросов от покупателей недвижимости!
"Мы наблюдаем трансформацию в том, как бизнес создает программные решения," говорит Микеле Катаста, президент Replit. "Нашу платформу всё чаще используют команды маркетинга, продаж и операционной деятельности, которым нужны индивидуальные решения, которые готовое ПО предоставить не может."
Майкл Герстенхабер, вице-президент по продуктам Anthropic, особо отмечает подход Claude к генерации кода: "Claude отлично справляется с созданием чистого, поддерживаемого кода, понимая сложные системы на разных языках и фреймворках. Он подходит к проблемам стратегически, часто делая шаг назад для анализа общей картины, вместо того чтобы сразу бросаться писать код."
Журналистка Claire Lehmann: "Создала 2 новые внутренние системы для моей команды за эту неделю (заявки на отпуск/поддержка клиентов) используя код, сгенерированный Claude. Заняло в сумме 1 день и сэкономило нам $5-10K на консультантах. Если выпускница факультета английского и психологии как я может использовать код для создания вещей, то любой гуманитарий сможет."
Сергей Булаев AI 🤖 - об AI и не только
Replit в партнёрстве с Anthropic и Google Cloud превратил обычных сотрудников Zillow в разработчиков. И это не просто эксперимент - через приложения, созданные людьми, которые раньше никогда не писали код, сейчас проходит более 100 000 запросов от покупателей недвижимости!
"Мы наблюдаем трансформацию в том, как бизнес создает программные решения," говорит Микеле Катаста, президент Replit. "Нашу платформу всё чаще используют команды маркетинга, продаж и операционной деятельности, которым нужны индивидуальные решения, которые готовое ПО предоставить не может."
Майкл Герстенхабер, вице-президент по продуктам Anthropic, особо отмечает подход Claude к генерации кода: "Claude отлично справляется с созданием чистого, поддерживаемого кода, понимая сложные системы на разных языках и фреймворках. Он подходит к проблемам стратегически, часто делая шаг назад для анализа общей картины, вместо того чтобы сразу бросаться писать код."
Журналистка Claire Lehmann: "Создала 2 новые внутренние системы для моей команды за эту неделю (заявки на отпуск/поддержка клиентов) используя код, сгенерированный Claude. Заняло в сумме 1 день и сэкономило нам $5-10K на консультантах. Если выпускница факультета английского и психологии как я может использовать код для создания вещей, то любой гуманитарий сможет."
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Лайфхак, который упростит вашу работу с Cursor Composer за 10 секунд:
(найдено тут)
Сергей Булаев AI 🤖 - об AI и не только
Используйте /ref и выберите Reference Edited Files что бы добавить все ваши вкладки в контекст.
(найдено тут)
Сергей Булаев AI 🤖 - об AI и не только
1 31 7
Китайский стартап MagicLab представил роботизированную руку MagicHand S01 с роскошными показателями. 11 степеней свободы и гибридная система управления силой/положением позволяют выполнять сложные манипуляции с предметами.
Грузоподъёмность до 5 кг для самой руки и до 20 кг для всего роботизированного манипулятора MagicBot. Технические детали тоже норм: точность измерения силы до 0,1Н, частота синхронизации до 100Гц и 30% запас прочности для всех ключевых компонентов.
В декабре компания уже демонстрировала своих роботов на производственной линии, где они занимались проверкой продукции, перемещением материалов и сканированием штрих-кодов.
Финансирование на уровне - 150 миллионов юаней ($20 млн) в раунде ангельских инвестиций. Направления понятные - расширение команды, доработка технологий, масштабирование производства.
Сергей Булаев AI 🤖 - об AI и роботах
Грузоподъёмность до 5 кг для самой руки и до 20 кг для всего роботизированного манипулятора MagicBot. Технические детали тоже норм: точность измерения силы до 0,1Н, частота синхронизации до 100Гц и 30% запас прочности для всех ключевых компонентов.
В декабре компания уже демонстрировала своих роботов на производственной линии, где они занимались проверкой продукции, перемещением материалов и сканированием штрих-кодов.
Финансирование на уровне - 150 миллионов юаней ($20 млн) в раунде ангельских инвестиций. Направления понятные - расширение команды, доработка технологий, масштабирование производства.
Сергей Булаев AI 🤖 - об AI и роботах
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В Pika появилась PikaSwap - новая фича для редактирования элементов в AI-видео. Технология позволяет заменять лица персонажей, одежду и другие визуальные детали при этом сохраняя плавность и естественность движений.
Процесс работы довольно прост:
Кейсы использования разнообразны - от кастомизации персонажей и замены лиц до быстрой адаптации рекламных материалов под разные бренды. Особенно ценно для маркетологов.
Сергей Булаев AI 🤖 - об AI и не только
Процесс работы довольно прост:
1. Загружаете видео или генерируете новое в Pika
2. Выбираете область для замены
3. Загружаете референс-изображение или описываете изменения текстом
4. ИИ обрабатывает запрос, сохраняя движение, освещение и перспективу
5. Скачиваете готовый результатКейсы использования разнообразны - от кастомизации персонажей и замены лиц до быстрой адаптации рекламных материалов под разные бренды. Особенно ценно для маркетологов.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Spotify начал принимать аудиокниги, озвученные с помощью голосов ElevenLabs. С сегодняшнего дня авторы могут публиковать свои произведения напрямую на Spotify и другие крупные площадки через партнерство с Findaway Voices.
Это значительный шаг вперёд для независимых авторов, которым раньше приходилось заниматься дорогостоящим и трудоёмким процессом создания аудиоверсий своих работ. Теперь распространение станет быстрее, проще и доступнее.
Я давно пользуюсь ElevenLabs для разных проектов (переводы видео и искусственные подкасты, генерация гипно сессий), и качество их голосов очень радует. Теперь эти технологии смогут помочь авторам достичь новой аудитории и получать доход, когда слушатели покупают или стримят их аудиокниги.
Сергей Булаев AI 🤖 - об AI и не только
Это значительный шаг вперёд для независимых авторов, которым раньше приходилось заниматься дорогостоящим и трудоёмким процессом создания аудиоверсий своих работ. Теперь распространение станет быстрее, проще и доступнее.
Я давно пользуюсь ElevenLabs для разных проектов (переводы видео и искусственные подкасты, генерация гипно сессий), и качество их голосов очень радует. Теперь эти технологии смогут помочь авторам достичь новой аудитории и получать доход, когда слушатели покупают или стримят их аудиокниги.
Сергей Булаев AI 🤖 - об AI и не только
1 21
Мэтт из Replit записал крутой туториал на 3 минуты о том, как создать игру с помощью Grok 3 и моментально задеплоить её на repl.app. Cуть проста: запрашиваете HTML-код игры у Grok 3, создаёте новое Node-приложение в Replit, копируете код в новый файл, просите ассистента Replit настроить сервер и ваша игра уже доступна онлайн. Если что-то создадите по этой схеме - делитесь результатами в комментариях!
Выкладываю две версии видео - оригинал и перевод через ElevenLabs.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Выкладываю две версии видео - оригинал и перевод через ElevenLabs.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
2 28 3 1
Тем временем в сети начали появляться первые демонстрации голосового режима Grok 3. Судя по утечкам, ассистент будет доступен с как минимум двумя голосами - "Ara" (женский) и "Sal" (мужской), и похоже, что они предназначены для разных уровней подписки.
Пока голосовой Grok похоже сохранил свою фирменную "раскрепощённость" - в отличие от довольно зажатого ChatGPT Advanced Voice Mode. В одном из видео даже показали диалог голосовых ассистентов, где разница в подходах к модерации контента видна невооружённым глазом.
Среди заявленных возможностей: доступ в интернет, настраиваемые инструкции, сохранение транскриптов, работа в фоновом режиме, пение и даже смех. Запуск, похоже, уже совсем скоро!
Внимание, в переведённом диалоге между ChatGPT и Grok 3 очень много хамства.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только
Пока голосовой Grok похоже сохранил свою фирменную "раскрепощённость" - в отличие от довольно зажатого ChatGPT Advanced Voice Mode. В одном из видео даже показали диалог голосовых ассистентов, где разница в подходах к модерации контента видна невооружённым глазом.
Среди заявленных возможностей: доступ в интернет, настраиваемые инструкции, сохранение транскриптов, работа в фоновом режиме, пение и даже смех. Запуск, похоже, уже совсем скоро!
Внимание, в переведённом диалоге между ChatGPT и Grok 3 очень много хамства.
Так и у нас опять проблема с бустами, побустите пожалуйста кому не жалко!
Сергей Булаев AI 🤖 - об AI и не только