Сергей Булаев AI 🤖

Криминальный лайфхак:

Носите дополнительный палец постоянно. Тогда любые фото/видео улики будут выглядеть как ИИ генерация.

Сергей Булаев AI 🤖 - об AI и не только

558

3.69K views14:11

Посмотрел презентацию Grok 3, и оказалось, что для тренировки использовали не 100k, а целых 200k GPU! По словам создателей, модель уделала всех в математике, кодинге и научных ответах. Ранняя версия под кодовым названием Chocolate две недели тестировалась на Chatbot Arena, набрав впечатляющие 1400 очков. Ну и конечно же появился первый официальный агент на Гроке - Deep Search (да, весьма оригинальное название).

В процессе демо показали создание анимации перелёта космического корабля с Земли на Марс. Оказывается, возможность такого перелёта появляется каждые 2 года, и следующее "окно" будет в конце следующего года. В этот момент Илон планирует отправить туда свои космические корабли с Оптимусами и Гроком на борту.

Мне лично понравились интерфейсы Deep Search и режима размышлений вообще. Хочется уже побыстрее пощупать самому.

Grok 3 станет доступен на Premium+ подписке X уже сегодня. А вот для доступа к Deep Search и расширенному режиму размышлений придётся купить доступ к SuperGrok на сайте grok.com (который, кстати, прямо сейчас лежит).

API обещают только через несколько недель... 😐 В самом конце Grok голосом сообщил что скоро начнёт разговаривать с нами.

Сергей Булаев AI 🤖 - об AI и не только

1814👎32

2.94K views05:01

Сергей Булаев AI 🤖

Андрей Карпаты уже успел попользоваться Grok 3 и написал довольно подробный и интересный обзор (привожу в переводе Клода, если что не так - пишите):

Мне сегодня дали ранний доступ к Grok 3, что делает меня, пожалуй, одним из первых, кто смог провести быструю оценку.

Мышление
✅ Во-первых, Grok 3 явно имеет современную модель мышления (кнопка "Think") и отлично справился с моим вопросом по Settlers of Catan прямо из коробки. Я попросил создать веб-страницу с гексагональной сеткой, как в игре, с возможностью менять количество "колец" с помощью слайдера. Немногие модели справляются с этим надёжно. Топовые модели OpenAI (например, o1-pro за $200/месяц) тоже справляются, но DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude - нет.

❌ Модель не смогла решить мою "загадку с эмодзи", где я даю смайлик с скрытым внутри сообщением через Unicode-селекторы вариаций, даже когда я дал сильную подсказку в виде кода на Rust. Больше всего продвинулся DeepSeek-R1, который однажды частично декодировал сообщение.

❓ Модель решила несколько партий в крестики-нолики с хорошей цепочкой рассуждений (многие современные модели часто не справляются!). Я повысил сложность и попросил сгенерировать 3 "хитрых" позиции в крестиках-ноликах - тут она не справилась (генерируя бессмысленные доски/текст), но и o1 pro тоже не справился.

✅ Я загрузил статью про GPT-2. Задал несколько простых вопросов - всё сработало отлично. Затем попросил оценить количество флопс на обучение GPT-2, без поиска. Это сложно, потому что количество токенов не указано явно, поэтому нужно частично оценивать и частично вычислять, проверяя способности поиска, знаний и математики. Grok 3 с включенным мышлением отлично справился, в то время как o1 pro (модель мышления GPT) не справился.

Мне нравится, что модель пытается решить гипотезу Римана, когда её просят об этом, подобно DeepSeek-R1, в отличие от многих других моделей, которые сразу сдаются (o1-pro, Claude, Gemini 2.0 Flash Thinking) и просто говорят, что это великая нерешённая проблема.

DeepSearch
Очень интересное предложение, которое, похоже, сочетает в себе что-то вроде "Deep Research" от OpenAI/Perplexity вместе с мышлением. Может давать качественные ответы на различные исследовательские вопросы. Вот несколько примеров:

✅ "Что там с предстоящим запуском Apple? Какие слухи?"
✅ "Почему в последнее время растут акции Palantir?"
✅ "White Lotus 3 - где снимали и та же ли команда, что в сезонах 1 и 2?"
✅ "Какой зубной пастой пользуется Брайан Джонсон?"
❌ "Где сейчас актёры 4 сезона Singles Inferno?"
❌ "Какую программу распознавания речи упоминал Саймон Уиллисон?"

❌ Я обнаружил некоторые проблемные места. Например, модель, похоже, по умолчанию не любит ссылаться на X как на источник, хотя можно явно попросить её об этом. Несколько раз я ловил её на галлюцинациях с несуществующими URL. Иногда она утверждала фактические вещи, которые, думаю, неверны, и не предоставляла для них цитат (вероятно, их не существует). Например, она сказала мне, что "Ким Чжон Су всё ещё встречается с Ким Мин Соль" из Singles Inferno Season 4, что наверняка совершенно неверно. А когда я попросил создать отчёт о крупных лабораториях LLM, их общем финансировании и оценке количества сотрудников, она перечислила 12 основных лабораторий, но не включила себя (xAI).

DeepSearch примерно на уровне DeepResearch от Perplexity (что само по себе здорово!), но пока не дотягивает до недавно выпущенного OpenAI "Deep Research", который всё ещё кажется более тщательным и надёжным (хотя тоже далеко не идеален - он тоже неправильно исключает xAI из "основных лабораторий LLM", когда я попробовал с ним...)

Случайные "подводные камни" LLM
Я попробовал ещё несколько забавных тестовых запросов, которые люблю периодически проверять. Это запросы, которые специально простые для людей, но сложные для LLM, и мне было интересно, с какими из них Grok 3 справляется лучше.

✅ Grok 3 знает, что в слове "strawberry" три буквы "r", но при этом сказал, что в LOLLAPALOOZA только три "L". Включение режима мышления решает эту проблему.

Сергей Булаев AI 🤖 - об AI и не только

196

2.24K viewsedited 06:09

Сергей Булаев AI 🤖

✅ Grok 3 сказал мне, что 9.11 > 9.9 (распространено и у других LLM), но опять же, включение мышления решает это.

✅ Несколько простых головоломок работали нормально даже без мышления, например, "У Салли (девочки) 3 брата. У каждого брата 2 сестры. Сколько сестёр у Салли?" GPT4o, например, неправильно отвечает 2.

❌ К сожалению, чувство юмора модели не кажется явно улучшенным. Это распространённая проблема LLM с юмором и общим схлопыванием режимов - например, известно, что 90% из 1008 ответов ChatGPT на просьбу рассказать шутку были повторениями одних и тех же 25 шуток. Даже при более детальных промптах, уводящих от простых каламбуров (например, "дай мне стендап"), я не уверен, что это юмор на уровне современных достижений. Пример сгенерированной шутки: "Почему курица присоединилась к группе? Потому что у неё были барабанные палочки, и она хотела стать рок-звездой!" Режим мышления не помог, возможно, даже немного ухудшил ситуацию.

❌ Модель всё ещё кажется слишком чувствительной к "сложным этическим вопросам", например, сгенерировала страничное эссе, по сути отказываясь ответить, может ли быть этически оправданным неправильное обращение к чьему-то полу, если это означает спасение миллиона людей от смерти.

❌ Тест Саймона Уиллисона "Сгенерируй SVG пеликана на велосипеде". Это проверяет способность LLM располагать множество элементов на 2D-сетке, что очень сложно, потому что LLM не могут "видеть" как люди, поэтому располагают вещи вслепую, в тексте. Отмечаю как неудачу, потому что эти пеликаны довольно хороши, но всё же немного сломаны. У Claude получаются лучшие, но, думаю, они специально тренировали способности SVG во время обучения.

Итог
Судя по быстрой проверке в течение ~2 часов этим утром, Grok 3 + Thinking ощущается где-то на уровне самых современных моделей OpenAI (o1-pro, $200/месяц) и немного лучше DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это невероятно, учитывая, что команда начала с нуля ~1 год назад - такие сроки достижения современного уровня беспрецедентны. Учтите также оговорки - модели стохастичны и могут давать слегка разные ответы каждый раз, и сейчас очень рано, поэтому нам придётся подождать гораздо больше оценок в течение следующих дней/недель. Ранние результаты LM arena выглядят весьма обнадёживающе. Пока что, большие поздравления команде xAI - у них явно огромная скорость и импульс, и я рад добавить Grok 3 в свой "совет LLM" и услышать, что он думает в будущем.

Сергей Булаев AI 🤖 - об AI и не только

356👎31

2.57K views06:09

Сергей Булаев AI 🤖

В Venture Beat статья о трансформации процесса разработки в текущих реалиях.

Replit в партнёрстве с Anthropic и Google Cloud превратил обычных сотрудников Zillow в разработчиков. И это не просто эксперимент - через приложения, созданные людьми, которые раньше никогда не писали код, сейчас проходит более 100 000 запросов от покупателей недвижимости!

"Мы наблюдаем трансформацию в том, как бизнес создает программные решения," говорит Микеле Катаста, президент Replit. "Нашу платформу всё чаще используют команды маркетинга, продаж и операционной деятельности, которым нужны индивидуальные решения, которые готовое ПО предоставить не может."

Майкл Герстенхабер, вице-президент по продуктам Anthropic, особо отмечает подход Claude к генерации кода: "Claude отлично справляется с созданием чистого, поддерживаемого кода, понимая сложные системы на разных языках и фреймворках. Он подходит к проблемам стратегически, часто делая шаг назад для анализа общей картины, вместо того чтобы сразу бросаться писать код."

Журналистка Claire Lehmann: "Создала 2 новые внутренние системы для моей команды за эту неделю (заявки на отпуск/поддержка клиентов) используя код, сгенерированный Claude. Заняло в сумме 1 день и сэкономило нам $5-10K на консультантах. Если выпускница факультета английского и психологии как я может использовать код для создания вещей, то любой гуманитарий сможет."

Сергей Булаев AI 🤖 - об AI и не только

163

3.01K views07:34

Сергей Булаев AI 🤖

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Лайфхак, который упростит вашу работу с Cursor Composer за 10 секунд:

Используйте /ref и выберите Reference Edited Files что бы добавить все ваши вкладки в контекст.

(найдено тут)

Сергей Булаев AI 🤖 - об AI и не только

1317

3.53K views09:33

Сергей Булаев AI 🤖

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

1:52

This media is not supported in your browser

VIEW IN TELEGRAM

Китайский стартап MagicLab представил роботизированную руку MagicHand S01 с роскошными показателями. 11 степеней свободы и гибридная система управления силой/положением позволяют выполнять сложные манипуляции с предметами.

Грузоподъёмность до 5 кг для самой руки и до 20 кг для всего роботизированного манипулятора MagicBot. Технические детали тоже норм: точность измерения силы до 0,1Н, частота синхронизации до 100Гц и 30% запас прочности для всех ключевых компонентов.

В декабре компания уже демонстрировала своих роботов на производственной линии, где они занимались проверкой продукции, перемещением материалов и сканированием штрих-кодов.
Финансирование на уровне - 150 миллионов юаней ($20 млн) в раунде ангельских инвестиций. Направления понятные - расширение команды, доработка технологий, масштабирование производства.

Сергей Булаев AI 🤖 - об AI и роботах

133

2.54K views06:54

Сергей Булаев AI 🤖