max.sh

Недавно вернулся со второго командного оффсайта (про прошлый писал в Июле).

В западной культуре, как в больших компаниях так и стартапах, в целом принято выделять первую половину января под разного рода планирования в формате собраться всем в одной месте.

Так можно провести большие ретро, послушать речи фаундера (или директора), понять, почему слишком медленно бежим и все в таком духе. По итогу, устаешь гораздо больше, чем от обычной рабочей недели.

В силу своего размера, старатапы (которым не нужно выживать) могут позволить себе провести такие штуки в необычных локациях.

В этот проводили в Барселоне. Первый раз оказался здесь зимой. И мне кажется, это самая идеальная зима, которую можно представить! Сухо, 10-13 градусов, одинаково тепло и днем и вечером, так еще и людей не слишком много!

Свободного времени почти не было, поэтому только посмотрел архитектуру Гауди – вечно строящийся собор и несколько фасадов. Интересно, что среди коллег мнения о его искусстве полярно разделились – либо поражает воображение, либо кажется необоснованным нагромождением. Мне вот очень откликнулось.

Но туристические заметки можно прочитать много где еще. А вот пообщаться с инвесторами и послушать, что они говорят - нет.

Познакомился с управляющим партнером венчурного фонда GV Tom Hulme (на последнем фото). Лидировал раунды в крупные компании, включая Stripe, Monzo, Blockchain (тут сомнительно, конечно). Том вел раунд и в Tessl (где сейчас и работаю). Из интересных публичных мыслей:

• Инвестировать в ранние стартапы еще сложнее, из-за вайб-кодинга у каждого проекта всегда красивый питч-дек, демо, анализ данных, хотя если капнуть глубже, то пустота. Поэтому отдают предпочтение анализу профилей фаундеров

• Считает, что Gemini и гугл обойдут OpenAI в активных юзерах и возьмут превосходство в качестве.

• Скейлинг продолжится: pre-training, post-training, test-time compute живее всех живых. Человек который общаестя с Хассабисом каждую неделю что-то точно знает 😀

• Разрыв между опен-соурсом и проприетарными решениями будет сохраняться, а в компанию Reflection AI которая привлекла огромный раунд для создания "западного ответа DeepSeek" не верит

3❤20🔥9👍6🆒2

3.55K views11:03

max.sh

Как строить evaluation системы для AI агентов?

Очередной крутой блог пост от Антропиков. Читать тут.

Прорывных мыслей, бенчмарков или сокрального знания тут не найти, но зато очень хорошая структура (такое пригождается на систем дизайн интервью, если что), отличный технический словарь (task, transcript, evaluation harness, agent harness, и.т.д) и призыв к действию для тех, кто активно шаманит над агентами в рабочих задачах.

И действительно. Если в прошлом году все поголовно были увлечены внедрением агентов процессы, то сейчас все переходят к стадии "а как с этими агентами со-существовать" и валидировать, что со временем они так же продолжают драйвить продуктивность (чтобы это не значило). Короче говоря, не хочется вслепую обновлять модель на новую и потом ловить себя на чувстве "так а чето стало только хуже".

Поэтому Eval-ы и нужны. Eval (от evaluation) – это по большому счету тест AI агента. Даете ему среду, задачу, запускаете, и оцениваете результат. На бумаге легко. На деле же каждая из переменных: среда, задача и оценка результата – безумно сложная задача. Особенно на масштабе организаций с сотнями репозиториев. Тут нужна методичность и структура. Поэтому так легко свалиться в "да пофиг, вроде стало лучше". По работе много общаюсь с энтерпрайзами и это головная боль чуть ли не каждого. Собственно поэтому мы и стали командой делать eval платформу, в которой можно эвалить разного рода контекст (например, вы сделали claude skill, а насколько он хорош? оценить можно тут) или целые репозитории и смотреть насколько хорошо агенты справляются с задачами. Но про это в другой раз.

Мне из блога откликнулись такие мысли.

* Смотреть на Eval-ы, как на модель швейцарского сыра. Картинка к посту в пояснение. Суть в том, что одним подходом все не поймать. Поэтому нужно много слоев. Где-то часть ошибок отловят автопроверки, где-то llm-as-judge, а где-то нужно смотреть не просто в input-output поведение, а анализировать логи агента и смотреть что он там накуролесил в процессе.

* Чем больше в системе детерминированных проверок, тем лучше (для вас). Проще дебажить, проще менять. Вслепую делегировать работу на откуп агенту-валидатору (читай llm-as-judge), себе дороже. По мнению такого валидатора все всегда будет ХО-РО-ШО. Как минимум рубрики нужно калибровать и смотреть глазами прежде чем внедрять такое и основывать на этом выводы.

* Чем раньше начнете задумываться о концепции eval-ов, тем проще будет с агентами дальше. Потому что так будет четкие аргументы, почему агент не может решать задачи именно в вашей кодовой базе и во что инвестировать, чтобы стало лучше. Несколько знакомых так уже получили промоушены в биг техах, чисто за счет какой-никакой observability-платформы для агентов. Лайфхаком не является, но намек вы поняли.

7💯16🔥12🆒10👍5❤4😁1

3.33K views09:30

max.sh

Sutskever's List.

Согласно лору интернета, это список статей, которым Илья поделился в частной беседе с John Carmack (известный разработчик, создатель Doom, впоследствии работал над Oculus), добавив:

 ‘If you really learn all of these, you’ll know 90% of what matters today.’

Твит набрал большую популярность (ссылка) и довольно активно разлетелся впоследствии и по другим платформам, в частности реддиту. Однако никаких подтверждений подлинности этого самого списка от Ильи на эту тему не было, как и формальной публикации настоящего списка -- все версии это реконструкции.

Список состоит из статей по CNN, RNN, механизмам внимания, scaling laws и другим актуальным на сегодняшний день понятиям.

Если допустить, что список дейсвтительно подлинный, то по мнению Ильи весь современный Deep Learning можно покрыть чуть ли не 30 работами. Мне кажется, в целом совпадает с реальностью, так как как больших идей действительно не так много.

Интересно, что одного это не проверенного источника оказалось достаточно, чтобы издательство Manning выпустило книгу с одноименным названием. Посмотреть и при желании купить можно тут. Книга еще формально в разработке, но все главы уже доступны.

Не берусь судить о качестве книги целиком, бегло прочитал только одну главу. Про наш с вами любимый self attention. Глава построена на основе культовой статьи Attention Is All You Need.

И честно...мне показалось это бесполезнейшим текстом. Если автор пишет для новичков, то из тех скудных диаграм и примеров точно не будет ничего понятно. А если автор пишет для тех кто разбирается и хочет углубить знания, то он не привносит ничего нового. Оригинальная работа, например, не очень углубляется в детали того, зачем нужна нормировка QK произведения на корень из размерности эмбеддингов. Оригинальная статья так же и не дает детальных пояснений почему позиционные эмбеддинги считается через чередование sin, cos и какие свойства это дает. Казалось бы, вот супер годный контент для углубления и раскрытия в книге. Но автор ограничивается не самыми сильными аналогиями. Если взять статью и идти в гугл / чатгпт каждый раз когда непонятно, то можно углубить свои знания сильно быстрее.

А название и правда крутое.
What Did Ilya See?

16❤29👍8⚡5🔥3🍓2🆒1

3.52K views15:35

max.sh

💼

Hiring Post

Стартап растет и ищет к себе людей на роль Member of Technical Staff - AI Engineer
Полное описание вакансии можете посмотреть тут.

• Идеальный Кандидат. Это человек с большим бэкграундом в Software Engineering и умением плотно работать с рисерчерами (моей командой). Так, чтобы рисерч прототипы быстро и надежно доходили до продукта и можно было легко итерироваться, скейлить компьют.

• Немного про компанию. Сейчас фокус на том, чтобы делать Eval-ы разных кодинг агентов, подсвечивать боттленеки и предлагать варианты улучшения контекста (как показывает реальность -- хорошие качественные токены это все что нужно модели на вход, чтобы решить задачу). Эвалы разные. Есть быстрые standalone решения, например, померить качество вашего claude code skill-а (это как раз последний запуск, пост фаундера в твиттере), есть более глубокие, когда клиенты дают доступ к кодовой базе и мы плотно интегрируемся в их среду, чтобы понять в чем основные проблемы у агентов, как улучшать контекст и мониторить во времени.

• Интервью. Этапы собеседований очень практичные. Intro call с Head of Engineering, за жизнь и ориентиры. Take Home Exercise на несколько вечеров. технический on-site (очень-очень желательно лично, но если очень сильный кандидат, то есть возможность пройти все ремоут) на один день с командой, отдельно общение с фаундером.

• Важные детали. Компания базируется в UK, Лондон, Kings Cross. Работа on-site, 3 дня из офиса, 2 ремоут. Спонсируют рабочие визы. Компенсация на уровне местных биг техов (в компании прилично людей из разных FAANG-ов) + сверху опционы.

Можно податься самостоятельно через сайт (ссылка выше). Или прийти в личку с резюме, небольшим рассказом о себе и почему нравится Code Gen и откликается вакансия -- если все мэтчится, то сразу передам резюме нанимающим людям.

Посмотри сам или покажи другу!

Please open Telegram to view this post

VIEW IN TELEGRAM

tessl.io

Tessl - Agent Enablement Platform

Tessl helps teams build AI-native software by giving coding agents structured, versioned context. Ship AI-powered systems that hold up in real codebases.

6👍12❤10🔥7✍5❤‍🔥1🤔1🦄1

3.62K viewsedited 16:47

max.sh

AI компании продолжают захватывать лондонскую подземку. В этот раз реклама Lovable о простоте вайбкодинга.

Все конечно круто, но только рекламщики явно не учили, что интернет в местном метро вещь довольно редкая, и как правило между станциями не ловит. На ветке Виктория так точно.

3😁48🤣10❤4🆒2🔥1

3.1K viewsedited 10:42

max.sh

Forwarded from commit history

Последние пару месяцев я плотно работал над этим релизом, и наконец-то мы выкатываем его в опенсорс!

📟 Встречайте SWE-rebench-V2: самый большой открытый, мультиязычный датасет для обучения кодовых агентов!

Вместе с командой Nebius AI R&D мы построили пайплайн для масштабного сбора задач из реальных GitHub репозиториев и теперь делимся всем с комьюнити. На текущий момент это самый большой и разнообразный открытый датасет подобных задач в мире.

Что внутри:
> 32 000+ задач — на базе реальных issue + готовый Docker-образ.
> 20 языков программирования. Некоторые языки (например, Lua или Clojure) вообще никогда раньше не были покрыты!
> 120 000+ дополнительных задач, собранных на базе реальных PR.
> Качество — задачи отфильтрованы и размечены с помощью ансамбля LLM. Также мы обогатили их метаданными и добавили интерфейсы, которые проверяются в тестах.

Вместе с датасетом мы дропаем техрепорт со всеми деталями нашего пайплайна и прогонами моделей.

📄 Статья и датасет

👾 Наш Discord (мы там онлайн, залетайте с фидбеком и вопросами).

✉️ Пост в X

Если есть любые мысли, идеи, предложения - приходите!

🔁 Буду благодарен за репост и пересылку!

3🔥19⚡5❤5👏1🆒1

2.58K views17:37

max.sh

Сегодня ребята из Nebius релизнули новую версию SWE-rebench-v2.

Большой бенчмарк для оценки способности агентов решать задачи в реальных кодовых базах для разных языков программирования.

Видно, что ребята проделали колоссальную работу, чтобы собрать такой датасет. Поддержите лайком на HF Papers, чтобы больше людей знали про хорошую статью!

И отдельно порекомендую канал Ибрагима, автора статьи. Все про кодинговых агентов, крутые технические заметки, карьера в рисерче и наблюдения из жизни!

20👍21🔥5⚡4❤3🆒1

3.43K views17:39

max.sh

Столкнулся недавно с тем, что перформанс популярных кодинговых агентов на внутренних бенчмарках, может значимо скакать (3-7%) в зависимости от времени суток и нагрузки на провайдера.

Дело в том, что в пиковые часы агенты могут медленнее генерировать решения из-за большого трафика. Особенно сильно у меня проседал Claude Code. Как результат, наблюдал всплеск AgentTimeoutError при прогонах автономных бенчей.

Единственного решения такой проблемы нет, есть только много вариантов с своими нюансами. 1) Ограничивать не время, а доступный бюджет на задачу 2) Увеличивать время на выполнение задачи на основе прошлых прогонов 3) Ловить пики и запускать бенчи только когда нет высокого трафика. И еще много-много эвристик. Все решения по-своему плохи, когда у тебя весь продукт про эвалы, но это уже другой момент.

Интересно было посмотреть, сталкивается ли кто-то еще с подобными проблемами. И из свежего наткнулся на заметку от самих Антропиков – Quantifying infrastructure noise in agentic coding evals. Они делятся в целом своим опытом борьбы с шумом в инфраструктуре.

Конкретно, рассказывают, что отловили неприятный эффект, который сказывался на результатах бенчмарка Terminal Bench.

Kubernetes кластер команды был устроен так, что если агент во время выполнения задачи в изолированной среде, в контейнере, вдруг превышал лимит на гарантированно отведенные ему ресурсы, то контейнер сразу умирал.

У контейнерных рантаймов обычно есть два отдельных параметра на ресурсы: гарантированные ресурсы, которые резервируется заранее, и жёсткий upper bound, при превышении которого контейнер просто убивается. Если выставить их в одно и то же значение (что было сделано у антропиков), то нет запаса на непредвиденные всплески – любое отклонение приведет к OOM контейнера, который в норме спокойно бы дожил до конца задачи.

В общем, они заметили что процент таких ошибок большой (достигает 6% по их графикам) и решили расслабить ограничения, увеличив зазор лимита на ресурсы в 1x, 2x, ... 4x и наконец убрав ограничение совсем.

Результаты на картинке снизу. Инфраструктурные ошибки почти ушли, а скоры выросли пропорционально, на 6%. Приятно и полезно.

Отдельно пишут и про другие источники шума, в частности time limit constraints, которые по их опыту влияют на результаты бенчей, но конкретных исследований и замеров не проводили.

Так что да, если релизите модель или бенч, убедитесь, что результаты достоверны и не зависят от шума в инфре, или искусственных ограничений. А то сегодня +2% на бенче может быть SOTA!

1👍19❤6⚡5🆒1

3.48K viewsedited 13:05

max.sh

Андрей @asmekal описал свой опыт собеседований на ML роли за 25 год и скомпилировал мысли в один классный лонгрид:
https://asmekal.github.io/blog/posts/interviews-2025-ml-research-engineer-uk

Тут полезные советы, примеры вопросов и что вообще можно ждать в собесах от стартапов, биг теха и фронтир лаб. Рекомендую почитать, особенно тем, кому актуально!

Andrey Zharkov

ML/Research Engineer interviews 2025

6🔥43👍13❤8⚡3🥰1👌1

4.16K viewsedited 15:46

max.sh

Литкод для numpy

В тему к посту выше

Недавно один подписчик пришел за советом. Как готовиться к кодинг раунду, где спрашивают задачки с фокусом на знания фреймфорков с функционалом numpy. Cуть задачи реализовать обозначенную логику через операции над тензорами. Без циклов и явных обращений к каждом элементу, а путем работы с векторами.

Формально, это конечно же никакой ни литкод. Но из-за того что задачи часто могут звучать далекими от жизни, можно сказать, что элемент литкода присутствует. Как правило, решение будет состоять из того, чтобы написать наивное решение с циклами, увидеть какой-то паттерн и найти как это можно свести к существующим операциям над тензорами (слайсы, бродкастинг, паддинг, cumsum, маскирование и так далее).

Пример подобной задачи:

Given a binary array mask and a value fill_value, return an array of the same length where each contiguous run of 1s is replaced by its 0-based run id (from left to right), and each 0 is replaced by fill_value.

mask = [0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0]
fill_value = -1

# output
[-1, -1, 0, 0, -1, -1, 1, 1, 1, -1, 2, -1, 3, 3, 3, 3, -1, 4, -1]

Или чуть более сложная версия (с точки зрения векторных операций):

Given a binary array mask, return an array of the same length where each contiguous run of 1s is replaced by its run length, and each 0 stays 0.

mask = [0, 1, 1, 0, 1, 1, 1, 0, 1]

# output
[0, 2, 2, 0, 3, 3, 3, 0, 1]

Такие секции не очень частое явление. Их можно увидеть в стартапах, организованных выходцами из больших лаб, где компании ориентированы на обучение своих моделей. Из того что я слышал, таким подходом пытаются заменить классический литкод про алгоритмы и структуры данных – чем-то более похожим, что делают ML инженеры. Подписчик вытянул подобные вопросы в 2 из 5 процессов с стартапами SF based.

Похоже ли это на ML инженерию в жизни? Частично. Когда-то я и в сам возился с сложными процессингом батчей и без эффективных операций над матрицами все работало крайне медленно; хорошее решение заняло часы (еще до агентской эпохи), много принтов и тестов, чтобы убедиться в правильности. Но в рамках интервью, пока что звучит как какое-то задротство. Классический ML Coding / ML Debugging, который хотя бы про известные кусочки мл архитектур, выглядит более разумно.

Остается важный вопрос. А как готовиться к такого рода задачам? Я не нашел одного хорошего ответа, как прокачивать свои навыки в такой нишевой теме, но вот несколько ссылок и советов:

1. Комфортно чувствовать себя при работе с ключевыми операциями над тензорами. Порешать упражнения из популярного репозитория тут
2. Более структурированный курс с набором упражнений на codechef
3. Платформы-тренажеры с вопросами в стиле интервью: tensorgym, tensortonic, deep-ML

Возможно, в комментарии еще накидают полезных ресурсов!
Кто знает, возможно такой формат адаптируют повсеместно, тогда будем гриндить новый тип литкода!

10🔥33❤19⚡8👍4🤯2🆒1

3.69K viewsedited 13:02

max.sh

Вчера посетил конференцию AI Engineer в Лондоне. Это те самые ребята с классным YouTube-каналом, где публикуют доклады про все возможные темы в AI (посмотреть можно тут). Масштаб мероприятия чуть скромнее, чем в SF, но всё равно очень бодро: куча выступлений, воркшопов, экспо и почти все фронтир лабы.

Несколько впечатлений:

* За локацию большой лайк. Идти по Westminster-у утром одно удовольствие. И сама площадка, Queen Elizabeth II Centre, впечатляет внутри и снаружи – фото 1-3.

* Экспо класс. Дизайн стэндов, их оформление и наполнение – это отдельный вид искусства. Тут и гугл, который предлагает сделать селфи, стилизовать фото с помощью Nano Banana и напечатать персонализированные стикеры, и стэнд в виде лавки с хот-догами от ребят из PostHog. Все компании стараются привлечь внимание и удивить.

* Креативность ребят из ElevenLabs просто на другом уровне. Они привезли английскую красную телефонную будку, поставили в неё ретро-телефон. Фото 4. Если взять трубку, с тобой заговорит ведущий и предложит пройти викторину, за которую потом можно получить приятные подарки. Как можно догадаться, ведущий – это голосовой агент на движке от компании. Звучит очень натурально, с минимальной задержкой и совсем не раздражает. Автору задумки, Борису (Борис, привет, если читаешь!), Growth Engineer в компании, респект за всю концепцию и реализацию.

* Немного и про более серьезные вещи. Про выступления. Естественно, в каждом докладе говорят про агентов, но в зависимости от специфики компании фокусируются на своей нише: Modal и RunPod продают облачные вычисления, SnorkelAI – RL-среды фронтир-лабораториям для обучения агентов, Braintrust – observability агентских логов. А кто-то продает и самих агентов. Интересно, что во всех докладах делается акцент на бенчмарках и важности эвалов. До такой степени, что эвалы становятся новой фичей продукта.

* Поэтому когда я пошел на секцию про Kaggle (олды помнят это как крупнейшую площадку для ML-соревнований), то был удивлен, как сильно изменилась платформа. На лендинге теперь красуется слоган «The World's AI Proving Ground», а сам доклад был про релиз новых функций для тестирования агентов. В том числе показали режим Benchmarks: каждый может создать свой бенчмарк и прогнать разные модели.

* Хоть организаторы и обещают, что в докладах минимум рекламы (даже в спонсорских), на практике это реализуется слабо. Были технические воркшопы с хорошей глубиной, про статью или опыт обучения моделей, но те кто следят за индустрией, с высокой долей вероятности уже и так с этим знакомы.

* Нетворк офигенный. На стэндах в основном стоят сэйлзы или продакты, но иногда можно найти и инженеров и здорово поговорить.

24🔥34❤12👍4🍓3😁2😱1🦄1

3.34K views13:01

max.sh

В прошлом году делал пост с подборкой ресурсов для желающих разобраться в деталях RLHF. Одним из ключевых ресурсов была книга довольно уважаемого рисерчера и преподавателя Nathan Lambert.

Сегодня у него вышло обновление. Автор оформил книгу в виде бесплатного мини-курса с видео-лекциями, слайдами и кодом.

Получилось 4 лекции по часу, от введения до математики и реализации.

Лекции на ютубе смотреть тут

max.sh

Подборка ресурсов для изучения RL в контексте LLM

Методы пост-тренировки — RLHF, GRPO, DPO и другие — очень быстро эволюционируют и становятся "повседневным" инструментом ML-инженеров. Это особенно заметно с появлением концепции верифицируемых ревордов (подробнее…

12❤34👍11👏5👾2🔥1

3.14K viewsedited 09:52

max.sh

Попробовал свежий Claude Design от 🖥. Простыми словами – Claude Code для визуала, для дизайнеров, фаундеров, продакт менеджеров, маркетологов и всех-всех, кому нужно что-нибудь презентовать с помощью сладов / моков / питч деков.

Я ни к одной из этих ролей не отношусь. Но слайды мне иногда делать нужно: для технических демо, лекций или презентаций. Мне нравится делать нарратив, и абсолютно ок с мыслью надергать картинок/текста из источника, чтобы сделать повествование. Но вот визуальное оформление – это просто пытка, на которую никогда не хочется тратить время.

Поэтому первый эксперимент, который я провел с Claude Design – это полировка моих слайдов на обзор одной статьи. Слайды оставлю в комментариях, а потом сделаю отдельный пост.

Я создал простейшую презентацию в Google Slides, накидал туда выдержек из текста статьи, с простейшим форматированием, только буллетпоинты, добавил скриншотов и дополнительных подводок, которые мне были нужны. А потом загрузил все в Клода.

Вышло очень приемлемо. В белую простыню текста добавился визуал и приятный вид. Сильно быстрее и лучше, чем если бы я учился делать что-то такое сам.

Более того, можно интерактивно править каждый отдельный слайд или добавлять новый. Достаточно в окне чата просто написать "Добавь после слайда 27 слайд с такой-то картинкой и текстом". Instruction Following отличный! Так же можно легко переделать тему презентации или добавлять интерактивных элементов.

Отдельно понравилось, что после каждого большого изменения Claude Design запускает агента верификатора. Тот делает скриншоты и отлавливает визуальные баги. Работает хорошо, но пока только на простых ситуациях, например, где картинка поехала за пределы слайда или наслоилась на другую.

По итогу опыт очень приятный. Учитывая что это только Research Preview, работает бодро! И мне, как человеку, который не любит тратить время на дизайн, но хочет чтобы иногда было красиво, такой инструмент точно будет помогать.

У меня только один вопрос. Почему такого нет нативно в Google Slides. Учитывая крутую модель для генерации картинок и умную LLM под капотом, почему нет удобного интерфейса чтобы делать такие же слайд деки. Надеюсь, завезут.

Please open Telegram to view this post

VIEW IN TELEGRAM

Anthropic

Introducing Claude Design by Anthropic Labs

Today, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

10❤21🔥10😁3🤡3👎1🖕1

2.74K viewsedited 12:52

About

Blog

Apps

Platform