partially unsupervised

Почти закончен перевод нашей книги на русский язык.

Уже доступен предзаказ, сама книга будет в продаже с 26 января.

Предзаказ - промокод на 35%

2👍48❤20🔥12💩3🌭3😁1🍓1

8.74K views10:13

Личные итоги года по сравнению с 2024:

- много работал, интересно и в основном в кайф, но по итогам почти безрезультатно, back to square one - штош, не прокнуло. Очень благодарен всем соучастникам, вы классные;
- перешел от старого доброго ML к agentic AI шаманству. В целом бодро, но немного ностальгирую по временам, когда модели можно было учить (нытье по этому поводу - раз, два);
- незапланированно оказался в бигтехе с его плюсами и минусами;
- был соавтором статьи, которую не приняли на воркшоп NeurIPS, зато после доработки приняли на SANER;
- почти перестал писать код руками и сдался вайбкодингу, claude code - однозначно инструмент года;
- сделал слегка виральный brainrot пет-проект @ScratchAuthorEgoBot, там все еще теплится жизнь;
- подарил сколько-то экземпляров книги с автографами, каждая подпись - лютый кринж;
- наконец-то выучил и сдал польский на B1, практически сразу после экзамена половину забыл;
- ощутил два землетрясения за три дня (одно на семерку), интересный опыт для жителя равнины;
- впервые оказавшись на горнолыжном курорте, свалился с T-bar подъемника.

С наступающим, дорогие читатели! 🥂

👏83🍾65❤18❤‍🔥16👍6😁2🔥1

9.74K viewsedited 11:27

partially unsupervised

Последние несколько недель баловался с разными консольными кодинг агентами. Claude Code все еще остается моим фаворитом, но смотреть по сторонам полезно, тем более когда что-то про agentic devex написано в моих рабочих задачах.

Клиенты

Попробовал Opencode, Gemini CLI, Github Copilot CLI, Codex. Раз речь про вайбкодинг, то и оценивать буду по вайбам:
- Gemini и Copilot - клиенты сыроваты, работать можно, но не хочется.
- Codex созрел и стал вполне юзабельным.
- Opencode прям хорош, UX отполированный, полностью опенсорсный, есть плагины, развивается очень быстро.

Еще одна фича Opencode: можно не только использовать провайдеров с оплатой по токенам, но и переиспользовать подписки. Серая зона: одни провайдеры (Anthropic) явно запрещают использовать сторонние клиенты, некоторые (Copilot, Minimax, Z.ai) разрешают, так что где-то приходится действовать на свой страх и риск.

Модели

Попробовал и разные модели в Opencode:
- minimax 2.1, GLM 4.7 - похожи на sonnet предыдущего поколения, дешевые рабочие лошадки для простых задач
- GPT Codex 5.2 - задает очень много вопросов, вкапывается в детали - иногда в лишние, а потом уходит работать на пару часов с достойным качеством
- Gemini 3 Pro - на первый взгляд все классно, может предложить нетривиальные идеи или быстро решить сложную задачу... но потом оказывается, что где-то с высокой вероятностью подложена свинья. Например, переписываю большой кусок с питона на раст, агент пишет гору правдоподобного кода и бодро отчитывается, что все проверено и идеально матчится, но в итоге окажется, что 10% функций цинично проигнорировано. Они не просто где-то выпали из контекста, а нагло возвращают константу с комментарием в коде типа "а это делать не буду, и так норм". Что-нибудь молча удалить или наоборот попытаться закоммитить - тоже нередкая ситуация.
- Gemini Flash 3 - аналогично, только быстрее и тупее.

Воскрешение года

Повод удивиться: внезапно подписка Copilot выглядит наиболее выгодной в категории "топ за свои деньги". Copilot можно использовать в стороннем клиенте (включая и вышеупомянутый Opencode, и мой любимый Zed), можно переключаться между моделями (есть все основные провайдеры, и новые модели доезжают довольно быстро).

Кто бы мог подумать: еще год назад, когда я в каком-то разговоре упомянул Copilot, мой собеседник посмотрел на меня с ноткой презрения - мол, ты чего, все пацаны сидят на Cursor/Windsurf, зачем ты вообще помнишь про это старье.

1👍51🔥23❤11

11.3K views21:51

partially unsupervised

Трейдеры из Wunder Fund остались насколько довольны своим прошлым соревнованием (и рекламой в моем канале), что недолго думая запустили новое . Данные стали ближе к реальности: вот настоящий ордербук, вот сигнал изменения цены, доставайте свой fit_predict. Ограничения по инференсу тоже близкие к жизни. Награды остались такими же: 8 призовых мест, за первое - $5000, ну и на интервью позовут наверняка.

Если еще помните, как делать import torch, набегайте , рубитесь до 1 марта и хвастайтесь позицией на лидерборде!

👍32🔥16💩10❤2

10.6K viewsedited 08:00

partially unsupervised

Предсказание с дивана: навыки классического ML/DL скоро превратятся в знание ~~Cobol~~ Fortran (он еще жив, я даже когда-то постил вакансию фортран-программиста).
Хайпа не будет, но будет нишевый устойчивый спрос на седобородых дедов, которые читали Хасти, Бишопа и Гудфеллоу.

Есть какая-то популяция людей, которые умеет в ML. Верхний перцентиль делает foundational модели в топ лабах, сразу забудем про них. Оставшиеся простые смертные внезапно оказались востребованы в GenAI движухе: пусть умение тюнить бустинги и докидывать лоссы малорелевантно умению переписывать промпты, в среднем почему-то именно таких людей хотят видеть нанимающие менеджеры (там AI, и тут AI, логично). Так что специалистов на классический ML/DL остается меньше.

А ведь задачи никуда не делись. Окей, что-то заменили на вызов API, что-то будет ваншотиться кодинг агентами, но что-то и останется - от рекомендашек и ранкинга до глубоко специфических доменных задач, про которые большинство из нас никогда не думало. Более того, жирные бюджеты на AI вполне позволяют делать компаниям что-то полезное и прагматичное на сдачу от контракта с OpenAI. При этом "скучная" часть как раз упростится - писать коннекторы руками не придется.

Большой босс, которого я загнал в угол со стаканом кофе, рассказал такой анекдот: в одну нефтяную компанию пришел очередной консалтинг продавать AI. В качестве титульного юзкейса предложили сделать чатбота для HR-саппорта. Реакция была прямолинейной: "прогоните этих кретинов" - для этой компании ML важен для оптимизации обнаружения нефтяных запасов на доли процента, они вливают туда десятки миллионов, а на административные затраты эйчаров им глубоко наплевать.

partially unsupervised

Реклама, которую вы точно не ждали.

Если вы склонны ворчать, что программирование стало скучным конвейером по перекладыванию протобафов для бесполезных фичей и крысиными гонками за новыми фреймворками, то вот вам шанс резко изменить свою жизнь!

Мой старый…

1😁76🫡17👍15❤13😢2🔥1

11.5K viewsedited 18:55

partially unsupervised

Если вы сколько-то управляете разработчиками и испытываете FOMO от все этой AI движухи, то я принес вам рекламу.

"AI Hard Fork" — практическая онлайн-конфа о том, как AI меняет процессы разработки, и как управлять этими изменениями. Ее организуют Стратоплан и Entropy Talk, а выступают большие боссы и успешные практики разных уровней - от EMов до C-левела. Я даже лично знаю двоих докладчиков, и они действительно умные ребята.

Примеры тем:

- "Скрам не нужен: как AI кодинг меняет представление об эффективной команде." (как будто раньше он был нужен, лол)
- "Как стать 10x-менеджером" (~~и не успевать еще больше~~)
- нужны ли программисты во времена вайбкодинга (и снова FOMO!)

Конфа пройдет 24-26 февраля, можно смотреть бесплатно (онлайн или в записи), можно занести немного денег, получить сертификат и флексить. Регистрация по ссылке, набегайте (или не набегайте, если и так без проблем успеваете следить за тем, как AI колбасит всю software engineering индустрию).

🔥31👍18❤13😁7👎6👏1🌭1

10.5K views10:57

partially unsupervised

Когда агенты начнут всерьез жрать рабочие места белых воротничков, будет два противоположных вида страховки: лицензия от регулятора и контролируемая ебанутость.

С регуляторами все понятно: кто-то должен ставить свою подпись под AI слопом. Мой налоговый консультант отвечает на емейлы явно гпт-шным текстом и берет за это полторы сотни в час. Его лицензия все еще будет иметь ценность, даже если claude 5 будет составлять такие же запросы в налоговую из коробки.

Про ебанутость не так очевидно. Типичные верифицируемые задачи продолжат загоняться в посттрейнинг и будут выучиваться до некоторой моды в статистическом смысле, на выходе много качественного информационного фастфуда. Говорю совершенно без осуждения: фастфуд может быть относительно здоровым, зато безгранично доступным. Вот и средний AI-генеренный код лучше среднего человеческого кода, он редко изящный, но читаемый и решает задачу. Аналогично с текстами, решениями рядовых менеджеров, диагнозами уставших терапевтов и так далее.

Только вот компромиссные решения - это скорее регрессия к среднему, защита от плохих исходов, скучное корпоративное болото с малым прогнозируемым ростом, не прогресс и не искусство. Действия opinionated людей - статистический выброс, они повышают лосс. Иногда надо делать не по учебнику, а иррационально принять риск. Настолько иррационально, что кто-то из нормисов может крутить пальцем у виска. Reward модель вашей любимой LLM скорее всего бы оценила тексты вашего любимого писателя не слишком высоко.

Но первое слово в словосочетании "контролируемая ебанутость" не менее важно - просто быть хаотичным дурачком недостаточно. В Кремниевой долине десятилетиями пели гимны фаундерам, бросившим универ. Но есть нюанс: такой архетипичный бунтарь должен бросить условный Стэнфорд (а значит, и попасть туда для начала), а не смолевическое заборостроительное училище. Иррациональный риск не должен быть лудоманией, а чувак с мнением - просто капризным мудаком.

В одном эти две крайности сходятся: исполнительные закрыватели тикетов в джире не нужны.

130🤝68❤30👍18🤡10😨2🐳1

11.8K views16:11

partially unsupervised

Чтобы гора сгенеренного кода меня не поглотила, к процессу ~~вайбкодинга~~ AI assisted разработки нужно было добавить и AI-based ревью. Но ожидаемо Клод слишком любит код, написанный Клодом, и мышей ловил недостаточно.

Так я начал использовать opencode с Gemini для ревью. Сначала все было хорошо, Gemini - такая странная модель, которую нельзя подпускать к написанию кода (мой любимый комментарий про это), но критиковать умеет по делу. Opencode был всем неплох, но жрал тонны памяти и периодически зависал в неинтерактивном режиме (в т.ч. на CI). Короче, not invented here синдром назревал.

https://github.com/arsenyinfo/nitpicker - just another code review agent. Быстрый, маленький, умеет в LLM council (хоть где-то пригодится подписка на z.ai и minimax), и за счет этого ловит довольно много ошибок (хотя и ценой ложных срабатываний).

1❤56👍17😁8❤‍🔥1🔥1🙏1

19.2K views16:09

partially unsupervised

Поскольку Anthropic активно лезет в code review, мне тоже пришлось закоммитить чего-то нового в nitpicker. В частности:
- добавил флаг --debate, чтобы ревьюверы могли друг с другом спорить, по вайбам выглядит полезно, пусть и медленнее параллельного ревью.
- добавил команду ask, чтобы ревьюверы могли не только ревьювить, но и просто обсуждать какие-то идеи про этот код (например, быстро приходят к консенсусу, что переписывать nitpicker на zig - тупая идея).

nitpicker уже активно [больше одного человека] пилотируют в некоторых [одном] бигтехе, я буквально в шаге от того, чтобы поднимать ~~раунд~~ стакан с пивком

1😁74👍30🐳11🔥7❤2❤‍🔥1🍾1

9.86K views15:53

partially unsupervised

Слово harness стало резко популярным в моем пузыре (кстати, отличный глубокий обзор про то, что это вообще такое и зачем). И когда из single agent подходов стало тяжелее выжимать заметный буст, все стали смотреть на мультиагентные конфигурации.
Я и сам немного экспериментирую с переменным успехом (первая выжившая версия едва ли была полезнее обычного клодкода, nitpicker - тоже один из экспериментов; остальное в закрытой репе, но идейно близко к этому свежему посту от Anthropic).

Есть направление про agentic swarms / teams, в котором агенты как-то сотрудничают, делегируют, наделяются разными ролями и вообще ведут себя антропоморфно. Некоторые проекты из этой категории удивительно кринжовые, например, Gastown - не хватало еще, чтобы агенты собирались в гильдии и ходили в рейды.

Есть направление, в котором тонкое взаимодействие заменяется брутфорсом, циклами и умеренно наивной валидацией: это и моментально ставший классическим эксперимент про компилятор C от Антропика, и подходы на базе Ralph Loop. Дорогие агенты, делайте что хотите, но будете перемножать матрицы, пока тесты и AI ревью не пройдут.

Мне интутивно кажется, что второй подход ближе к прикладному применению. Все эти антропоморфные идеи и ролевой скевоморфизм чем-то напоминают попытки улучшать современные нейросети, отталкиваясь от строения синапсов. Я предпочитаю map reduce как дефолтный подход к параллелизации, а не заклинания "этот агент будет вести себя как senior frontend developer, а этот - staff UX designer". Люди вынуждены делиться по компетенциям, потому что у нас недостаточно общего претрейна. У агентов он есть, потому их нужно структурировать в графы по данным / задачам, а не по человекочитаемым тайтлам.

С другой стороны, Anthropic сделал свои teams отчасти антропоморфными. Китайские open weight провайдеры тоже вкручивают agent teams нативно в обучение (см kimi 2.5, minimax 2.7). И несмотря на то, что существующие claude agent teams никому пока не нравятся, победит, конечно, тот подход, который затюнят на посттрейне. Повторюсь: we can't fight gradient descent.

❤42👍12🔥3😁2💯2👏1

11.5K views16:46

partially unsupervised

Семь лет назад я занимался AR примеркой обуви. Однажды к нам пришел один из VC партнеров и спросил: "а почему у вас в приложении нет allbirds? В Долине все только их и носят".

Процедура добавления новой модели предполагала покупку физической пары, потом их сканировали, делали фотограмметрию, а результат доводили до ума руками. Так на полке со скопившейся обувью осталась пара allbirds ровно моего размера, и при увольнении мне ее подарили.

С тех пор я стоптал пар пять этих прекрасных кроссовок разных цветов, они подходили мне идеально. И вот эпоха ушла: allbirds официально переключаются с обуви на GPU инфраструктуру. Раньше мы нагружали видеокарты, чтобы рендерить их кроссовки, теперь они сами будут продавать GPU-часы.

😁125👀15🤣12❤8⚡3😢1

12.4K views17:38

partially unsupervised

Когда-то я писал про вакансию DL инженера у моих старых корешей из GRAI.fm🎵. Прошло 10 месяцев, и ребята пришли ко мне снова. Они подняли жирный seed раунд, и теперь им нужен еще один могучий ресерч инженер, чтобы обмазываться статьями про аудио и доводить их до продукта. На самом деле инженерных вакансий больше - например, нужен и человек про датку и MLOps.

Их СТО утверждает, что лучшие люди в их команду пришли именно из моего канала, так что не подведите и в этот раз, дорогие подписчики.

❤52👍8😁4

9.05K viewsedited 14:28

partially unsupervised

Мне недавно написал Макс (ресерчер в tessl.io и автор канала @max_dot_sh) и спросил, планирую ли я что-то добавлять в nitpicker. Так я узнал про третью компанию, в которой инженеры всерьез используют мою поделку. Удачное совпадение: как раз на прошлой неделе добрался катнуть несколько изменений.

Во-первых, включил режим debate по умолчанию и подкрутил промпты, чтобы максимизировать adversarial аспект. Ожидаемо все стало еще медленнее.

Во-вторых, попробовав гонять nitpicker на больших проектах целиком вместо мелких пулл реквестов, я уткнулся в ограничения контекста: агент легко мог выжрать 200к+ токенов и упасть. Так что я добавил поддержку субагентов и сжатие контекста после отсечки. По совпадению, субагентов я добавил к релизу Kimi 2.6, которая специально обучена на активное их использование. Правда, еще Kimi регулярно заикалась, пытаясь вызывать одинаковые тулы по кругу, пришлось обмазывать костылями про loop detection.

В итоге машинка может сжечь под миллион токенов и 20 минут на ревью пулл реквеста на 500 строк, что вроде бы долго и дорого. С другой стороны, я проверил на нескольких настоящих живых проектах, и везде нашел какие-то пусть и не критичные, но достойные внимания баги или уязвимости. Люксовые конфиги типа opus 4.7 + gpt 5.5 работают лучше, но и на доступных китайских open weights моделях типа Kimi + GLM результат не полный слоп.

Это все еще вайбчек, а не бенчмарк - надеюсь как-нибудь найти время и померять системно.

🔥35❤7👍4😁2

9.16K views08:20

partially unsupervised

Наблюдая одним глазом за внедрением кодинг агентов на разных уровнях в разных компаниях, я не могу ответить на один вопрос: зачем топ-менеджеры поддерживают (а иногда и форсят) политику, что менеджеры теперь всерьез должны коммитить код. Не тимлиды, а настоящие менеджеры менеджеров, часто директора и выше. Не только прототипы на коленке, но и прямо в основные репозитории.

На реддите воют, что такие директорские пуллреквесты в лучшем случае бесполезны. Типичный директор и так не страдает от безделия, у него есть возможность мультипликативно усилить свою команду. И даже самые умные из них обычно знают кишки проектов хуже рядовых разработчиков. Агенты - великие уравнители; и директор, и L4 гребец будут промптить примерно одинаково, только инженер, будучи в контексте проекта, с большей вероятностью отловит слоп до попадания в прод.

Я понимаю, что вайбкодить - особенно в первое время - может быть тупо интересно. Но где тут рациональное зерно, зачем делать из дорогих менеджеров посредственных IC? Пожалуйста, расскажите в комментариях, что я упускаю - не готов поверить, что на волне хайпа экзеки просто слетают с катушек.

12👍80❤16😁4

10.1K viewsedited 20:46

partially unsupervised

Многие из вас видели заголовок Rewrite Bun in Rust has been merged или, возможно, читали пересказы в популярных каналах (1, 2).

Это сделанный агентом PR на 1 млн строк. Такие масштабы от меня далеки, но с похожими штуками я недавно ковырялся. Далеки - это в данном случае два порядка: получалось добиться успешной трансляции Typescript => Rust на 10к строк. Мои условия были в чем-то сложнее, чем в истории с Bun: тестовое покрытие значительно хуже, и волшебного Mythos у меня тоже не было, только Opus 4.6, GPT 5.4 и готовность сжигать миллионы токенов в дебатах между ними (как у nitpicker).

Этот эксперимент TS=>Rust не заработал с первой попытки, но ломался исключительно на границах - например, не идеально совпадали env var для докерфайла. Тот же харнесс пробовали применить и для более сложной/масштабной задачи, и там one shot работал еще хуже, но в основном тоже из-за сложности в интеграции и нехватки специфического контекста. Там пришлось двигаться итеративно, и каждая такая итерация подсвечивала новые пробелы в контексте, несовершенство тестов и бенчмарков.

В случае Bun отдельный вектор критики в том, что в Rust ветке примерно 10к вхождений unsafe в 700 файлах - "какой же это раст???". Не вижу в этом серьезной проблемы. Наверняка в этой миграции частью дизайна было "переносим все как есть строка в строку, а потом уже оптимизируем. Какое-то количество unsafe кода в рантайме практически неизбежно, и это окей - идиоматичный стиль не запрещает unsafe, а только рекомендует использовать его компактно, обернув в безопасный интерфейсы. Принцип make it work, make it right, make it fast никто не отменял, и снизить количество этих unsafe кусков тем же харнессом с моего дивана не представляется проблемой.

Rust was accidentally designed for AI-assisted development 10 years before anyone knew that mattered. И сложно представить, что может изменить эту траекторию.

❤28🤝4💩2👍1

9.61K views15:27

partially unsupervised

Личный карьерный апдейт: третью неделю работаю в archestra.ai, моя задача - тащить современный агентский слой в широком смысле слова. Иными словами, вернулся к позиции "писать в меру экспериментальный опенсорс за деньги". Снова работать в команде из семи человек после недолгого захода в бигтех - кайф.

Archestra - security-first инфра платформа для агентов. Запустить openclaw-like агента локально несложно, особенно в YOLO режиме; раскатить на большую организацию - совсем не тривиально. Для больших ребят есть enterprise лицензия, forward deployed engineers и все такое; для энтузиастов и компаний поменьше есть опенсорсная репа, которую можно развернуть в любом кластере.

Как я люблю шутить, моя главная роль в любом стартапе - это привлекать удачу, например, вот этот $10M seed, к которому я, конечно, отношения не имею. Зато теперь мне официально не придется ограничивать себя в токенмаксинге.

🔥75❤24👎5👏3

7.91K viewsedited 11:27

partially unsupervised

История с закрытием доступа к Fable - повод тянуться за шампанским в офисах провайдеров открытых моделей. Каждый executive, который участвовал во внедрении AI в своей организации (т.е. просто каждый executive), резко задумался: "А что и кому они внезапно отключат в следующий раз?". Все страхи про вендорлок материализовались мгновенно, даже если конкретно в этой компании Fable и не начали использовать, да и не планировали.

И поэтому все мультивендорные альтернативы резко заиграли новыми красками. Во-первых, бигтехи, перепродающие много моделей под своей крышей (AWS Bedrock, Databricks Unity AI Gateway, Cursor в случае кодинг агентов). Но это полумера, все еще сильная зависимость от топовых лаб. Потому есть и во-вторых: выбрать что-то с open weights, как раз ключевые игроки в этой нише недавно выкатили свежие релизы (Minimax 3, Kimi 2.7, GLM 5.2). Сменить провайдера в таком сетапе совершенно не проблема.

Где-то тут еще витают страхи, что токены в обозримом будущем подорожают, чтобы отбивать венчурные сотни миллиардов, кодинг агенты по подписке снизят лимиты / перестанут быть доступны для корпораций. В общем, беспокойное время для менеджеров, хорошее время делать vendor-agnostic платформы.

Openrouter идеально подгадал по времени и выкатил fusion ендпоинт, из которого неспециалист достанет только один тейк - "микс из моделей попроще работает не хуже топовой модели". Воспитанные кагглом люди помнят, что ансамбли слабо скоррелированных моделей - универсальный молоток. Дьявол все еще в деталях, универсального способа блендить LLM пока не видно, хотя для частных случаев что-то придумать можно.

—
Именно для этих экспериментов я в свое время и сделал nitpicker - чтобы вайбчекать варианты бленда моделей, пытаясь получить близкое к tier-1 качество, используя tier-2 модели (впрочем, никто не мешает жечь и токены опуса/gpt).

Для тех, кому лень ставить незнакомый софт, сделал бесплатную веб-версию. Ограничения: одно ревью на всех в момент времени, работает только с публичными PR на гитхабе, те самые tier-2 модели, аптайм не гарантирован (хостится у меня под теликом).

1👍51❤23🔥9😁3🐳1💯1

8.36K views07:45

partially unsupervised

Самая недохайпованная AI лаба тоже верит в будущее за оркестрацией доступных моделей.

Frontier-level performance without single-vendor dependency.
> Our Fugu models surpass publicly accessible frontier models and are shoulder-to-shoulder with Fable 5 and Mythos Preview in various rigorous engineering, scientific, and reasoning benchmarks while delivering frontier capability without the risk of export controls.

Как обычно, европейцам без впна можно только почитать репорт.

❤24👍10🔥2😁1

6.23K viewsedited 10:54

partially unsupervised

☭ https://sovietrxiv.org ☭

Самое время идти к VC с питчем: "Ивахненко и Вапник - два моих деда, нашел их записные книжки на даче, дайте миллиард"

👍25🤣12❤8🔥4

15.3K views19:32

partially unsupervised

Давние читатели канала помнят, что когда-то в древние времена мы с Валерой написали книжку про ML design. Это было так давно, что люди тогда умели не только читать по диагонали, но еще иногда писать, а книги были значимым артефактом для упаковки знаний. С тех пор утекло немало воды, работу делают агенты, и книгам они предпочитают скиллы.

И вот мы с клодом наконец добрались перепаковать одно в другое: ML system design в форме скилла с набором рубрик для ревью. Устанавливается одной командой через skills.sh, умеет ревьювить дизайн-доки и ML проекты лучше агента из коробки и ~~чесать нам эго~~ ненавязчиво ссылаться на авторов как могучих авторитетов.

❤78🔥33💩6🤡5😁3👍2

14.5K viewsedited 21:02

About

Blog

Apps

Platform