Старший Авгур

Слайды: https://tinyurl.com/autoscience
Видео: https://www.youtube.com/watch?v=cTGt-C8XvOo

🔥22👍10

5.8K viewsedited 17:37

В этот раз я просто рецензент на ICLR 2026, без статьи, что даёт мне возможность оценить всё со стороны. Рецензии я писал по 5 статьям, и сегодня их (и рецензии от других людей) выложили на openreview.

В итоге во всех 5 статьях какой-то цирк. Среди них нет НИ ОДНОЙ, в которой рецензенты хотя бы в общих чертах сошлись. Во многих случаях у меня ощущение, что рецензенты читали жопой, причём это касается как излишне положительных рецензий для откровенно плохой статьи, так и наоборот.

🤣43🤯9😢7👍6💯4🤔1👌1

6.3K viewsedited 15:30

Старший Авгур

Впервые за несколько лет я захотел купить домен. Оказалось, что я выбрал идеальный момент…

😁82💯11😢3💔2👏1🎉1🍾1

5.88K views13:35

Старший Авгур

Кажется пора возвращаться к генератору мемов, но на этот раз на nano banana.

🔥59😁26✍10👍3👏3💯2🤮1👌1🤣1🏆1

23.7K views16:23

Старший Авгур

https://ilyagusev.dev/memetron3000

Можете сами погенерировать мемы по любому запросу. Очередь одна на всех, обрабатывается 1 запрос за раз. На ключике лежит 50$.

Время генерации одного мема: около минуты.
Цена: около 15 центов.
Если в очереди 20 человек, то ждать придётся около 20 минут.

Код: https://github.com/IlyaGusev/memetron3000

1🔥21❤4😁2🥴2👌1🌭1

5.21K viewsedited 18:02

Старший Авгур

Все сгенерированные мемы: https://ilyagusev.dev/memetron3000/gallery
Пока потрачено 25$ из 50$.

UPD: потрачено всё, оставляю только галерею.

1😁10❤3😴2👎1👏1👌1👾1

4.62K viewsedited 22:25

Старший Авгур

https://ilyagusev.dev/nlpsearch

Семантический поиск по NLP чату и (теперь) ещё по популярным NLP каналам. Под капотом gemini-embedding-001 для эмбеддингов и ~~gemini-2.5-flash~~ gpt-5-mini для суммаризации.

По сравнению с прошлой версией:
- Добавились каналы про ИИ/NLP
- В ранжирование добавилась свежесть и длина поста/треда.

Код: https://github.com/IlyaGusev/tg_chat_search

12🔥37👍11👏6❤4🏆2🍾1🆒1

5.76K viewsedited 07:29

Старший Авгур

https://www.aicrowd.com/challenges/orak-game-agent-challenge-2025

Агентское соревнование про видеоигры: Street Fighter III, Super Mario, Pokémon, StarCraft II, and 2048. Игры управляются через MCP. Почти что ARC-3, только на известных играх. Как это должно работать в real-time играх я хз (через паузу?), но тем интереснее.

Статья: https://arxiv.org/abs/2506.03610

AIcrowd | Orak Game Agent Challenge 2025 | Challenges

Build an LLM agent for five real-world games

🔥11🤔2👍1👾1

4.12K viewsedited 08:19

Старший Авгур

Forwarded from Борис опять

Полезного контента ещё какое-то время не будет, потому что админ на Yandex Cup 25

Вместе с @senior_augur и @ai_newz

🍾27🔥10🤮9🤔2👀1🦄1👾1

3.22K views10:40

Старший Авгур

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Съездил на Yandex Cup 2025 в качестве "медиа" (так на бейджике написано). Пригласили меня просто так, без какой-то нагрузки и обязательств.

Для не-участников была необязательная программа с одним докладом, парой "дискуссий", открытием/закрытием. Доклад был норм: верхнеуровневый обзор обучения языковых моделей от лида претрейна Яндекса. "Дискуссии" были мягко говоря так себе. Кроме того, для "медиа" ~~была попойка~~ был ужин в ресторане.

Само соревнование было из 6 треков (ML, бэкенд, аналитика и 3 других), в почти каждом из которых было 3 категории (основная, юниоры, сотрудники Яндекса). Всё соревнование шло 5 часов, окружение можно было подготовить заранее, к задачами были бейзлайны. Модели по API для решения задач использовать было нельзя, только self-hosted.

Я следил только за ML треком. Как "медиа" мне было довольно скучно, хоть и были прикольные стенды, где можно было попробовать разные традиционные ремёсла. Участникам было явно веселее.

Задачи в ML были про разные трюки с LLM и VLM (записано со слов составителей и участников, тексты условий мне не показывали):
🔵Первая задача была про поиск замаскированных иголок в стоге сена в большом наборе текстов.
🔵Вторая про adversarial атаки картинками на Q&A VLM, которые меняют ответ на вопрос.
🔵И третья про генерацию картинок с минимальным числом заполненных пикселей, которые при этом должны распознаваться VLM'кой как конкретные объекты.

По организации логистики и площадки всё было на высоте, как впрочем и на всех мероприятиях Яндекса, на которых я был.

Из забавного: на этом мероприятии была лоббистская часть. Один из выступающих был турецкий зам. министр транспорта и инфраструктуры, который в свой речи не забыл упомянуть и вклад великого лидера Реджепа Тайипа Эрдогана 👏

Ещё запомнился перформанс ребят из ИТМО, которые взяли второе место в ML треке и фоткались с флагом универа поверх чека, и последующая ответка от ЦУ в другом треке.

Классно пообщался почти со всеми другими "медиа": Борисом (@boris_again), Артёмом (@ai_newz), Настей (@ainastia), Сергеем (@doomgrad), Лаидой (@tech_priestess), Тагиром (@tagir_analyzes) и Таней (@dl_stories), было очень приятно!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤12🔥4💩4😁3

10.8K views08:26

Старший Авгур

Forwarded from Love. Death. Transformers.

This media is not supported in your browser

VIEW IN TELEGRAM

0:49

4.46K views14:47

😁26❤‍🔥5👍2💩2🔥1

Старший Авгур

Теперь все вместе, твёрдо и четко:

Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.

НЕ ФА*Н*ЮН.

😁88🤣14🤩3👎2

13.7K viewsedited 14:53

Старший Авгур

Я когда-то писал посты про Курсор(https://xn--r1a.website/senior_augur/429, https://xn--r1a.website/senior_augur/457).

Основными проблемами было то, что:
1) Я вынужден был пользоваться IDE
2) Я не получал удовольствия от процесса.

Так вот. Последние пару месяцев я пользуюсь Claude Code. И я обожаю его. С точки зрения UX это околоидеальная программа. Она нормально параллелит вызовы инструментов, сама решает, когда нужно подключать планирование, позволяет добавлять хотелки во время выполнения, хранит контекст проекта в понятном виде. Я туда воткнул свой Academia MCP и кроме всего прочего генерирую обзоры литературы и исследования.

Ну и удобно, что оно в терминале, в отдельном окошке screen’а прямо на dev сервере.

👍32🔥10🤔5🤡4❤3

5.49K viewsedited 12:48

Старший Авгур

Последнее время не так много постов, и связано это с 3 вещами.

🔹Во-первых, праздники и хочется отдохнуть. У меня был отпуск в конце ноября и начале декабря, но именно отдохнуть в него не получилось.
🔹Во-вторых, я меняю работу: ухожу из Букинга в стартап. Букинг меня немножко задолбал своим низким техническим уровнем и общей бессмысленностью происходящего, а в стартапе я вроде как буду заниматься интересными и полезными вещами. Это первый раз, когда я буду менять работу в Нидерландах, и надеюсь, что всё будет ок.
🔹В-третьих, я пытаюсь что-то делать в соревновании про шахматы. Соревнование про подготовку данных и дообучение языковых моделей, на нём я впервые потрогал verl и GRPO. Организация соревнования отвратительная, но крутить датасеты и конфиги мне всё ещё довольно интересно. Сама идея сделать объясняющую модельку для шахмат прикольная, только из-за технических ограничений (типа жёстких таймаутов, которые не позволяют длинные рассуждения) соревнование получается вообще про это. Параллельно я чуть-чуть потыкал и во второе сореванование про другие игры.

2🎄54🔥20☃12❤5👌3👍2🤔1🍌1😐1😭1🎅1

4.34K viewsedited 19:02

Старший Авгур

Dr. Zero: Self-Evolving Search Agents without Training Data
Статья: ссылка

Как-то раз, читая книжку, мне подумалось, что было бы неплохо вместо запихивания огромной кучи документов из интернета тренировать языковые модели в более естественном формате, через поиски в интернете. Одновременно обучая её вызову поискового инструмента и полученному тексту страничек, и давая ей возможность ходить по гиперссылкам, как в общем-то это происходит у людей.

Эта статья — более слабая версия такой системы. В качестве корпуса используется английская Википедия, проиндексированная с E5.

Из одной базовой модели (Qwen2.5-3B/7B) инициализируются две:
🔹Генератор вопросов: получает документ из Википедии, через вызовы поискового инструмента (который тоже может искать только по Википедии) строит цепочку рассуждений (до 3 поисковых запросов, длина задаётся в промпте), формулирует один сложный вопрос и ответ на него.
🔹Решатель: отвечает на сгенерированный вопрос (несколько попыток), используя тот же поисковый инструмент; учится рассуждать и искать.

Награда решателя — точное совпадение ответа, оптимизируется через стандартный GRPO.

Генератор оптимизировать сложнее. Ответ решателя семплируется N раз. Награда генератора: если решатель всегда правильно отвечает, то это не очень хорошо. Если всегда неправильно отвечает — тоже плохо. Если что-то между — то, что нужно.

Если пробовать применить GRPO, то будет проблемно, потому что ему нужно будет M развёрнутых вопросов, и для каждого из них решателю нужно будет дать N ответов. Но для каждого вопроса есть оценка сложности (количество шагов рассуждений). Авторы схитрили: как группу в GRPO они используют не вопросы к одному документу, а вопросы одинаковой сложности, но для разных документов.

Результаты получились очень крутые, особенно для системы без размеченных обучающих данных. Они обгоняют SFT и RAG на популярных QA бенчмарках и почти догоняют supervised RL агентов.

1👍26🔥10❤8🤯2✍1🤔1

2.98K viewsedited 21:51

Старший Авгур

https://www.youtube.com/watch?v=56HJQm5nb0U

Отличное видео о том, как разные языковые модели и кодовые агенты проходили продвинутый курс по ООП и структурам данных (CS2112) в Корнеллском университете.

Во-первых, я впечталён самим курсом, очень классная подача материала, финальный проект (программируемые существа в гексагональном мире с сетевым взаимодействием) и система оценивания.
Во-вторых, собран весь набор подводных камней и проблем вокруг кодовых агентов. Начиная от ужасных UI, заканчивая прямым игнорированием инструкций и попытками обмануть пользователя.

В итоге, спойлер: ChatGPT сдал курс на B+, остальные на C+.

🔥26❤2🗿2🤔1👌1

5.41K viewsedited 14:00

About

Blog

Apps

Platform