Старший Авгур
6.44K subscribers
303 photos
6 videos
6 files
316 links
Сохраненки и шитпост про ML от @YallenGusev
Чат канала: @augur_chat
Download Telegram
В этот раз я просто рецензент на ICLR 2026, без статьи, что даёт мне возможность оценить всё со стороны. Рецензии я писал по 5 статьям, и сегодня их (и рецензии от других людей) выложили на openreview.

В итоге во всех 5 статьях какой-то цирк. Среди них нет НИ ОДНОЙ, в которой рецензенты хотя бы в общих чертах сошлись. Во многих случаях у меня ощущение, что рецензенты читали жопой, причём это касается как излишне положительных рецензий для откровенно плохой статьи, так и наоборот.
🤣43🤯9😢7👍6💯4🤔1👌1
Впервые за несколько лет я захотел купить домен. Оказалось, что я выбрал идеальный момент…
😁82💯11😢3💔2👏1🎉1🍾1
Кажется пора возвращаться к генератору мемов, но на этот раз на nano banana.
🔥59😁2610👍3👏3💯2🤮1👌1🤣1🏆1
https://ilyagusev.dev/memetron3000

Можете сами погенерировать мемы по любому запросу. Очередь одна на всех, обрабатывается 1 запрос за раз. На ключике лежит 50$.

Время генерации одного мема: около минуты.
Цена: около 15 центов.
Если в очереди 20 человек, то ждать придётся около 20 минут.

Код: https://github.com/IlyaGusev/memetron3000
1🔥214😁2🥴2👌1🌭1
Все сгенерированные мемы: https://ilyagusev.dev/memetron3000/gallery
Пока потрачено 25$ из 50$.

UPD: потрачено всё, оставляю только галерею.
1😁103😴2👎1👏1👌1👾1
https://ilyagusev.dev/nlpsearch

Семантический поиск по NLP чату и (теперь) ещё по популярным NLP каналам. Под капотом gemini-embedding-001 для эмбеддингов и gemini-2.5-flash gpt-5-mini для суммаризации.

По сравнению с прошлой версией:
- Добавились каналы про ИИ/NLP
- В ранжирование добавилась свежесть и длина поста/треда.

Код: https://github.com/IlyaGusev/tg_chat_search
12🔥37👍11👏64🏆2🍾1🆒1
https://www.aicrowd.com/challenges/orak-game-agent-challenge-2025

Агентское соревнование про видеоигры: Street Fighter III, Super Mario, Pokémon, StarCraft II, and 2048. Игры управляются через MCP. Почти что ARC-3, только на известных играх. Как это должно работать в real-time играх я хз (через паузу?), но тем интереснее.

Статья: https://arxiv.org/abs/2506.03610
🔥11🤔2👍1👾1
Forwarded from Борис опять
Полезного контента ещё какое-то время не будет, потому что админ на Yandex Cup 25

Вместе с @senior_augur и @ai_newz
🍾27🔥10🤮9🤔2👀1🦄1👾1
Съездил на Yandex Cup 2025 в качестве "медиа" (так на бейджике написано). Пригласили меня просто так, без какой-то нагрузки и обязательств.

Для не-участников была необязательная программа с одним докладом, парой "дискуссий", открытием/закрытием. Доклад был норм: верхнеуровневый обзор обучения языковых моделей от лида претрейна Яндекса. "Дискуссии" были мягко говоря так себе. Кроме того, для "медиа" была попойка был ужин в ресторане.

Само соревнование было из 6 треков (ML, бэкенд, аналитика и 3 других), в почти каждом из которых было 3 категории (основная, юниоры, сотрудники Яндекса). Всё соревнование шло 5 часов, окружение можно было подготовить заранее, к задачами были бейзлайны. Модели по API для решения задач использовать было нельзя, только self-hosted.

Я следил только за ML треком. Как "медиа" мне было довольно скучно, хоть и были прикольные стенды, где можно было попробовать разные традиционные ремёсла. Участникам было явно веселее.

Задачи в ML были про разные трюки с LLM и VLM (записано со слов составителей и участников, тексты условий мне не показывали):
🔵Первая задача была про поиск замаскированных иголок в стоге сена в большом наборе текстов.
🔵Вторая про adversarial атаки картинками на Q&A VLM, которые меняют ответ на вопрос.
🔵И третья про генерацию картинок с минимальным числом заполненных пикселей, которые при этом должны распознаваться VLM'кой как конкретные объекты.

По организации логистики и площадки всё было на высоте, как впрочем и на всех мероприятиях Яндекса, на которых я был.

Из забавного: на этом мероприятии была лоббистская часть. Один из выступающих был турецкий зам. министр транспорта и инфраструктуры, который в свой речи не забыл упомянуть и вклад великого лидера Реджепа Тайипа Эрдогана 👏

Ещё запомнился перформанс ребят из ИТМО, которые взяли второе место в ML треке и фоткались с флагом универа поверх чека, и последующая ответка от ЦУ в другом треке.

Классно пообщался почти со всеми другими "медиа": Борисом (@boris_again), Артёмом (@ai_newz), Настей (@ainastia), Сергеем (@doomgrad), Лаидой (@tech_priestess), Тагиром (@tagir_analyzes) и Таней (@dl_stories), было очень приятно!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2112🔥4💩4😁3
This media is not supported in your browser
VIEW IN TELEGRAM
😁26❤‍🔥5👍2💩2🔥1
Теперь все вместе, твёрдо и четко:

Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.

НЕ ФА*Н*ЮН.
😁88🤣14🤩3👎2
Я когда-то писал посты про Курсор(https://xn--r1a.website/senior_augur/429, https://xn--r1a.website/senior_augur/457).

Основными проблемами было то, что:
1) Я вынужден был пользоваться IDE
2) Я не получал удовольствия от процесса.

Так вот. Последние пару месяцев я пользуюсь Claude Code. И я обожаю его. С точки зрения UX это околоидеальная программа. Она нормально параллелит вызовы инструментов, сама решает, когда нужно подключать планирование, позволяет добавлять хотелки во время выполнения, хранит контекст проекта в понятном виде. Я туда воткнул свой Academia MCP и кроме всего прочего генерирую обзоры литературы и исследования.

Ну и удобно, что оно в терминале, в отдельном окошке screen’а прямо на dev сервере.
👍32🔥10🤔5🤡43
Последнее время не так много постов, и связано это с 3 вещами.

🔹Во-первых, праздники и хочется отдохнуть. У меня был отпуск в конце ноября и начале декабря, но именно отдохнуть в него не получилось.
🔹Во-вторых, я меняю работу: ухожу из Букинга в стартап. Букинг меня немножко задолбал своим низким техническим уровнем и общей бессмысленностью происходящего, а в стартапе я вроде как буду заниматься интересными и полезными вещами. Это первый раз, когда я буду менять работу в Нидерландах, и надеюсь, что всё будет ок.
🔹В-третьих, я пытаюсь что-то делать в соревновании про шахматы. Соревнование про подготовку данных и дообучение языковых моделей, на нём я впервые потрогал verl и GRPO. Организация соревнования отвратительная, но крутить датасеты и конфиги мне всё ещё довольно интересно. Сама идея сделать объясняющую модельку для шахмат прикольная, только из-за технических ограничений (типа жёстких таймаутов, которые не позволяют длинные рассуждения) соревнование получается вообще про это. Параллельно я чуть-чуть потыкал и во второе сореванование про другие игры.
2🎄54🔥20125👌3👍2🤔1🍌1😐1😭1🎅1
Dr. Zero: Self-Evolving Search Agents without Training Data
Статья: ссылка

Как-то раз, читая книжку, мне подумалось, что было бы неплохо вместо запихивания огромной кучи документов из интернета тренировать языковые модели в более естественном формате, через поиски в интернете. Одновременно обучая её вызову поискового инструмента и полученному тексту страничек, и давая ей возможность ходить по гиперссылкам, как в общем-то это происходит у людей.

Эта статья — более слабая версия такой системы. В качестве корпуса используется английская Википедия, проиндексированная с E5.

Из одной базовой модели (Qwen2.5-3B/7B) инициализируются две:
🔹Генератор вопросов: получает документ из Википедии, через вызовы поискового инструмента (который тоже может искать только по Википедии) строит цепочку рассуждений (до 3 поисковых запросов, длина задаётся в промпте), формулирует один сложный вопрос и ответ на него.
🔹Решатель: отвечает на сгенерированный вопрос (несколько попыток), используя тот же поисковый инструмент; учится рассуждать и искать.

Награда решателя — точное совпадение ответа, оптимизируется через стандартный GRPO.

Генератор оптимизировать сложнее. Ответ решателя семплируется N раз. Награда генератора: если решатель всегда правильно отвечает, то это не очень хорошо. Если всегда неправильно отвечает — тоже плохо. Если что-то между — то, что нужно.

Если пробовать применить GRPO, то будет проблемно, потому что ему нужно будет M развёрнутых вопросов, и для каждого из них решателю нужно будет дать N ответов. Но для каждого вопроса есть оценка сложности (количество шагов рассуждений). Авторы схитрили: как группу в GRPO они используют не вопросы к одному документу, а вопросы одинаковой сложности, но для разных документов.

Результаты получились очень крутые, особенно для системы без размеченных обучающих данных. Они обгоняют SFT и RAG на популярных QA бенчмарках и почти догоняют supervised RL агентов.
1👍26🔥108🤯21🤔1
https://www.youtube.com/watch?v=56HJQm5nb0U

Отличное видео о том, как разные языковые модели и кодовые агенты проходили продвинутый курс по ООП и структурам данных (CS2112) в Корнеллском университете.

Во-первых, я впечталён самим курсом, очень классная подача материала, финальный проект (программируемые существа в гексагональном мире с сетевым взаимодействием) и система оценивания.
Во-вторых, собран весь набор подводных камней и проблем вокруг кодовых агентов. Начиная от ужасных UI, заканчивая прямым игнорированием инструкций и попытками обмануть пользователя.

В итоге, спойлер: ChatGPT сдал курс на B+, остальные на C+.
🔥262🗿2🤔1👌1