Борис опять
16.2K subscribers
1.51K photos
78 videos
35 files
1.55K links
life = curiosity + irreducible noise

Whois: https://xn--r1a.website/boris_again/3400

Лс: @btseytlin
Download Telegram
Forwarded from Kali Novskaya
🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸
#nlp #nlp_papers

Что будет, если дать агентам полную свободу модифицировать самих себя?
Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем.
Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу

🌸TL;DR
HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода.
При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective:
— агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу.

Улучшения возможны в обеих группах доменов:
— verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis)
— unverifiable rewards: рецензирование статей (Apres)

🌸Пайплайн

Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд.
Модификации образуют граф версий, который можно контролировать в git.

В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи.
Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно.

Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o

🌸Почему это работает: Абляционные исследования

Как должна выглядеть оптимальная система агента, чтобы поощрять открыты  поиск новых модификаций?
Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах.
Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению.
Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.  
Итак, что мы сравниваем:
— HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде
— HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть
— HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты
— Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче. 

🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других.

🌸Учимся самоулучшаться

Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50)
🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63).
🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах.


🟣Arxiv https://arxiv.org/abs/2603.19461
🟣Github https://github.com/facebookresearch/HyperAgents
🟣HF papers: https://huggingface.co/papers/2603.19461
🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2919👍7
LiteLLM версии 1.82.7 (хотя местами в посте написано 1.82.8, но вы поверьте мне) подвергся supply chain атаке. Зафиксируйтесь на предыдущей версии и не обновляйтесь.

https://futuresearch.ai/blog/litellm-pypi-supply-chain-attack/

https://github.com/BerriAI/litellm/issues/24512
26😢4
🤖 Хабр статья: поучаствовал в RAG челлендже

Помните, я рассказывал про юридический AI-челлендж ARLC 2026? Так вот, я в нём поучаствовал

В соревновании нужно было строить RAG-пайплайн поверх корпуса судебных решений и законов: находить нужные страницы, извлекать ответы, давать точные ссылки. Соло, с Claude Code в качестве напарника

Раньше я не разбирался в RAG. За 5 дней и 17 итераций прошёл путь от 0.034 до 0.791. А потом вышел в финал – и папйлайн, который отлично работал на 30 документах, потерял 42% на 300 документах

Сложно сказать с таким скором, что я в нем разобрался, но точно стало лучше

Описал весь опыт участия в статье на Хабре:

• Полная архитектура с кодом
• Математика F-beta, которая перевернула стратегию
• 3 регрессии, которые научили больше, чем все успехи
• Честный разбор работы с Claude Code на соревновании
• 88 USD на API за всё соревнование

Буду благодарен за лайки, комментарии и сохранения на Хабре – это продвинет статью в рекомендациях:)

🔗 Ссылка: https://habr.com/ru/articles/1014758/

Пишите в комментах, если тоже участвовали! 👉

@tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍22🔥6👎1
Лев если и спрашивал у юзеров разрешения перед тем как обучать на их данных, то так, между делом, чисто на Хакерньюсе ответил один раз, без публичных релизов

GitHub очень тихо обновил правила и собирается тренироваться на почти всех приватных репозиториях. Если вы явно не укажите, что не хотите "доступа к этой фиче"
🤬6249👍52
Короче я давно написал статью на РБК. Сегодня она наконец вышла и я узнал, что она доступна только по подписке. Даже я не могу прочитать, что там

😳
Please open Telegram to view this post
VIEW IN TELEGRAM
226😢13👎3
Forwarded from quant barbie
62🤔83👎3
Раст разрабы бывают двух типов
13815
Мем про Слоп Тесея стал реальностью! Скоро мы узнаем является ли код слопизированный через LLM новой сущностью или нет. Максимально иронично, что целью стал клиент Claude Code.

Какой-то анимешник с помощью OpenAI Codex переписал слитые исходники Claude Code на Python. Чтобы хранение кода не попадало под нарушение копирайта.

https://github.com/instructkr/claw-code

Я думаю это шиза + копирайт так не работает + скоро удалят
847
Сейчас много разговоров о том, что инвестиции в ИИ будут снижаться, на этом фоне немного боязно, не свернут ли открытые исследования и опенсорс совсем. Тем более российского качественного на гитхабе и так не очень  много.

В этом контексте всегда приятно слышать от компаний, что они не планируют снижать инвестиции в рисеч, в том числе фундаментальный:

«Мы смотрим через призму: если наука не превращается в продукт, значит, инвестиция не завершена — надо продолжать инвестировать»,

- сообщил исполнительный директор Т-Технологий Вячеслав Цыганов.

В общем, я делаю вывод, что инвестиции в ИИ для компании остаются приоритетными и мы продолжим видеть как минимум научные публикации от их команды, а если повезет может и новые опенсорс модели.
13734👎8
Кто-то скажет это фейк
67👍4
https://developers.googleblog.com/google-colab-is-coming-to-vs-code/

Оказывается аж с ноября можно работать в VS Code используя GPU из Google Colab. Просто ставите расширение и выбираете в качестве ядра для своих ноутбуков Colab.

Наконец-то можно пользоваться нормальной IDE и бесплатными GPU одновременно
👍5929🔥93🤔2👎1
Раньше я писал про IQDOC AI: ИИ ассистента для врачей в России. Это RAG опирающийся на клинические рекомендации Минздрава и нормативные документы.

С тех пор сервис успешно запустился и им уже воспользовались тысячи врачей! Очень радуюсь за проект.

Команда IQDOC проанализировала более 25 тыс. запросов. Публикации с результатами вышли в Медвестнике и Коммерсанте.

Там можно почитать что ищут врачи, кто чаще обращается к ИИ инструментам и другие инсайты. Например, почему-то врачи из Челябинска задают вопросы про рак легкого в 19,6 раза чаще 🌚

Подписывайтесь на их телеграм канал: https://xn--r1a.website/iqdocai. У них там скоро будет медицинский хакатон
Please open Telegram to view this post
VIEW IN TELEGRAM
4222🔥12😢4👍2
Forwarded from epsilon correct
Gemma 4
blogpost | model card | huggingface

4 размера: E2B, E4b (бывшие Gemma 3n/Gemini Nano); 26A4B, 31B Dense. Теперь лицензия Apache 2.0!

Для всех моделей релизим претрейн и intruction tuned чекпойнты. Context length 256k у 31B модельки, 128k у остальных. Скажу по секрету – можно пробовать и больше, должно работать.

LLM Arena на уровне Kimi 2.5, бенчмарки можно посмотреть на huggingface
19👍3
Forwarded from FH Memotech
AI engineer
@
fits a linreg over 2 points (unsuccessfully)
93👎31
Астронавты Artemis II сделали красивые фото Земли в высоком разрешении, тут и тут можно скачать себе новые обои.

Еще, оказывается, есть лайв трансляция на Youtube прямо с корабля. What a time to be alive
48🔥51