Внесезонный Московский митап читателей Скотта Александера
(Гостевой анонс)
Где: площадка ЦДО Моноид, г. Москва, Ломоносовский пр-т, 25к3, помещение 15
Когда: 2026.02.01 (воскресенье) с 16:00 до 21:00
Как попасть: возьмите паспорт, воспользуйтесь @MonoidBot
Чат: https://xn--r1a.website/+-rklmbNwMvE0YTgy
Формат: свободное обсуждение. В прошлые разы люди стихийно образовывали группы по интересам и периодически переходили от одной к другой. Обсуждение не ограничивается постами Скотта, но обычно они служат отправной точкой.
О Скотте:
Сейчас он пишет на https://www.astralcodexten.com/
Ранее писал на https://slatestarcodex.com
Старое интро от него самого, с подборкой классических старых постов
https://slatestarcodex.com/top-posts/
Правила:
- Не пьем алкоголь, не приходим в состоянии опьянения - снеки будут, но можно принести и свои;
- Не курим и не вейпим в помещении - можно на улице, но не прямо под окнами;
- Не приходим с симптомами ОРВИ - бережем и свое здоровье, и здоровье других;
- Не ходим по помещению в уличной обуви - берите красивые носки или тапочки;
- Бережно относимся к помещению, другим и себе.
Кого спрашивать если что-то не так: @red_hara , @MonoidAdmin
(Гостевой анонс)
Где: площадка ЦДО Моноид, г. Москва, Ломоносовский пр-т, 25к3, помещение 15
Когда: 2026.02.01 (воскресенье) с 16:00 до 21:00
Как попасть: возьмите паспорт, воспользуйтесь @MonoidBot
Чат: https://xn--r1a.website/+-rklmbNwMvE0YTgy
Формат: свободное обсуждение. В прошлые разы люди стихийно образовывали группы по интересам и периодически переходили от одной к другой. Обсуждение не ограничивается постами Скотта, но обычно они служат отправной точкой.
О Скотте:
Сейчас он пишет на https://www.astralcodexten.com/
Ранее писал на https://slatestarcodex.com
Старое интро от него самого, с подборкой классических старых постов
https://slatestarcodex.com/top-posts/
Правила:
- Не пьем алкоголь, не приходим в состоянии опьянения - снеки будут, но можно принести и свои;
- Не курим и не вейпим в помещении - можно на улице, но не прямо под окнами;
- Не приходим с симптомами ОРВИ - бережем и свое здоровье, и здоровье других;
- Не ходим по помещению в уличной обуви - берите красивые носки или тапочки;
- Бережно относимся к помещению, другим и себе.
Кого спрашивать если что-то не так: @red_hara , @MonoidAdmin
🔥14👎8❤3😢1
Мужское желание запустить с братанами стартап по ллм агентам прямо перед тем как пузырь лопнет
#дайджест
Дайджест ML/AI за неделю 26 января - 1 февраля 2026
Nvidia: PersonaPlex
Audio-to-Audio 7b Duplex model, то есть разговорная real-time модель без LLM посередине, как sesame или Moshi. Вы можете говорить одновременно с моделью, прерывать друг-друга и т.д. В общем, диалог ощущается живо. Модель оупенсорсная, можно добавить аудиореференс голоса и текстовое описание роли/контекста разговора.
Блогпост Github, HF, Статья
DeepMind: Project Genie
World-model как она есть. Генерация консистентного интерактивного 3D окружения по картинке и описанию, которое не разваливается за 60 сек (предел сессии). Интерпретирует WASD, пробел и движение мышью. Достаточно адекватно симулирует все подряд от файтингов до симуляторов таракана.
Доступно только в Gemini Ultra (249$) и только для США
Блогпост
Decart: Lucy 2.0
Стартап Decart предлагает диффузионную Video-to-Video модель для редактирования видео с вэбкамеры по текстовому промпту в realtime c 1080p в 30 FPS. Из интересного модель дообучали на ее собственных генерациях корректировать дрейф видеогенерации со временем. Качество совсем не супер, видны артефакты, но дрейфа действительно не ощущается.
Попробовать здесь, Блогпост
Anthropic: MCP Apps
Model Context Protocol получил расширение MCP Apps - теперь MCP-серверы могут возвращать не просто данные, а полноценные интерактивные UI: графики, формы, дашборды, прямо внутри диалога с моделью. По сути это способ превратить любой MCP-инструмент в мини-приложение без выхода из чата. Уже реализовано в Claude для Pro подписчиков. Google и OpenAI также планируют интеграцию в свои чаты.
Список коннекторов в Claude, Блогпост, GitHub, Спецификация
Tencent: HPC-Ops
Команда Hunyuan AI Infra открыли библиотеку операторов для инференса LLM - HPC-Ops. Оптимизация под NVIDIA H20 (порезанные H200 для китайцев), даёт до 2.22x ускорение на decode-attention относительно FlashAttention. Уже в продакшене у Tencent. Прирост пропускной способности 30% для моделей Tencent-HY и 17% для DeepSeek.
Пост в X, GitHub
Google: Agentic Vision
Теперь у Gemini 3 Flash есть функция анализа изображений через агентную систему. Сначала изображение анализируется как обычно, LLM предлагает какие-то правки через python вроде обрезания, зума на сложных участках, аннотирует табличные данные или дорисовывает красные прямоугольники чтобы считать пальцы. После этого цикл повторяется пока модель не будет довольна результатом. Все эти танцы с бубном дают +5-10% к визуальным бенчмаркам относительно базовой модели.
Доступно демо в Google AI Studio,
а также в AI Studio Playground (нужно включить Code Execution)
Блогпост
NVIDIA: Earth-2
Семейство моделей для метеорологии. SOTA в направлении замены уравнений Навье-Стокса на сильно более вычислительно дешевые AI модели.
Блогпост, GitHub, HF
Что-то много интересного вышло, в дайджест не вошли новости о том что:
- OpenAI выложили техрепорт об устройстве Codex CLI
- OpenAI сделали LaTeX ориентированную среду для ученых Prism.
- Figure AI выпустили модель Helix 02 для управления своими роботами.
- Появился реддит для ИИ Moltbook и свел всех с ума
- Вышедший 3 месяца назад агент-аркестратор LLMClawdbot Moltbot OpenClaw тоже неожиданно свел всех с ума
- Вышла Kimi K2.5 как написано в блогпосте Visual Agentic Intelligence
Дайджест ML/AI за неделю 26 января - 1 февраля 2026
Nvidia: PersonaPlex
Audio-to-Audio 7b Duplex model, то есть разговорная real-time модель без LLM посередине, как sesame или Moshi. Вы можете говорить одновременно с моделью, прерывать друг-друга и т.д. В общем, диалог ощущается живо. Модель оупенсорсная, можно добавить аудиореференс голоса и текстовое описание роли/контекста разговора.
Блогпост Github, HF, Статья
DeepMind: Project Genie
World-model как она есть. Генерация консистентного интерактивного 3D окружения по картинке и описанию, которое не разваливается за 60 сек (предел сессии). Интерпретирует WASD, пробел и движение мышью. Достаточно адекватно симулирует все подряд от файтингов до симуляторов таракана.
Доступно только в Gemini Ultra (249$) и только для США
Блогпост
Decart: Lucy 2.0
Стартап Decart предлагает диффузионную Video-to-Video модель для редактирования видео с вэбкамеры по текстовому промпту в realtime c 1080p в 30 FPS. Из интересного модель дообучали на ее собственных генерациях корректировать дрейф видеогенерации со временем. Качество совсем не супер, видны артефакты, но дрейфа действительно не ощущается.
Попробовать здесь, Блогпост
Anthropic: MCP Apps
Model Context Protocol получил расширение MCP Apps - теперь MCP-серверы могут возвращать не просто данные, а полноценные интерактивные UI: графики, формы, дашборды, прямо внутри диалога с моделью. По сути это способ превратить любой MCP-инструмент в мини-приложение без выхода из чата. Уже реализовано в Claude для Pro подписчиков. Google и OpenAI также планируют интеграцию в свои чаты.
Список коннекторов в Claude, Блогпост, GitHub, Спецификация
Tencent: HPC-Ops
Команда Hunyuan AI Infra открыли библиотеку операторов для инференса LLM - HPC-Ops. Оптимизация под NVIDIA H20 (порезанные H200 для китайцев), даёт до 2.22x ускорение на decode-attention относительно FlashAttention. Уже в продакшене у Tencent. Прирост пропускной способности 30% для моделей Tencent-HY и 17% для DeepSeek.
Пост в X, GitHub
Google: Agentic Vision
Теперь у Gemini 3 Flash есть функция анализа изображений через агентную систему. Сначала изображение анализируется как обычно, LLM предлагает какие-то правки через python вроде обрезания, зума на сложных участках, аннотирует табличные данные или дорисовывает красные прямоугольники чтобы считать пальцы. После этого цикл повторяется пока модель не будет довольна результатом. Все эти танцы с бубном дают +5-10% к визуальным бенчмаркам относительно базовой модели.
Доступно демо в Google AI Studio,
а также в AI Studio Playground (нужно включить Code Execution)
Блогпост
NVIDIA: Earth-2
Семейство моделей для метеорологии. SOTA в направлении замены уравнений Навье-Стокса на сильно более вычислительно дешевые AI модели.
Блогпост, GitHub, HF
Что-то много интересного вышло, в дайджест не вошли новости о том что:
- OpenAI выложили техрепорт об устройстве Codex CLI
- OpenAI сделали LaTeX ориентированную среду для ученых Prism.
- Figure AI выпустили модель Helix 02 для управления своими роботами.
- Появился реддит для ИИ Moltbook и свел всех с ума
- Вышедший 3 месяца назад агент-аркестратор LLM
- Вышла Kimi K2.5 как написано в блогпосте Visual Agentic Intelligence
❤15👍4👎4🔥1
Всё, что происходит с moltbook, rentahuman.ai и так далее для меня выглядит так:
1. Мы дали 5-летнему ребенку заряженный пистолет-пулемет, чтобы посмотреть, что получится.
2. Получилось забавное "пиу пиу" потому что он не смог снять оружие с предохранителя.
3. Попробуем теперь дать ему ствол побольше.
1. Мы дали 5-летнему ребенку заряженный пистолет-пулемет, чтобы посмотреть, что получится.
2. Получилось забавное "пиу пиу" потому что он не смог снять оружие с предохранителя.
3. Попробуем теперь дать ему ствол побольше.
Верить в "its just scale" больше не модно, однако я все больше убеждаюсь во мнении, что решает ML/AI твою задачу или нет в первую очередь определяется способностями модели. Промтпы, скаффолды, раги и прочие костыли вносят эффект в пределах чуть больше погрешности. Даже если они помогают, то со следующим релизом модели побольше и поумнее эффект пропадает.
Несколько наблюдений на тему. Я сейчас играюсь с GUI агентами, даже сделал свой скаффолд а-ля MobileAgentV3. Общаясь текстом ты не сразу увидишь разницу скажем между Gemini 2.5 Flash, Gemini 3 Flash и Gemini 3 Pro. Но когда ты сажаешь эту штуку управлять телефоном через тулколы разница видна моментально несмотря на то, что модели обучались на схожих данных. Flash 2.5 не может тапнуть куда нужно, принимает иконку Google Translate за Google Play, галлюцинирует целые экраны. Flash 3 уже сносно работает, Pro 3 делает прям вау.
Причём ты можешь дать маленькой модели самый лучший скаффолд, заточить тулы под задачу, очень хитро и умно оптимизировать контекст и всё равно будет плохо. Ты можешь дать большой модели всё максимально кривое и она разберётся.
Другие наблюдения которые объясняются этой гипотезой. Почему Claude Code сработал так, как не сработал до этого Cursor? Потому что вышли Sonnet 4.5/Opus 4.5 у Claude Code и вкупе с максимально простым скаффолдом (фор луп + тулколлы + периодический compact) вдруг заработало. Почему у людей зааработал OpenClaw сделанный максимально проклято, хотя предыдущие попытки сделать такого ассистента не смогли? Вышел Sonnet 4.5 и заработало.
Вывод я для себя сформулировал так. Делая что-то на LLM надо начинать с самой умной и дорогой модели, а затем смотреть насколько ты можешь снизить косты не потеряв в качестве катастрофически. А не начинать эксперименты с мелких моделек и расти по необходимости. Ты понаделаешь для мелких моделей тонну костылей, но все равно не заработает, и все это будет впустую так как большим моделям костыли не нужны и даже мешают.
Очень хочется любить мелкие модели, но не получается
Несколько наблюдений на тему. Я сейчас играюсь с GUI агентами, даже сделал свой скаффолд а-ля MobileAgentV3. Общаясь текстом ты не сразу увидишь разницу скажем между Gemini 2.5 Flash, Gemini 3 Flash и Gemini 3 Pro. Но когда ты сажаешь эту штуку управлять телефоном через тулколы разница видна моментально несмотря на то, что модели обучались на схожих данных. Flash 2.5 не может тапнуть куда нужно, принимает иконку Google Translate за Google Play, галлюцинирует целые экраны. Flash 3 уже сносно работает, Pro 3 делает прям вау.
Причём ты можешь дать маленькой модели самый лучший скаффолд, заточить тулы под задачу, очень хитро и умно оптимизировать контекст и всё равно будет плохо. Ты можешь дать большой модели всё максимально кривое и она разберётся.
Другие наблюдения которые объясняются этой гипотезой. Почему Claude Code сработал так, как не сработал до этого Cursor? Потому что вышли Sonnet 4.5/Opus 4.5 у Claude Code и вкупе с максимально простым скаффолдом (фор луп + тулколлы + периодический compact) вдруг заработало. Почему у людей зааработал OpenClaw сделанный максимально проклято, хотя предыдущие попытки сделать такого ассистента не смогли? Вышел Sonnet 4.5 и заработало.
Вывод я для себя сформулировал так. Делая что-то на LLM надо начинать с самой умной и дорогой модели, а затем смотреть насколько ты можешь снизить косты не потеряв в качестве катастрофически. А не начинать эксперименты с мелких моделек и расти по необходимости. Ты понаделаешь для мелких моделей тонну костылей, но все равно не заработает, и все это будет впустую так как большим моделям костыли не нужны и даже мешают.
Очень хочется любить мелкие модели, но не получается
👍112❤40😢7🔥2👎1
Снова и опять
Я уже серьёзно не понимаю, что происходит на этих графиках
Upd:
Меня обманули, это фейк ньюз. Спасибо @senior_augur, что откопал источник
https://x.com/d4m1n/status/2016596621832700085
Я уже серьёзно не понимаю, что происходит на этих графиках
Upd:
Меня обманули, это фейк ньюз. Спасибо @senior_augur, что откопал источник
https://x.com/d4m1n/status/2016596621832700085
Forwarded from Just links
BabyVision: Visual Reasoning Beyond Language https://unipat.ai/blog/BabyVision
UniPat AI
BabyVision: Visual Reasoning Beyond Language
State-of-the-art MLLMs achieve PhD-level language reasoning but struggle with visual tasks that 3-year-olds solve effortlessly. We introduce BabyVision, a benchmark revealing the infancy of AI vision.
❤12👍1
Интересные моменты из Claude Opus 4.6 System Card
Главное наблюдение: огромный рост на задачах поиска информации в длинном контексте. Это про иголки в стоге сена и MRCR v2 8-needle. В релизе упомянуто, что Opus 4.6 на 17 п. п. лучше Opus 4.5 и на 82 п. п. (!) лучше Sonnet 4.5.
Однако сравнение с конкурентами почему-то спрятали в System Card, хотя там есть чем похвастаться. Антропики всех уничтожили. Opus 4.6 достигает 93%, GPT-5.2 70%, а Gemini 3 Pro всего 45.4%. Победили Gemini на их же поле!
Можно подумать, что нашли способ сломать бенчмарк, но одновременно с этим подросло ещё несколько оценок автономности и способности действовать на длинном контексте. Самое главное это, пожалуй, Vending-Bench 2, где модели нужно в симулированной среде управлять магазином и зарабатывать деньги. Opus 4.6 примерно на 30% лучше Gemini 3 Pro.
Я думаю именно за счет длинного контекста Opus 4.5 ощущался настолько более умным, чем даже Sonnet 4.5.
Так же очень сильно вырос ARC-AGI-2 (на 14.6 п.п.). Многие этот бенчмарк не любят, но мне кажется он несет полезный сигнал про способность модели разобраться в незнакомой задаче, особенно вкупе с другими бенчмарками.
В целом можно точно сказать, что Opus 4.6 на данный момент самое близкое к автономной модели, что у нас есть.
Немного пугающе близкое. Например, бенчмарки по кибербезопасности полностью решены:
Я недостаточно разбираюсь, чтобы понять насколько это стремно. Наверняка есть разница между "идеально решает любой CTF" и "идеально ломает любую систему."
Устойчивость к различным атакам в среднем выросла, но есть нюанс. Например, в агентском кодинге были успешны 0% промпт инъекций (у предыдущей версии было около 15%). Круто! Однако для неявных промпт инъекций при 100 попытках шанс успешной атаки 21.7%. То есть ваши openclaw боты всё ещё достаточно легко взломать если задаться целью.
При этом при использовании GUI доля успешных атак уже 57.1%. В целом как будто все способности моделей многократно хуже когда в дело вступают картинки.
Главное наблюдение: огромный рост на задачах поиска информации в длинном контексте. Это про иголки в стоге сена и MRCR v2 8-needle. В релизе упомянуто, что Opus 4.6 на 17 п. п. лучше Opus 4.5 и на 82 п. п. (!) лучше Sonnet 4.5.
Однако сравнение с конкурентами почему-то спрятали в System Card, хотя там есть чем похвастаться. Антропики всех уничтожили. Opus 4.6 достигает 93%, GPT-5.2 70%, а Gemini 3 Pro всего 45.4%. Победили Gemini на их же поле!
Можно подумать, что нашли способ сломать бенчмарк, но одновременно с этим подросло ещё несколько оценок автономности и способности действовать на длинном контексте. Самое главное это, пожалуй, Vending-Bench 2, где модели нужно в симулированной среде управлять магазином и зарабатывать деньги. Opus 4.6 примерно на 30% лучше Gemini 3 Pro.
Я думаю именно за счет длинного контекста Opus 4.5 ощущался настолько более умным, чем даже Sonnet 4.5.
Так же очень сильно вырос ARC-AGI-2 (на 14.6 п.п.). Многие этот бенчмарк не любят, но мне кажется он несет полезный сигнал про способность модели разобраться в незнакомой задаче, особенно вкупе с другими бенчмарками.
В целом можно точно сказать, что Opus 4.6 на данный момент самое близкое к автономной модели, что у нас есть.
Немного пугающе близкое. Например, бенчмарки по кибербезопасности полностью решены:
Claude Opus 4.6 has saturated all of our current cyber evaluations, achieving
~100% on Cybench (pass@30) and 66% on CyberGym (pass@1). Internal testing
demonstrated qualitative capabilities beyond what these evaluations capture, including
signs of capabilities we expected to appear further in the future and that previous models
have been unable to demonstrate.
Я недостаточно разбираюсь, чтобы понять насколько это стремно. Наверняка есть разница между "идеально решает любой CTF" и "идеально ломает любую систему."
Устойчивость к различным атакам в среднем выросла, но есть нюанс. Например, в агентском кодинге были успешны 0% промпт инъекций (у предыдущей версии было около 15%). Круто! Однако для неявных промпт инъекций при 100 попытках шанс успешной атаки 21.7%. То есть ваши openclaw боты всё ещё достаточно легко взломать если задаться целью.
При этом при использовании GUI доля успешных атак уже 57.1%. В целом как будто все способности моделей многократно хуже когда в дело вступают картинки.
👍14🔥8❤6👎1😢1
Forwarded from DLS — новости
У нас открылась регистрация на весенний семестр
Сейчас можно оставить заявку на классические потоки частей 1 и 2, а также на DLS: Speech!
Но это не всё — в этом семестре мы запустим ещё два курса:
Подробнее про них напишем в следующих постах
Форма регистрации
https://talent.kruzhok.org/events/10714
1. Её обязательно нужно заполнить для получения дипломов.
2. Курсы нужно будет проходить через аккаунт Stepik, указанный при регистрации.
3. Также для получения диплома просим указать свои ФИ из «Таланта» в Stepik.
Прикладываем ссылки на курсы на платформе Stepik:
Начало занятий — 28 февраля!
Ждите дальнейших подробностей в этом канале!
P.S. Уже в этом феврале пройдёт традиционная олимпиада DLS. Скоро выложим анонс 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23 5🔥4👍2👎2
Я раньше постил прикол, но с тех пор он стал реальностью: регистрация на Claude Code Hackathon происходит через LLM форму
Админу грустно, поэтому оптимизатор резюме под вакансию hr-breaker был обновлен фиксами и фичами, которые просили (и даже контрибьютили!) на Github:
1. Возможность подставлять любой ключ который поддерживает LiteLLM: Google, OpenAI, Anthropic, Openrouter, итд.
2. Возможность подставлять свой LITELLM_BASE_URL, так что можно даже на локальных моделях запускать.
3. Пользовательские инструкции:
4. Перевод результата на русский язык по желанию (с сохранением терминов и прочего)
У репозитория кстати 564 звездочки, прикольно
1. Возможность подставлять любой ключ который поддерживает LiteLLM: Google, OpenAI, Anthropic, Openrouter, итд.
2. Возможность подставлять свой LITELLM_BASE_URL, так что можно даже на локальных моделях запускать.
3. Пользовательские инструкции:
uv run hr-breaker optimize resume.txt job.txt -i "Focus on Python, add K8s cert"4. Перевод результата на русский язык по желанию (с сохранением терминов и прочего)
5. Ретраи, чтобы не падало когда модель перегружена.У репозитория кстати 564 звездочки, прикольно
GitHub
GitHub - btseytlin/hr-breaker: Optimize resume for jobs, now with AI
Optimize resume for jobs, now with AI. Contribute to btseytlin/hr-breaker development by creating an account on GitHub.
🔥66❤11👍4
boris_tseitlin_roxburghe_estates_hill_farming_enterprise_stockperson.pdf
32.9 KB
Моё новоё резюме пастуха овец с особой инструкцией: лидить ML команды и лидить стадо овец это почти одно и то же. Теперь на русском языке
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from download more GPUs
💅 Выкладываю Arxiv at Home: Семантический поиск по статьям на своем железе
Стандартный поиск arXiv — это танец с бубном. Semantic Scholar иногда ищет не то, что хочешь. SerpAPI по Google Scholar платный.
Поэтому я за выходной собрал Arxiv at Home — open-source движок для семантического поиска статей, который можно развернуть локально.
По фичам:
* Гибридный поиск: Retrieval Stage из эмбеддингов и BM25, сверху нейронный реранкинг.
* Citation Boosting: Формула ранжирования учитывает не только смысл, но и импакт статьи. Сейчас для получения цитат используется бесплатный Batch API Semantic Scholar.
* Инкрементальные обновления: Умная синхронизация, тянет только новые статьи, не обрабатывая весь датасет заново.
* Оффлайн-режим: Всё локально, кроме цитат. Цитаты можно отключить в конфиге.
Кстати, сама API-шка stateless и хорошо скейлится горизонтально, а для стораджа используется PostgreSQL и QDrant - по идее, эту штуку можно развернуть примерно где угодно.
Код и инструкция по запуску на GitHub:
🔗 github.com/mrapplexz/arxiv-at-home
Стандартный поиск arXiv — это танец с бубном. Semantic Scholar иногда ищет не то, что хочешь. SerpAPI по Google Scholar платный.
Поэтому я за выходной собрал Arxiv at Home — open-source движок для семантического поиска статей, который можно развернуть локально.
По фичам:
* Гибридный поиск: Retrieval Stage из эмбеддингов и BM25, сверху нейронный реранкинг.
* Citation Boosting: Формула ранжирования учитывает не только смысл, но и импакт статьи. Сейчас для получения цитат используется бесплатный Batch API Semantic Scholar.
* Инкрементальные обновления: Умная синхронизация, тянет только новые статьи, не обрабатывая весь датасет заново.
* Оффлайн-режим: Всё локально, кроме цитат. Цитаты можно отключить в конфиге.
Кстати, сама API-шка stateless и хорошо скейлится горизонтально, а для стораджа используется PostgreSQL и QDrant - по идее, эту штуку можно развернуть примерно где угодно.
Код и инструкция по запуску на GitHub:
🔗 github.com/mrapplexz/arxiv-at-home
GitHub
GitHub - mrapplexz/arxiv-at-home: Mom, we have arXiv at home! Self-hosted search engine for arXiv dumps
Mom, we have arXiv at home! Self-hosted search engine for arXiv dumps - mrapplexz/arxiv-at-home
🔥26❤24