Борис опять
15.9K subscribers
1.46K photos
72 videos
35 files
1.5K links
life = curiosity + irreducible noise

Whois: https://xn--r1a.website/boris_again/3400

Лс: @btseytlin
Download Telegram
Внесезонный Московский митап читателей Скотта Александера

(Гостевой анонс)

Где: площадка ЦДО Моноид, г. Москва, Ломоносовский пр-т, 25к3, помещение 15

Когда: 2026.02.01 (воскресенье) с 16:00 до 21:00

Как попасть: возьмите паспорт, воспользуйтесь @MonoidBot

Чат: https://xn--r1a.website/+-rklmbNwMvE0YTgy

Формат: свободное обсуждение. В прошлые разы люди стихийно образовывали группы по интересам и периодически переходили от одной к другой. Обсуждение не ограничивается постами Скотта, но обычно они служат отправной точкой.

О Скотте:
Сейчас он пишет на https://www.astralcodexten.com/
Ранее писал на https://slatestarcodex.com

Старое интро от него самого, с подборкой классических старых постов
https://slatestarcodex.com/top-posts/

Правила:
- Не пьем алкоголь, не приходим в состоянии опьянения - снеки будут, но можно принести и свои;
- Не курим и не вейпим в помещении - можно на улице, но не прямо под окнами;
- Не приходим с симптомами ОРВИ - бережем и свое здоровье, и здоровье других;
- Не ходим по помещению в уличной обуви - берите красивые носки или тапочки;
- Бережно относимся к помещению, другим и себе.

Кого спрашивать если что-то не так: @red_hara , @MonoidAdmin
🔥14👎83😢1
Она: ты у меня первый

Так же её история переписок:
105😢7
Мужское желание запустить с братанами стартап по ллм агентам прямо перед тем как пузырь лопнет
119🤔53👍215
#дайджест

Дайджест ML/AI за неделю 26 января - 1 февраля 2026

Nvidia: PersonaPlex
Audio-to-Audio 7b Duplex model, то есть разговорная real-time модель без LLM посередине, как sesame или Moshi. Вы можете говорить одновременно с моделью, прерывать друг-друга и т.д.  В общем, диалог ощущается живо. Модель оупенсорсная, можно добавить аудиореференс голоса и текстовое описание роли/контекста разговора.
Блогпост Github, HF, Статья

DeepMind: Project Genie
World-model как она есть. Генерация консистентного интерактивного 3D окружения по картинке и описанию, которое не разваливается за 60 сек (предел сессии). Интерпретирует WASD, пробел и движение мышью. Достаточно адекватно симулирует все подряд от файтингов до симуляторов таракана.
Доступно только в Gemini Ultra (249$) и только для США
Блогпост

Decart: Lucy 2.0
Стартап Decart предлагает диффузионную Video-to-Video модель для редактирования видео с вэбкамеры по текстовому промпту в realtime c 1080p в 30 FPS. Из интересного модель дообучали на ее собственных генерациях корректировать дрейф видеогенерации со временем. Качество совсем не супер, видны артефакты, но дрейфа действительно не ощущается.
Попробовать здесь, Блогпост

Anthropic: MCP Apps
Model Context Protocol получил расширение MCP Apps - теперь MCP-серверы могут возвращать не просто данные, а полноценные интерактивные UI: графики, формы, дашборды, прямо внутри диалога с моделью. По сути это способ превратить любой MCP-инструмент в мини-приложение без выхода из чата. Уже реализовано в Claude для Pro подписчиков.  Google и OpenAI также планируют интеграцию в свои чаты.
Список коннекторов в Claude, Блогпост, GitHub, Спецификация

Tencent: HPC-Ops
Команда Hunyuan AI Infra открыли библиотеку операторов для инференса LLM - HPC-Ops. Оптимизация под NVIDIA H20 (порезанные H200 для китайцев), даёт до 2.22x ускорение на decode-attention относительно FlashAttention. Уже в продакшене у Tencent. Прирост пропускной способности 30% для моделей Tencent-HY и 17% для DeepSeek.
Пост в X, GitHub

Google: Agentic Vision
Теперь у Gemini 3 Flash есть функция анализа изображений через агентную систему. Сначала изображение анализируется как обычно, LLM предлагает какие-то правки через python вроде обрезания, зума на сложных участках, аннотирует табличные данные или дорисовывает красные прямоугольники чтобы считать пальцы. После этого цикл повторяется пока модель не будет довольна результатом. Все эти танцы с бубном дают +5-10% к визуальным бенчмаркам относительно базовой модели.
Доступно демо в Google AI Studio,
а также в AI Studio Playground (нужно включить Code Execution)
Блогпост

NVIDIA: Earth-2
Семейство моделей для метеорологии. SOTA в направлении замены уравнений Навье-Стокса на сильно более вычислительно дешевые AI модели.
Блогпост, GitHub, HF


Что-то много интересного вышло, в дайджест не вошли новости о том что:
- OpenAI выложили техрепорт об устройстве Codex CLI
- OpenAI сделали LaTeX ориентированную среду для ученых Prism.
- Figure AI выпустили модель Helix 02 для управления своими роботами.
- Появился реддит для ИИ Moltbook и свел всех с ума
- Вышедший 3 месяца назад агент-аркестратор LLM Clawdbot Moltbot OpenClaw тоже неожиданно свел всех с ума
- Вышла Kimi K2.5 как написано в блогпосте Visual Agentic Intelligence
15👍4👎4🔥1
Заметили как нам три года снова и снова продают кусочки маркдаун текста? .cursorrules, agents.md, claude.md, skills, slash commands, subagents... Каждый раз платные буквы

Хотя я и Скайрим как минимум три раза купил
693
Всё, что происходит с moltbook, rentahuman.ai и так далее для меня выглядит так:
1. Мы дали 5-летнему ребенку заряженный пистолет-пулемет, чтобы посмотреть, что получится.
2. Получилось забавное "пиу пиу" потому что он не смог снять оружие с предохранителя.
3. Попробуем теперь дать ему ствол побольше.
90👍2310😢3👎1🔥1
Верить в "its just scale" больше не модно, однако я все больше убеждаюсь во мнении, что решает ML/AI твою задачу или нет в первую очередь определяется способностями модели. Промтпы, скаффолды, раги и прочие костыли вносят эффект в пределах чуть больше погрешности. Даже если они помогают, то со следующим релизом модели побольше и поумнее эффект пропадает.

Несколько наблюдений на тему. Я сейчас играюсь с GUI агентами, даже сделал свой скаффолд а-ля MobileAgentV3. Общаясь текстом ты не сразу увидишь разницу скажем между Gemini 2.5 Flash, Gemini 3 Flash и Gemini 3 Pro. Но когда ты сажаешь эту штуку управлять телефоном через тулколы разница видна моментально несмотря на то, что модели обучались на схожих данных. Flash 2.5 не может тапнуть куда нужно, принимает иконку Google Translate за Google Play, галлюцинирует целые экраны. Flash 3 уже сносно работает, Pro 3 делает прям вау.

Причём ты можешь дать маленькой модели самый лучший скаффолд, заточить тулы под задачу, очень хитро и умно оптимизировать контекст и всё равно будет плохо. Ты можешь дать большой модели всё максимально кривое и она разберётся.

Другие наблюдения которые объясняются этой гипотезой. Почему Claude Code сработал так, как не сработал до этого Cursor? Потому что вышли Sonnet 4.5/Opus 4.5 у Claude Code и вкупе с максимально простым скаффолдом (фор луп + тулколлы + периодический compact) вдруг заработало. Почему у людей зааработал OpenClaw сделанный максимально проклято, хотя предыдущие попытки сделать такого ассистента не смогли? Вышел Sonnet 4.5 и заработало.

Вывод я для себя сформулировал так. Делая что-то на LLM надо начинать с самой умной и дорогой модели, а затем смотреть насколько ты можешь снизить косты не потеряв в качестве катастрофически. А не начинать эксперименты с мелких моделек и расти по необходимости. Ты понаделаешь для мелких моделей тонну костылей, но все равно не заработает, и все это будет впустую так как большим моделям костыли не нужны и даже мешают.

Очень хочется любить мелкие модели, но не получается
👍11240😢7🔥2👎1
Если написать достаточно грустный промпт LLM чувствует тоску и переходит на русский
151😢485
Снова и опять

Я уже серьёзно не понимаю, что происходит на этих графиках

Upd:
Меня обманули, это фейк ньюз. Спасибо @senior_augur, что откопал источник

https://x.com/d4m1n/status/2016596621832700085
119
47🤔198
Интересные моменты из Claude Opus 4.6 System Card

Главное наблюдение: огромный рост на задачах поиска информации в длинном контексте. Это про иголки в стоге сена и MRCR v2 8-needle. В релизе упомянуто, что Opus 4.6 на 17 п. п. лучше Opus 4.5 и на 82 п. п. (!) лучше Sonnet 4.5.

Однако сравнение с конкурентами почему-то спрятали в System Card, хотя там есть чем похвастаться. Антропики всех уничтожили. Opus 4.6 достигает 93%, GPT-5.2 70%, а Gemini 3 Pro всего 45.4%. Победили Gemini на их же поле!

Можно подумать, что нашли способ сломать бенчмарк, но одновременно с этим подросло ещё несколько оценок автономности и способности действовать на длинном контексте. Самое главное это, пожалуй, Vending-Bench 2, где модели нужно в симулированной среде управлять магазином и зарабатывать деньги. Opus 4.6 примерно на 30% лучше Gemini 3 Pro.

Я думаю именно за счет длинного контекста Opus 4.5 ощущался настолько более умным, чем даже Sonnet 4.5.

Так же очень сильно вырос ARC-AGI-2 (на 14.6 п.п.). Многие этот бенчмарк не любят, но мне кажется он несет полезный сигнал про способность модели разобраться в незнакомой задаче, особенно вкупе с другими бенчмарками.

В целом можно точно сказать, что Opus 4.6 на данный момент самое близкое к автономной модели, что у нас есть.

Немного пугающе близкое. Например, бенчмарки по кибербезопасности полностью решены:
Claude Opus 4.6 has saturated all of our current cyber evaluations, achieving
~100% on Cybench (pass@30) and 66% on CyberGym (pass@1). Internal testing
demonstrated qualitative capabilities beyond what these evaluations capture, including
signs of capabilities we expected to appear further in the future and that previous models
have been unable to demonstrate.

Я недостаточно разбираюсь, чтобы понять насколько это стремно. Наверняка есть разница между "идеально решает любой CTF" и "идеально ломает любую систему."

Устойчивость к различным атакам в среднем выросла, но есть нюанс. Например, в агентском кодинге были успешны 0% промпт инъекций (у предыдущей версии было около 15%). Круто! Однако для неявных промпт инъекций при 100 попытках шанс успешной атаки 21.7%. То есть ваши openclaw боты всё ещё достаточно легко взломать если задаться целью.

При этом при использовании GUI доля успешных атак уже 57.1%. В целом как будто все способности моделей многократно хуже когда в дело вступают картинки.
👍14🔥86👎1😢1
Угадайте с трех раз кто из них инженер
1302
Forwarded from DLS — новости
🎉Мы возращаемся!

У нас открылась регистрация на весенний семестр 🎆
Сейчас можно оставить заявку на классические потоки частей 1 и 2, а также на DLS: Speech!

Но это не всё — в этом семестре мы запустим ещё два курса:
🔵 Математика для AI
🔵 Фундаментальные модели, включая CLIP, диффузионные модели, Flow Matching, а также VLM!

Подробнее про них напишем в следующих постах

Форма регистрации 👇
https://talent.kruzhok.org/events/10714

❗️Внимание:
1. Её обязательно нужно заполнить для получения дипломов.
2. Курсы нужно будет проходить через аккаунт Stepik, указанный при регистрации.
3. Также для получения диплома просим указать свои ФИ из «Таланта» в Stepik.

Прикладываем ссылки на курсы на платформе Stepik:
🔵Курс DLS: часть 1
🔵Курс DLS: часть 2
🔴Курс DLS: Speech

Начало занятий — 28 февраля!

Ждите дальнейших подробностей в этом канале!

P.S. Уже в этом феврале пройдёт традиционная олимпиада DLS. Скоро выложим анонс 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
235🔥4👍2👎2
Я раньше постил прикол, но с тех пор он стал реальностью: регистрация на Claude Code Hackathon происходит через LLM форму
41👍5
Админу грустно, поэтому оптимизатор резюме под вакансию hr-breaker был обновлен фиксами и фичами, которые просили (и даже контрибьютили!) на Github:
1. Возможность подставлять любой ключ который поддерживает LiteLLM: Google, OpenAI, Anthropic, Openrouter, итд.
2. Возможность подставлять свой LITELLM_BASE_URL, так что можно даже на локальных моделях запускать.
3. Пользовательские инструкции: uv run hr-breaker optimize resume.txt job.txt -i "Focus on Python, add K8s cert"
4. Перевод результата на русский язык по желанию (с сохранением терминов и прочего)
5. Ретраи, чтобы не падало когда модель перегружена.

У репозитория кстати 564 звездочки, прикольно
🔥6611👍4
boris_tseitlin_roxburghe_estates_hill_farming_enterprise_stockperson.pdf
32.9 KB
Моё новоё резюме пастуха овец с особой инструкцией: лидить ML команды и лидить стадо овец это почти одно и то же. Теперь на русском языке
16🔥5
😂 Оптимизатор правда понял по-своему и взял такую метафору: AI агенты похожи на овец. Так даже лучше!
Please open Telegram to view this post
VIEW IN TELEGRAM
39
Forwarded from download more GPUs
💅 Выкладываю Arxiv at Home: Семантический поиск по статьям на своем железе

Стандартный поиск arXiv — это танец с бубном. Semantic Scholar иногда ищет не то, что хочешь. SerpAPI по Google Scholar платный.

Поэтому я за выходной собрал Arxiv at Home — open-source движок для семантического поиска статей, который можно развернуть локально.

По фичам:
* Гибридный поиск: Retrieval Stage из эмбеддингов и BM25, сверху нейронный реранкинг.
* Citation Boosting: Формула ранжирования учитывает не только смысл, но и импакт статьи. Сейчас для получения цитат используется бесплатный Batch API Semantic Scholar.
* Инкрементальные обновления: Умная синхронизация, тянет только новые статьи, не обрабатывая весь датасет заново.
* Оффлайн-режим: Всё локально, кроме цитат. Цитаты можно отключить в конфиге.

Кстати, сама API-шка stateless и хорошо скейлится горизонтально, а для стораджа используется PostgreSQL и QDrant - по идее, эту штуку можно развернуть примерно где угодно.

Код и инструкция по запуску на GitHub:
🔗 github.com/mrapplexz/arxiv-at-home
🔥2624