Борис опять
16.6K subscribers
1.54K photos
80 videos
35 files
1.61K links
life = curiosity + irreducible noise

Whois: https://xn--r1a.website/boris_again/3400

Лс: @btseytlin
Download Telegram
Кто тоже платит 200 баксов за которая не работает половину времени: с вас по звездочке, с вас не убудет
79👎9😢52
#дайджест
Дайджест AI/ML за неделю 11-17 мая 2026 (запоздалый)

Кибербезопасность:
Слишком много для отдельных пунктов, но проходить мимо первых огоньков прекрасного будущего не хочется
Google GTIG зафиксировали первую крупную реальную ИИ 0-day атаку.
Microsoft: MDASH - обвязка из 100+ агентов на разных моделях нашла очередную кучу критических уязвимостей первого дня.
UK AISI отчёт "Cooling Tower": Claude Mythos Preview  первая модель, которая смогла пройти симулятор атаки на промышленную систему управления (в 3 из 10 попыток).
ExploitBench: на 41 уязвимости Mythos Preview довёл до рабочего эксплойта 18, остальные модели - ноль.

Vercel Zero
Экспериментальный язык программирования, спроектированный под чтение, починку и сборку нативных программ агентами, а не людьми. Structured JSON-диагностика вместо текстовых ошибок, typed repair metadata, встроенный toolchain в формате Agent Skills (совместим с Claude Code, Cursor, Codex). Компилятор уже self-hosting. Сам по себе сырой, но как проба пера дизайна agent-native языков любопытно. GitHub

UPenn: ApexGO
Итеративная оптимизация исходной молекулы антибиотиков под нужные свойства через байесовскую оптимизацию. Метрики растут, какие-то антибиотики даже эффективны на мышах.
Пресс-релиз, Статья в Nature

SenseTime: SenseNova-U1
нативно мультимодальная модель на архитектуре NEO-Unify, причём делает это единым куском без VAE и vision-энкодера. 8B параметров, генерацию 2048×2048 тянет одна RTX 5090. GitHub , HF, Препринт

Менее значительные релизы:
xAI: Grok Build - очередной Claude Code, теперь от xAI. Ранняя бета для SuperGrok Heavy. Блогпост 
SOOHAK - бенчмарк из 439 математических задач research-уровня от 64 математиков. 1 место - Gemini-3-Pro с 30.4%. Статья
Alibaba: Qwen-Image-2.0 - вышел техрепорт к 7B омни-модели для генерации и редактирования картинок. Веса всё ещё закрыты. Статья
Google DeepMind: AI-pointer - UX-концепт курсора мыши на Gemini, который понимает на что показывает и зачем. Блогпост
METR: Разработчики считают что с агентами они 3х инженеры, но по объективным замерам уже только 1.4-2х, и то METR подозревают что их методология завышает значение (узнали? согласны?). Блогпост
EVA-Bench - бенчмарк голосовых агентов, если после релизов прошлой недели вы решили делать себе вайфу или переводчик на фарси в отпуск, то вот вам бэнчмарк. Статья
MinT - инфраструктура для LoRA-пост-тренинга и развертывания миллионов адаптеров без материализации полных чекпоинтов. Статья
Visual Aesthetic Benchmark - могут ли фронтир-модели оценивать красоту? А создатели бэнчмарка? Никто не знает. Статья
10👍2
Forwarded from Алексей Зинченко
[pet project]

Привет!

Сделал себе karpathy llm wiki, и мне очень зашло, теперь заворачиваю для общего использования [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f#file-llm-wiki-md]

Накидайте почт через сайт, если это ваше

https://getmana.md
17🤔4
#дайджест

Дайджест AI/ML за неделю 18-24 мая 2026

Google: Gemini 3.5 Flash

На этой неделе прошел Google I/O, на котором фронтир убийцу бенчмарков не показали (пообещали через месяц), но выпустили лучшую рабочую лошадку. Flash модель, которая теперь обходит прежний флагман 3.1 Pro на агентных и кодинг задачах со скоростью ~280 т/с. Цена $1.50/$9, сильно дороже чем раньше, но сильно дешевле, чем Sonnet.
Блогпост, Карточка модели

Google: Gemini Omni
Очень мультимодальная модель, текст/картинка/звук/видео на входе, на выходе пока только видео, картинки и звук обещают позже. Можно разговаривать с генератором видео, наконец-то.
Блогпост

Alibaba: Qwen 3.7-Max
Флагманская text-only модель под длинные агентные задачи. Опять закрытая :с
1M контекст, $2.50/$7.50 за 1M. SWE-bench Pro 60.6 (между Opus 4.6 и 4.7), Terminal-Bench 69.7 (лидер). В демо 35 часов автономной работы и 1158 вызовов инструментов. Самый низкий hallucination rate ~22.9%. Plus-версия (мультимодальная) обещана позже с открытыми весами.
Блогпост, Alibaba Cloud, OpenRouter

Cohere: Command A+
Первый открытый фронтир от Cohere. 218B MoE (25B активных). Объединяет четыре прежние модели (Command A / Reasoning / Vision / Translate) в одну. 48 языков, нативные ссылки на источники в ответах. Блогпост , HF

Datadog: Toto 2.0
Открытое семейство моделей TSFM (time series foundation models) размерами от 4M до 2.5B. Главный посыл репорта в том что для задачи предсказания временных рядов тоже работает Scaling law и общие модели на все задачи подряд.
Статья, Блогпост

Менее значительные релизы:
DeepSeek: V4-Pro стал в 4 раза дешевле навсегда ($0.435/$0.87) Прайсинг
ByteDance: Lance — открытая 3B-активных мультимодальная модель: понимание, генерация и редактирование картинок и видео. Статья, GitHub
Perplexity: Bumblebee - опенсорс read-only сканер ИИ-окружений. проверяет конфиги агентов, расширения редакторов и пакетные зависимости. Блогпост, GitHub
Microsoft: RAMPART + Clarity - еще два опенсорс-инструмента для безопасности агентов. RAMPART - pytest-фреймворк, встраивающий ред-тим-тесты (включая prompt injection). Clarity - чат-планировщик архитектуры проектов с акцентом на кибербезопасность. Блогпост
OpenAI: опровергли гипотезу Эрдёша 1946 года с помощью внутренней модели, Тимоти Гауэрс назвал работу уровня Annals of Mathematics. Статья
UCSD: GPT-4.5 прошёл тест Тьюринга - его приняли за человека в 73% случаев. То есть сильно чаще чем настоящего человека🙂. Первая статья со статистически значимым прохождением. Статья
Anthropic: Project Glasswing Вышел отчет по раздаче Mythos Preview. Нашли гору критичных багов, оупенсорс просит котелочек не варить, не успевают латать дыры.
Artificial Analysis: Coding Agent Index
Новый лидерборд AA для агентных систем: Claude Code (66), Codex (65), Cursor Composer 2.5 (62), Gemini CLI (43).

Бенчмарки недели:
OmniGUI (GUI-агенты с omni-modal входом),
CHI-Bench (длинные healthcare-воркфлоу),
Spreadsheet-RL (RL для агентов в Excel),
OpenComputer (1000 верифицируемых десктоп-задач)
4👍3🔥1
этот канал
109👎75
Forwarded from Andrew Zwyagintsev
TPS: Tokens Per Slop - the throughput of garbage
QPS: Questionable Prompts per Second - how fast you can ask the AI for more slop
TTFB: Time To First Bullshit - latency between your prompt and the first hallucinated word
P99 Latency: Pure Slop 99% - threshold at which 99% of your outputs are certified nonsense
IOPS: Inane Output Per Slop - measuring the sheer density of meaningless tokens
MTTR: Mean Time To Regurgitate - how quickly the model can rephrase the same wrong answer after a crash
SLA: Slop Level Agreement - a legally binding promise that the slop will be 99.9% coherent-enough
5211👍2
Открыт прием докладов на Practical ML Conf 2026. Одна из лучших конференций по моему мнению, поэтому я каждый год обозреваю доклады оттуда. В этом году меня повысили до члена программного коммитета 👀

Practical ML Conf — ежегодная хардовая конференция, на которой реальные кейсы, технические доклады и опыт ведущих инженеров помогут узнать, как извлекать реальную пользу из ML в продуктах и бизнесе.


Сама конференция пройдет 19 сентября 2026. Но дедлайн подачи докладов уже 1 июня!

ПО ДА ВАЙ ТЕСЬ
ПО ДА ВАЙ ТЕСЬ
ПО ДА ВАЙ ТЕСЬ
Please open Telegram to view this post
VIEW IN TELEGRAM
37👍26🔥23
Forwarded from Open Data Serbia
Уже завтра DataFest в Белградском универе 😎

Вас ждут выступления команд
💡 Perplexity, ❣️ Yandex, 💳 Plata и многих других:
• 24 доклада в 6 секциях
• Agents & LLMs
• Voice & Robotics
• Ranking & Banking
• И обязательно нетворкинг + афтепати

👉 Регистрация / расписание
//регистрация через гугл/гит сейчас не работает

Увидимся на DataFest 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍54🔥2
По итогам DataFest 2026 я сделал следующие выводы про прогресс ИИ:
1. Claude Design должен быть забанен.
2. Если я увижу ещё один элемент точка-в-эллипсе-с-текстом, я повешусь.
3. Зря я сам использовал Claude Design для презентации.
203👍165
Вот эта фигня
69😢2120
The real returns on investment are the friends we made along the way
51🔥173
Настало время историй на ночь.

У меня самый странный путь попадания в ML, потому что я познакомился с ним на срочной службе в армии. Я служил в научной роте МЧС и моей задачей было прогнозировать техногенные пожары в Москве.

Задача у нас была немного безумная. Мы знали где и когда в прошлом происходили пожары и пытались предсказать, сколько их будет через N дней. Проблема в том, что количество пожаров вчера особо не связано с количеством пожаров завтра. Ведь две главные причины это короткое замыкание и сигареты.

Мы долбились лбом в этот временной ряд, но дело не двигалось. А в армии нельзя сказать "это просто распределение Пуассона, тут лучше не предскажешь." Сказано предсказать, значит надо предсказать.

Мой руководитель, капитан (на тот момент) Белоусов, не очень разбирался в ML, но не зря был КТН и обладал настоящим умом учёного. Поэтому постоянно искал новые хитрые способы посмотреть на проблему.

Однажды вызвал меня к себе и говорит: Борис, смотри, в Яндексе проходит митап, там будут рассказывать про латентные представления слов и библиотеку gensim. Можно вель представить, что вчерашний день у нас это слово? И обрабатывать с помощью этой библиотеки. Хочешь поехать послушать?

У меня было две мысли:
1. Чушь какая-то. Причем тут слова? У нас пожары вообще-то.
2. Ого, это шанс съебаться отлучиться из части, да еще и в Яндекс!

Я сказал: конечно хочу! И увидел как капитан Белоусов изменился в лице, потому что осознал, что теперь ему нужно организовать первую в истории человечества поездку солдата срочной службы в увольнение на митап в Яндекс. Однако мой руководитель был человеком слова и действительно всё организовал.

Я поехал в Яндекс, по форме одежды, в кителе с погонами и морковном берете, всё как полагается. Был тщательно проинструктирован представлять МЧС.

В Красной Розе все смотрели меня как будто на митап пришел ФСБшник. Меня это всё очень забавляло и я решил для закрепления впечатления почаще делать фотографии, пикрилейтед.

Доклад был классный. Я впкрвые узнал про эмбеддинги и word2vec. К тому же до митапа к Красной Розе приехала моя тогдашняя девушка и я попил с ней чай. Да и вообще я был не в армии на целых несколько часов. День уже удался.

На обратном пути, прямо перед входом в часть, я не заметил офицера в патруле и не выполнил воинское приветствие. В наказание за это впоследствии дежурил в части в новый год. Но это уже другая история.

Gensim для прогнозирования пожаров так и не пригодился. Однако на днях, спустя 9 лет после тех событий, я осознал: Белоусов был прав! В 2017 году, далеко до всяких трансформеров, он предвидел, что мы будем представлять любую хрень как слово (особенно во временных рядах) и обрабатывать эмбеддинги!
261👍11483🔥57
Ещё такая нашлась
15751🔥12👍2
Forwarded from ChillHouse (Alexey Moiseenkov)
Наброшу в копилку про фронтир лабы. Часто в интернетах любят рассуждать про Open Weight Models. Мол скоро вот вот они догонят и всегда поджимают. Что думается мне после общения с разными людьми и какие проблемы я вижу:

• проблема таланта, как нанять команду делать небольшую или открытую модель, если норм рисерч талант в антропике получает 10м в год (реальные цифры), и это тебе еще надо compute и все такое
• допустим ты готов инвестировать в обучение людей годик другой, но тогда догонять будешь очень долго - как решить? ну надо поднимать сотку другую сразу и чилить, иначе я не очень понимаю в чем конкуретное преимущество в оффере
• но допустим ты привлекаешь апсайдом, тогда ходит такое мнение что "мол фронтир модели это 90% рынка в деньгах", откуда брать данные на обучение и RL, то есть буквально все покупают только "самое лучшее" (готовы давать рычноную премию к "модель чуть получше" - 20% больше платить или даже в 2 раза)
• условный Opus в 10 раз дороже китайских моделей и все его покупают
• в такой ситуации конкуренция усложняется еще тем, что процесс дистилляции начинают прикрывать тем самым что есть закрытые модели для индустрий и даже специальные деплой команды, которые эти модели в закрытом режиме интегрируют (см мифос, и математические модели openai). Или другими словами задистилить модель в claude code будет легко, но вот ту которая работает в банке - никак.


Все это напоминает типичную олигополию и места для OSS думаю со временем не будет за исключением определенных вертикалей или решений. Думаю что китайцы делают все открытым чтобы хотя немного данных иметь и привлекать людей. Других причин настоящих не вижу.

Ах да децентрализованный инфернес чушь.
👍17😢84👎4🤔1
Вообще пользование китайскими моделями ощущается так
54🔥12👍31👎1
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлом году в мы брали интервью у Насти из Avaturn, а сегодня мы принесли вам потрясающий релиз от ребят💃

Команда Avaturn.live выложила в опенсорс AVTR-1 - фреймворк, который позволяет вести видео диалог с аватаром в реалтайме.
Загружаете фотку, и болтаете с героями любимых мемов!
(если конечно у вас есть видеокарта)

🐰В релиз входят:
— веса модели
— инференс-стек, оптимизированный под TensorRT
— бэкенд для запуска живой диалоговой сессии end-to-end

💅Насколько мы знаем, это первый публичный опенсорс-релиз, где в комплекте идёт не только модель, но и серверный стек для интерактивной сессии.

Производительность:
— RTX 3070 / 4060 Ti — реал-тайм
— A100 / L40 — более чем 2× быстрее реал-тайма


💻То есть вам хватит обычной игровой карты, чтобы поговорить с кастомным аватаром, а если лень - с демо версией.

💻 https://github.com/avaturn-live/avtr-1
🌐 https://avaturn.live/demo
🤗 https://huggingface.co/avaturn-live/avtr-1

С вас лайки и звездочки на гит!

Оставляйте ваши технические вопросики в комментах, вам ответят авторы этого шикарного дропа 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
247🔥5🤔2
Профессии будущего:
- Слоповар
- Трудовик в рагостроительном колледже
- ComfyUI гунинг-инженер первой категории
- Инженер-технолог контент-завода
- Токен-казначей
- Промптописец
- Харнессоплет
- Санитар в киберпсихозном диспансере
120🔥176🤔4👍2
В Яндекс Музыке появились ИИ-компаньоны — люмены

В декабре Яндекс впервые их анонсировал. Помните про деймонов из Пулмана? Сегодня концепт зашёл в прод.

Как это работает?
Люмен живёт в поиске Яндекс Музыки и переводит свободный запрос юзера в параметры для Моей волны. Пишешь «мне грустно, хочу поднять настроение» → он запускает рекомендации по этому запросу.

Что под капотом?
LLM-прослойка между текстовым вводом и рекомендательной системой. Люмен не создает плейлисты сам, он формирует запрос к алгоритмам Моей волны, которые знают, какую музыку подобрать конкретному слушателю.

Персонализация в две стороны:
→ Моя волна: накопленные данные о вкусах, о треках, о внешнем контексте 
→ Люмен: интерпретация текущего запроса

Зачем это нужно?
Яндекс переосмысливает UI для ИИ – никакого чат-бота и сложного промпт-инжиниринга. Пользователь пишет как думает — а ИИ сам переводит пожелания в технический запрос.
4542👎34