Forwarded from Inemi Davos
Привет! В неделю пет-проектов)
https://seely.ru/ - MCP-сервер к Яндекс.Метрике и Яндекс.Вебмастеру. Задаете вопрос обычным языком, например:
- "Почему упал трафик на прошлой неделе?"
- "Какие страницы в шаге от топа?"
- "Где у меня ошибки индексации?"
ИИ сам достает реальные данные и дает конкретный ответ.
Базовые инструменты Метрики (трафик, отказы, конверсии, аудитория, устройства, рефералы) и Вебмастера (индексация, запросы, битые ссылки, сайтмапы, диагностика). Только чтение, нельзя ничего изменить или удалить в яндексе.
Скоро ещё добавлю туда же MCP для Google Search Console и Google Analytics.
https://seely.ru/ - MCP-сервер к Яндекс.Метрике и Яндекс.Вебмастеру. Задаете вопрос обычным языком, например:
- "Почему упал трафик на прошлой неделе?"
- "Какие страницы в шаге от топа?"
- "Где у меня ошибки индексации?"
ИИ сам достает реальные данные и дает конкретный ответ.
Базовые инструменты Метрики (трафик, отказы, конверсии, аудитория, устройства, рефералы) и Вебмастера (индексация, запросы, битые ссылки, сайтмапы, диагностика). Только чтение, нельзя ничего изменить или удалить в яндексе.
Скоро ещё добавлю туда же MCP для Google Search Console и Google Analytics.
🔥33❤7
Forwarded from German Kochnev
Привет, Борис. Я на петпроектную неделю :)
Мы пилим курс на Stepik по AI Security / Red Teaming: https://stepik.org/course/225332/promo
Это курс про то, как защищать (и ломать) LLM-приложения: prompt injection, jailbreaks, indirect prompt injection, атаки на AI-агентов и RAG. Все заточено на практику. Курс состоит из большого набора CTF-задач. Построен на собственном CTF-тренажере.
Курс пока развивается, поэтому особенно полезна обратная связь: где непонятно, где слишком легко, где хочется больше практики.
Мы пилим курс на Stepik по AI Security / Red Teaming: https://stepik.org/course/225332/promo
Это курс про то, как защищать (и ломать) LLM-приложения: prompt injection, jailbreaks, indirect prompt injection, атаки на AI-агентов и RAG. Все заточено на практику. Курс состоит из большого набора CTF-задач. Построен на собственном CTF-тренажере.
Курс пока развивается, поэтому особенно полезна обратная связь: где непонятно, где слишком легко, где хочется больше практики.
❤48
Примерно пол года назад я писал про бота для поиска работы Софи. Ты подключаешь его в HH.ru и он помогает попасть на собеседование делая по 20+ персонализированных откликов в день.
С тех пор ребята развивали продукт и свою платформу для поиска работы:
1. Переписали парсер - теперь собирают вакансии из 110+ источников: Telegram, Хабр, LinkedIn и другие.
2. Сделали умный мэтчер - теперь их платформа показывает то, что подходит именно вам
(локация, стек, грейд + обучение на фидбэке юзеров).
Следующий шаг - откалибровать мэтчер до точности 80%+, но это невозможно без реальных пользователей.
Поэтому уже скоро ребята откроют доступ к бесплатному тесту платформы и Софи.
Места будут ограничены и первым пользователям предлагают скидку 15% после триала.
➡️Если хотите попасть - подписывайтесь на канал, там будет анонс о наборе.
С тех пор ребята развивали продукт и свою платформу для поиска работы:
1. Переписали парсер - теперь собирают вакансии из 110+ источников: Telegram, Хабр, LinkedIn и другие.
2. Сделали умный мэтчер - теперь их платформа показывает то, что подходит именно вам
(локация, стек, грейд + обучение на фидбэке юзеров).
Следующий шаг - откалибровать мэтчер до точности 80%+, но это невозможно без реальных пользователей.
Поэтому уже скоро ребята откроют доступ к бесплатному тесту платформы и Софи.
Места будут ограничены и первым пользователям предлагают скидку 15% после триала.
➡️Если хотите попасть - подписывайтесь на канал, там будет анонс о наборе.
Telegram
Софи и партнеры
Все про разработку самого крутого AI ассистента по поиску работы - https://sofi-assistant.com/landing/
👎27👍14❤5😢1 1
Forwarded from Dmitry S
привет, Борис!)
у нас в компании друзей постоянно поездки, посиделки в калике, ДР, шашлыки на даче – и каждый раз кто-то заводит эксель таблицу, остальные перестают ее обновлять через два дня, в чате присылают скриншоты "итого с тебя еще 800 рублей" и никто не помнит кто за что платил🧠
Splitwise и Tricount пробовали, но там нет ocr, удобного входа через tg/vk и UI просто режет глаза
в общем, мы сели и сделали Пополаму🍀 (popolama.com): компания заводит спейс, добавляет траты по фотке чека или вручную, далее все пересчитывается и можно удобно посмотреть кто кому сколько должен
также в профиле можно добавить способы оплаты, чтобы друзья быстро понимали куда переводить деньги💸 🤑
у нас в компании друзей постоянно поездки, посиделки в калике, ДР, шашлыки на даче – и каждый раз кто-то заводит эксель таблицу, остальные перестают ее обновлять через два дня, в чате присылают скриншоты "итого с тебя еще 800 рублей" и никто не помнит кто за что платил
Splitwise и Tricount пробовали, но там нет ocr, удобного входа через tg/vk и UI просто режет глаза
в общем, мы сели и сделали Пополаму
также в профиле можно добавить способы оплаты, чтобы друзья быстро понимали куда переводить деньги
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍17❤8👎6
Forwarded from Данеk
Я студент ПМИ, делаю курс по LLM-инженерии:
prompt-engineering, RAG, агенты, eval и продакшен - 15 модулей
с код-задачами и автопроверкой. Выходит 31 мая на Stepik (буду допиливать местами, мб, добавлю еще модули).
Планирую сделать бесплатным/низкую цену относительно других курсов.
Буду признателен, если упомянешь у себя 👉👈.
Страница курса:
https://stepik.org/course/287333
Спасибо!
prompt-engineering, RAG, агенты, eval и продакшен - 15 модулей
с код-задачами и автопроверкой. Выходит 31 мая на Stepik (буду допиливать местами, мб, добавлю еще модули).
Планирую сделать бесплатным/низкую цену относительно других курсов.
Буду признателен, если упомянешь у себя 👉👈.
Страница курса:
https://stepik.org/course/287333
Спасибо!
👍46 32🔥12❤4
Forwarded from Open Data Serbia
Близится конец мая — а значит, и неделя Data Fest 😎
В этом году в Белграде пройдут целых два дня: в начале и в конце Data Fest недели
📅 24 мая — Яндекс Белград
• 8 докладов по трекам: Agentic LLM, Practical ML, CV
• Плюс утренняя активность, нетворкинг и афтепати
🗣 Язык: RU (в основном) / EN
👉 Регистрация (скоро закончится!)
📅 31 мая — Факультет ФОН
• 24 спикера по трекам: LLM, Speech, Robotics и другие
• Сбор гостей с 12:00, программа скоро появится
🗣 Язык: EN
👉 Регистрация
❗ Регистрация на каждое событие отдельно
На входе: письмо-приглашение и документ
// Другие города и онлайн площадки датафеста тут
Увидимся😎
В этом году в Белграде пройдут целых два дня: в начале и в конце Data Fest недели
📅 24 мая — Яндекс Белград
• 8 докладов по трекам: Agentic LLM, Practical ML, CV
• Плюс утренняя активность, нетворкинг и афтепати
🗣 Язык: RU (в основном) / EN
👉 Регистрация (скоро закончится!)
📅 31 мая — Факультет ФОН
• 24 спикера по трекам: LLM, Speech, Robotics и другие
• Сбор гостей с 12:00, программа скоро появится
🗣 Язык: EN
👉 Регистрация
❗ Регистрация на каждое событие отдельно
На входе: письмо-приглашение и документ
// Другие города и онлайн площадки датафеста тут
Увидимся
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👍1
Приезжайте в Белград. Я буду выступать с докладом 31 мая! 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍10🔥6
Мои подписчики слишком продуктивные и пет-проектов слишком много. Придется сжимать в один пост
Skiller от @devall: тул для для менеджмента скиллов агентов
Palatine Speech и Spectra от @Valeronich:
Бесплатный курс на Stepik "Введение в разработку ИИ-агентов" от @maks_maks1:
Sublex: бесплатное браузерное расширение для двойных субтитров на Youtube:
ai-dotfiles — менеджер фпайлов контекста для claude code от @psgorlov:
Skiller от @devall: тул для для менеджмента скиллов агентов
Мотивация простая:
• бывает в одном агенте есть нужный скилл, а в другом нет
• либо же наоборот их избыток и забитый контекст (например курсор таким страдает и тянет все со всех агентов и дублирует).
• отдельная полезная фича это установка скиллов из чужого репозитория с возможностью выбрать какие нужны
• остальное на скринах
Palatine Speech и Spectra от @Valeronich:
Palatine Speech: речевые технологии для бизнеса. Переводим аудио, видео, звонки, встречи и интервью в текст, делаем диаризацию, субтитры, краткие итоги и речевую аналитику. Это полезно, если у вас есть контакт-центр, отдел продаж, интервью, созвоны, пользовательские аудио или любой процесс, где люди говорят, а потом это нужно разбирать руками.
Palatine Spectra: компьютерное зрение для промышленной дефектоскопии. Помогаем производствам автоматически находить дефекты на линии, фиксировать отклонения и снижать зависимость от ручного контроля качества.
Бесплатный курс на Stepik "Введение в разработку ИИ-агентов" от @maks_maks1:
Стояла цель структурировать свои знания об этой области, а также поделиться с теми, кто только начинает погружаться.Как говорится, если можешь объяснить что-то другим простыми словами, значит ты эту тему знаешь хорошо =)
Sublex: бесплатное браузерное расширение для двойных субтитров на Youtube:
Оригинал и перевод прямо поверх видео. Можно навести курсор на любое слово, увидеть его перевод в контексте, сохранить в личный словарь и потом повторять с помощью карточек. Доступно 20 языков. Полностью бесплатно.
Изначально проект начал из-за самостоятельного изучения немецкого языка, поэтому постепенно буду развивать функционал сервиса.
ai-dotfiles — менеджер фпайлов контекста для claude code от @psgorlov:
У меня была боль синхронизации скиллов и прочего для Claude Code на разных машинках и в разных проектах. При этом не хотелось создавать очередную библиотеку скиллов, а решить проблему уровнем выше. Из этой боли родился проект: менеджер файлов контекста(скиллы, сабагенты, правила), позволяющий гибко управлять ими, группировать, подключать внешних вендоров и настраивать контекст под стек проекта и т. п. В общем, что-то типа npm для контекста агентов. 🙈
GitHub
GitHub - beautyfree/skiller: AI agent skills manager for Claude Code, Cursor, Codex and more — install, sync, and manage skills…
AI agent skills manager for Claude Code, Cursor, Codex and more — install, sync, and manage skills from one desktop app. - beautyfree/skiller
🔥33❤12👍12👎3 1
Идёт сбор заявок на ежегодную Летнюю школу по искусственному интеллекту «Лето с AIRI». Она пройдёт в Первом университетском лицее им. Н.И. Лобачевского в Усть-Лабинске, Краснодарский край, с 21 июля по 4 августа.
В программе — лекции, семинары, постерная сессия, работа над проектами и внеучебные активности. Школа бесплатная, проживание и питание также на организаторах — участники оплачивают только транспортные расходы.
Подать заявку можно до 24 мая включительно
В программе — лекции, семинары, постерная сессия, работа над проектами и внеучебные активности. Школа бесплатная, проживание и питание также на организаторах — участники оплачивают только транспортные расходы.
Подать заявку можно до 24 мая включительно
airi.net
Лето с AIRI
Ежегодная Школа для молодых ученых — это глубокое погружение в работу с широким спектром современных методов искусственного интеллекта и машинного обучения.
👍17❤15🔥3
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
3.5 Flash вышел!
Обещают качество уровня Gemini 3.1Pro даже на сложных задачах при скорости в 4 раза быстрее. Большой фокус на агентах и собственном клоне OpenClaw:
Совсем ничего про вижн! Что печально.
3.5 Flash вышел!
Обещают качество уровня Gemini 3.1Pro даже на сложных задачах при скорости в 4 раза быстрее. Большой фокус на агентах и собственном клоне OpenClaw:
The new Gemini Spark, your personal AI agent, uses 3.5 Flash. It runs 24/7, helping you navigate your digital life, taking action on your behalf while under your direction.
Совсем ничего про вижн! Что печально.
Google
Gemini 3.5: frontier intelligence with action
At Google I/O we released Gemini 3.5, our latest series of models combining frontier intelligence with action.
❤10👍4
Forwarded from Технозаметки Малышева
Media is too big
VIEW IN TELEGRAM
Google Gemini Omni: новый уровень творчества
Google собрал весь мультимодальный стек в одну модель: текст, изображение, аудио, видео на вход - видео на выход.
Первая модель семейства, Gemini Omni Flash, уже доступна подписчикам.
🤖 Что под капотом: Omni принимает любую комбинацию входов (текст + фото + звук + видео) и генерирует видео за один проход модели, а не через цепочку специализированных систем. Каждая инструкция наслаивается на предыдущую: «замени скульптуру на мыльные пузыри», «когда рука касается зеркала - зеркало плывёт» - модель помнит контекст и сохраняет персонажей сквозь правки. Физика улучшена: гравитация, кинетика, динамика жидкости.
💰 Доступ и цены: AI Plus от $20/мес, AI Ultra от $100/мес с приоритетом. Пока только потребительский продукт. Vertex AI API - «в ближайшие недели». Для продакшена пока рано - нет API, нет SLA.
🛡 Безопасность: Каждый ролик маркируется невидимым цифровым водяным знаком SynthID. Google расширяет C2PA Content Credentials и запускает AI Content Detection API для распознавания сгенерированного контента.
Omni - программируемый видеодвигатель по генерации новой реальности кинематографического качества, а не просто игрушка для нейрорендера.
Вариантная реклама, обучающие ролики, визуализация продуктов, фильмы - все можно создавать без студии и привычных рендер инструментов.
#Gemini #Omni #Google #нейрорендер
------
@tsingular
Google собрал весь мультимодальный стек в одну модель: текст, изображение, аудио, видео на вход - видео на выход.
Первая модель семейства, Gemini Omni Flash, уже доступна подписчикам.
🤖 Что под капотом: Omni принимает любую комбинацию входов (текст + фото + звук + видео) и генерирует видео за один проход модели, а не через цепочку специализированных систем. Каждая инструкция наслаивается на предыдущую: «замени скульптуру на мыльные пузыри», «когда рука касается зеркала - зеркало плывёт» - модель помнит контекст и сохраняет персонажей сквозь правки. Физика улучшена: гравитация, кинетика, динамика жидкости.
💰 Доступ и цены: AI Plus от $20/мес, AI Ultra от $100/мес с приоритетом. Пока только потребительский продукт. Vertex AI API - «в ближайшие недели». Для продакшена пока рано - нет API, нет SLA.
🛡 Безопасность: Каждый ролик маркируется невидимым цифровым водяным знаком SynthID. Google расширяет C2PA Content Credentials и запускает AI Content Detection API для распознавания сгенерированного контента.
Omni - программируемый видеодвигатель по генерации новой реальности кинематографического качества, а не просто игрушка для нейрорендера.
Вариантная реклама, обучающие ролики, визуализация продуктов, фильмы - все можно создавать без студии и привычных рендер инструментов.
#Gemini #Omni #Google #нейрорендер
------
@tsingular
❤15🔥6👍3
#дайджест
Дайджест AI/ML за неделю 11-17 мая 2026 (запоздалый)
Кибербезопасность:
Слишком много для отдельных пунктов, но проходить мимо первых огоньков прекрасного будущего не хочется
Google GTIG зафиксировали первую крупную реальную ИИ 0-day атаку.
Microsoft: MDASH - обвязка из 100+ агентов на разных моделях нашла очередную кучу критических уязвимостей первого дня.
UK AISI отчёт "Cooling Tower": Claude Mythos Preview первая модель, которая смогла пройти симулятор атаки на промышленную систему управления (в 3 из 10 попыток).
ExploitBench: на 41 уязвимости Mythos Preview довёл до рабочего эксплойта 18, остальные модели - ноль.
Vercel Zero
Экспериментальный язык программирования, спроектированный под чтение, починку и сборку нативных программ агентами, а не людьми. Structured JSON-диагностика вместо текстовых ошибок, typed repair metadata, встроенный toolchain в формате Agent Skills (совместим с Claude Code, Cursor, Codex). Компилятор уже self-hosting. Сам по себе сырой, но как проба пера дизайна agent-native языков любопытно. GitHub
UPenn: ApexGO
Итеративная оптимизация исходной молекулы антибиотиков под нужные свойства через байесовскую оптимизацию. Метрики растут, какие-то антибиотики даже эффективны на мышах.
Пресс-релиз, Статья в Nature
SenseTime: SenseNova-U1
нативно мультимодальная модель на архитектуре NEO-Unify, причём делает это единым куском без VAE и vision-энкодера. 8B параметров, генерацию 2048×2048 тянет одна RTX 5090. GitHub , HF, Препринт
Менее значительные релизы:
xAI: Grok Build - очередной Claude Code, теперь от xAI. Ранняя бета для SuperGrok Heavy. Блогпост
SOOHAK - бенчмарк из 439 математических задач research-уровня от 64 математиков. 1 место - Gemini-3-Pro с 30.4%. Статья
Alibaba: Qwen-Image-2.0 - вышел техрепорт к 7B омни-модели для генерации и редактирования картинок. Веса всё ещё закрыты. Статья
Google DeepMind: AI-pointer - UX-концепт курсора мыши на Gemini, который понимает на что показывает и зачем. Блогпост
METR: Разработчики считают что с агентами они 3х инженеры, но по объективным замерам уже только 1.4-2х, и то METR подозревают что их методология завышает значение (узнали? согласны?). Блогпост
EVA-Bench - бенчмарк голосовых агентов, если после релизов прошлой недели вы решили делать себе вайфу или переводчик на фарси в отпуск, то вот вам бэнчмарк. Статья
MinT - инфраструктура для LoRA-пост-тренинга и развертывания миллионов адаптеров без материализации полных чекпоинтов. Статья
Visual Aesthetic Benchmark - могут ли фронтир-модели оценивать красоту? А создатели бэнчмарка? Никто не знает. Статья
Дайджест AI/ML за неделю 11-17 мая 2026 (запоздалый)
Кибербезопасность:
Слишком много для отдельных пунктов, но проходить мимо первых огоньков прекрасного будущего не хочется
Google GTIG зафиксировали первую крупную реальную ИИ 0-day атаку.
Microsoft: MDASH - обвязка из 100+ агентов на разных моделях нашла очередную кучу критических уязвимостей первого дня.
UK AISI отчёт "Cooling Tower": Claude Mythos Preview первая модель, которая смогла пройти симулятор атаки на промышленную систему управления (в 3 из 10 попыток).
ExploitBench: на 41 уязвимости Mythos Preview довёл до рабочего эксплойта 18, остальные модели - ноль.
Vercel Zero
Экспериментальный язык программирования, спроектированный под чтение, починку и сборку нативных программ агентами, а не людьми. Structured JSON-диагностика вместо текстовых ошибок, typed repair metadata, встроенный toolchain в формате Agent Skills (совместим с Claude Code, Cursor, Codex). Компилятор уже self-hosting. Сам по себе сырой, но как проба пера дизайна agent-native языков любопытно. GitHub
UPenn: ApexGO
Итеративная оптимизация исходной молекулы антибиотиков под нужные свойства через байесовскую оптимизацию. Метрики растут, какие-то антибиотики даже эффективны на мышах.
Пресс-релиз, Статья в Nature
SenseTime: SenseNova-U1
нативно мультимодальная модель на архитектуре NEO-Unify, причём делает это единым куском без VAE и vision-энкодера. 8B параметров, генерацию 2048×2048 тянет одна RTX 5090. GitHub , HF, Препринт
Менее значительные релизы:
xAI: Grok Build - очередной Claude Code, теперь от xAI. Ранняя бета для SuperGrok Heavy. Блогпост
SOOHAK - бенчмарк из 439 математических задач research-уровня от 64 математиков. 1 место - Gemini-3-Pro с 30.4%. Статья
Alibaba: Qwen-Image-2.0 - вышел техрепорт к 7B омни-модели для генерации и редактирования картинок. Веса всё ещё закрыты. Статья
Google DeepMind: AI-pointer - UX-концепт курсора мыши на Gemini, который понимает на что показывает и зачем. Блогпост
METR: Разработчики считают что с агентами они 3х инженеры, но по объективным замерам уже только 1.4-2х, и то METR подозревают что их методология завышает значение (узнали? согласны?). Блогпост
EVA-Bench - бенчмарк голосовых агентов, если после релизов прошлой недели вы решили делать себе вайфу или переводчик на фарси в отпуск, то вот вам бэнчмарк. Статья
MinT - инфраструктура для LoRA-пост-тренинга и развертывания миллионов адаптеров без материализации полных чекпоинтов. Статья
Visual Aesthetic Benchmark - могут ли фронтир-модели оценивать красоту? А создатели бэнчмарка? Никто не знает. Статья
Google Cloud Blog
Adversaries Leverage AI for Vulnerability Exploitation, Augmented Operations, and Initial Access | Google Cloud Blog
Explore GTIG's 2026 report on how adversaries leverage AI for zero-day exploits, autonomous malware, and industrial-scale cyber operations.
❤10👍2
Forwarded from Алексей Зинченко
[pet project]
Привет!
Сделал себе karpathy llm wiki, и мне очень зашло, теперь заворачиваю для общего использования [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f#file-llm-wiki-md]
Накидайте почт через сайт, если это ваше
https://getmana.md
Привет!
Сделал себе karpathy llm wiki, и мне очень зашло, теперь заворачиваю для общего использования [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f#file-llm-wiki-md]
Накидайте почт через сайт, если это ваше
https://getmana.md
Gist
llm-wiki
llm-wiki. GitHub Gist: instantly share code, notes, and snippets.
❤17🤔4
#дайджест
Дайджест AI/ML за неделю 18-24 мая 2026
Google: Gemini 3.5 Flash
На этой неделе прошел Google I/O, на котором фронтир убийцу бенчмарков не показали (пообещали через месяц), но выпустили лучшую рабочую лошадку. Flash модель, которая теперь обходит прежний флагман 3.1 Pro на агентных и кодинг задачах со скоростью ~280 т/с. Цена $1.50/$9, сильно дороже чем раньше, но сильно дешевле, чем Sonnet.
Блогпост, Карточка модели
Google: Gemini Omni
Очень мультимодальная модель, текст/картинка/звук/видео на входе, на выходе пока только видео, картинки и звук обещают позже. Можно разговаривать с генератором видео, наконец-то.
Блогпост
Alibaba: Qwen 3.7-Max
Флагманская text-only модель под длинные агентные задачи. Опять закрытая :с
1M контекст, $2.50/$7.50 за 1M. SWE-bench Pro 60.6 (между Opus 4.6 и 4.7), Terminal-Bench 69.7 (лидер). В демо 35 часов автономной работы и 1158 вызовов инструментов. Самый низкий hallucination rate ~22.9%. Plus-версия (мультимодальная) обещана позже с открытыми весами.
Блогпост, Alibaba Cloud, OpenRouter
Cohere: Command A+
Первый открытый фронтир от Cohere. 218B MoE (25B активных). Объединяет четыре прежние модели (Command A / Reasoning / Vision / Translate) в одну. 48 языков, нативные ссылки на источники в ответах. Блогпост , HF
Datadog: Toto 2.0
Открытое семейство моделей TSFM (time series foundation models) размерами от 4M до 2.5B. Главный посыл репорта в том что для задачи предсказания временных рядов тоже работает Scaling law и общие модели на все задачи подряд.
Статья, Блогпост
Менее значительные релизы:
DeepSeek: V4-Pro стал в 4 раза дешевле навсегда ($0.435/$0.87) Прайсинг
ByteDance: Lance — открытая 3B-активных мультимодальная модель: понимание, генерация и редактирование картинок и видео. Статья, GitHub
Perplexity: Bumblebee - опенсорс read-only сканер ИИ-окружений. проверяет конфиги агентов, расширения редакторов и пакетные зависимости. Блогпост, GitHub
Microsoft: RAMPART + Clarity - еще два опенсорс-инструмента для безопасности агентов. RAMPART - pytest-фреймворк, встраивающий ред-тим-тесты (включая prompt injection). Clarity - чат-планировщик архитектуры проектов с акцентом на кибербезопасность. Блогпост
OpenAI: опровергли гипотезу Эрдёша 1946 года с помощью внутренней модели, Тимоти Гауэрс назвал работу уровня Annals of Mathematics. Статья
UCSD: GPT-4.5 прошёл тест Тьюринга - его приняли за человека в 73% случаев. То есть сильно чаще чем настоящего человека🙂. Первая статья со статистически значимым прохождением. Статья
Anthropic: Project Glasswing Вышел отчет по раздаче Mythos Preview. Нашли гору критичных багов, оупенсорс просит котелочек не варить, не успевают латать дыры.
Artificial Analysis: Coding Agent Index
Новый лидерборд AA для агентных систем: Claude Code (66), Codex (65), Cursor Composer 2.5 (62), Gemini CLI (43).
Бенчмарки недели:
OmniGUI (GUI-агенты с omni-modal входом),
CHI-Bench (длинные healthcare-воркфлоу),
Spreadsheet-RL (RL для агентов в Excel),
OpenComputer (1000 верифицируемых десктоп-задач)
Дайджест AI/ML за неделю 18-24 мая 2026
Google: Gemini 3.5 Flash
На этой неделе прошел Google I/O, на котором фронтир убийцу бенчмарков не показали (пообещали через месяц), но выпустили лучшую рабочую лошадку. Flash модель, которая теперь обходит прежний флагман 3.1 Pro на агентных и кодинг задачах со скоростью ~280 т/с. Цена $1.50/$9, сильно дороже чем раньше, но сильно дешевле, чем Sonnet.
Блогпост, Карточка модели
Google: Gemini Omni
Очень мультимодальная модель, текст/картинка/звук/видео на входе, на выходе пока только видео, картинки и звук обещают позже. Можно разговаривать с генератором видео, наконец-то.
Блогпост
Alibaba: Qwen 3.7-Max
Флагманская text-only модель под длинные агентные задачи. Опять закрытая :с
1M контекст, $2.50/$7.50 за 1M. SWE-bench Pro 60.6 (между Opus 4.6 и 4.7), Terminal-Bench 69.7 (лидер). В демо 35 часов автономной работы и 1158 вызовов инструментов. Самый низкий hallucination rate ~22.9%. Plus-версия (мультимодальная) обещана позже с открытыми весами.
Блогпост, Alibaba Cloud, OpenRouter
Cohere: Command A+
Первый открытый фронтир от Cohere. 218B MoE (25B активных). Объединяет четыре прежние модели (Command A / Reasoning / Vision / Translate) в одну. 48 языков, нативные ссылки на источники в ответах. Блогпост , HF
Datadog: Toto 2.0
Открытое семейство моделей TSFM (time series foundation models) размерами от 4M до 2.5B. Главный посыл репорта в том что для задачи предсказания временных рядов тоже работает Scaling law и общие модели на все задачи подряд.
Статья, Блогпост
Менее значительные релизы:
DeepSeek: V4-Pro стал в 4 раза дешевле навсегда ($0.435/$0.87) Прайсинг
ByteDance: Lance — открытая 3B-активных мультимодальная модель: понимание, генерация и редактирование картинок и видео. Статья, GitHub
Perplexity: Bumblebee - опенсорс read-only сканер ИИ-окружений. проверяет конфиги агентов, расширения редакторов и пакетные зависимости. Блогпост, GitHub
Microsoft: RAMPART + Clarity - еще два опенсорс-инструмента для безопасности агентов. RAMPART - pytest-фреймворк, встраивающий ред-тим-тесты (включая prompt injection). Clarity - чат-планировщик архитектуры проектов с акцентом на кибербезопасность. Блогпост
OpenAI: опровергли гипотезу Эрдёша 1946 года с помощью внутренней модели, Тимоти Гауэрс назвал работу уровня Annals of Mathematics. Статья
UCSD: GPT-4.5 прошёл тест Тьюринга - его приняли за человека в 73% случаев. То есть сильно чаще чем настоящего человека🙂. Первая статья со статистически значимым прохождением. Статья
Anthropic: Project Glasswing Вышел отчет по раздаче Mythos Preview. Нашли гору критичных багов, оупенсорс просит котелочек не варить, не успевают латать дыры.
Artificial Analysis: Coding Agent Index
Новый лидерборд AA для агентных систем: Claude Code (66), Codex (65), Cursor Composer 2.5 (62), Gemini CLI (43).
Бенчмарки недели:
OmniGUI (GUI-агенты с omni-modal входом),
CHI-Bench (длинные healthcare-воркфлоу),
Spreadsheet-RL (RL для агентов в Excel),
OpenComputer (1000 верифицируемых десктоп-задач)
Google
Gemini 3.5: frontier intelligence with action
At Google I/O we released Gemini 3.5, our latest series of models combining frontier intelligence with action.
❤4👍3🔥1
Forwarded from Andrew Zwyagintsev
TPS: Tokens Per Slop - the throughput of garbage
QPS: Questionable Prompts per Second - how fast you can ask the AI for more slop
TTFB: Time To First Bullshit - latency between your prompt and the first hallucinated word
P99 Latency: Pure Slop 99% - threshold at which 99% of your outputs are certified nonsense
IOPS: Inane Output Per Slop - measuring the sheer density of meaningless tokens
MTTR: Mean Time To Regurgitate - how quickly the model can rephrase the same wrong answer after a crash
SLA: Slop Level Agreement - a legally binding promise that the slop will be 99.9% coherent-enough
QPS: Questionable Prompts per Second - how fast you can ask the AI for more slop
TTFB: Time To First Bullshit - latency between your prompt and the first hallucinated word
P99 Latency: Pure Slop 99% - threshold at which 99% of your outputs are certified nonsense
IOPS: Inane Output Per Slop - measuring the sheer density of meaningless tokens
MTTR: Mean Time To Regurgitate - how quickly the model can rephrase the same wrong answer after a crash
SLA: Slop Level Agreement - a legally binding promise that the slop will be 99.9% coherent-enough
Открыт прием докладов на Practical ML Conf 2026. Одна из лучших конференций по моему мнению, поэтому я каждый год обозреваю доклады оттуда. В этом году меня повысили до члена программного коммитета 👀
Сама конференция пройдет 19 сентября 2026. Но дедлайн подачи докладов уже 1 июня!
ПО ДА ВАЙ ТЕСЬ
ПО ДА ВАЙ ТЕСЬ
ПО ДА ВАЙ ТЕСЬ
Practical ML Conf — ежегодная хардовая конференция, на которой реальные кейсы, технические доклады и опыт ведущих инженеров помогут узнать, как извлекать реальную пользу из ML в продуктах и бизнесе.
Сама конференция пройдет 19 сентября 2026. Но дедлайн подачи докладов уже 1 июня!
ПО ДА ВАЙ ТЕСЬ
ПО ДА ВАЙ ТЕСЬ
ПО ДА ВАЙ ТЕСЬ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37👍26🔥23
Forwarded from Open Data Serbia
Уже завтра DataFest в Белградском универе 😎
Вас ждут выступления команд
💡 Perplexity, ❣️ Yandex, 💳 Plata и многих других:
• 24 доклада в 6 секциях
• Agents & LLMs
• Voice & Robotics
• Ranking & Banking
• И обязательно нетворкинг + афтепати
👉 Регистрация / расписание
//регистрация через гугл/гит сейчас не работает
Увидимся на DataFest😎
Вас ждут выступления команд
• 24 доклада в 6 секциях
• Agents & LLMs
• Voice & Robotics
• Ranking & Banking
• И обязательно нетворкинг + афтепати
👉 Регистрация / расписание
//регистрация через гугл/гит сейчас не работает
Увидимся на DataFest
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍5 4🔥2
По итогам DataFest 2026 я сделал следующие выводы про прогресс ИИ:
1. Claude Design должен быть забанен.
2. Если я увижу ещё один элемент точка-в-эллипсе-с-текстом, я повешусь.
3. Зря я сам использовал Claude Design для презентации.
1. Claude Design должен быть забанен.
2. Если я увижу ещё один элемент точка-в-эллипсе-с-текстом, я повешусь.
3. Зря я сам использовал Claude Design для презентации.