Технозаметки Малышева
8.27K subscribers
3.72K photos
1.39K videos
40 files
3.91K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Media is too big
VIEW IN TELEGRAM
OmniRetarget - платформа для комплексного обучения роботов.

Очень много примеров и сценариев, которые они обкатывают на примере UniTree

Основное:
- Превращает записи движений человека в движения для робота-гуманоида
- Сохраняет взаимодействия с предметами и поверхностями (если человек берет коробку, робот тоже правильно её возьмёт)
- Не создаёт физических ошибок (ноги не скользят, части тела не проходят сквозь предметы)

Из одной записи создаёт много вариантов:
- Предмет в другом месте или повёрнут
- Предмет другого размера
- Платформы разной высоты
- Подходит для роботов разных моделей

paper

не, ну хорошо, в принципе, что они пока на привязи...

#роботы #OmniRetarget #UniTree
———
@tsingular
🔥82👍2👾1
Forwarded from Dealer.AI
MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC.

Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.

🎯 Постановка задачи

Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.

💡 Идея подхода

В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:

Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.

Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.

🧪 Дизайн метрик

Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.

Основные метрики, использованные в исследовании:

pass@1процент задач, успешно решенных моделью с первой попытки.
pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает по крайней мере в одном из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.

🔢 Результаты оценки моделей

Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:

•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.

•claude-sonnet-4 (Anthropic) <30%, <15% соответственно

•o3 (OpenAI) < 30%, < 15% соответственно.

В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.

🤔 Почему это важно

Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.

Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
211🔥1
Media is too big
VIEW IN TELEGRAM
OpenCode.ai - бесплатный открытый аналог СlaudeСode

- Нативный TUI. Гибкий, типовой интерфейс терминала с возможностью настройки тем.

- LSP включен. Автоматическая загрузка правильных LSP для LLM.

- Многосеансовый запуск нескольких агентов параллельно в одном проекте.

- Обмен ссылками. Поделитесь ссылкой на любой сеанс для получения справки или отладки.

- Claude Pro. Можно авторизоваться в Anthropic, чтобы использовать свою учетную запись Claude Pro или Max.

- Любые поставщики LLM моделей: 75+ через Models.dev, включая локальные модели.

- Совместим с любым IDE, так как работает в командной строке

#OpenCode #dev
———
@tsingular
🔥42👍211
This media is not supported in your browser
VIEW IN TELEGRAM
Comet Browser от Perplexity.ai теперь бесплатный для всех.

- понимает контекст страниц
- может ответить на почту
- может управлять страницами как оператор
- может даже создавать сайты
- организует вкладки по запросу
- может покупать на сайтах что скажете

Есть коллекция промптов, если закончились идеи как использовать браузер.
Или даже видеопримеры.

Качать тут:
https://www.perplexity.ai/comet

#Comet #Perplexity
———
@tsingular
👍10🔥74
Microsoft: ИИ создает биологические угрозы нулевого дня

Microsoft заявляет, что современные ИИ-системы могут генерировать новые биологические угрозы, неизвестные науке ранее.

Исследователи тестировали способность больших языковых моделей предлагать опасные биологические модификации, которые нельзя обнаружить существующими методами защиты.

Проблема в том, что такие "zero-day" атаки в биологии могут обойти все текущие системы безопасности — от скрининга ДНК до контроля доступа к лабораторному оборудованию.

Это создает новый класс рисков на пересечении ИИ и биотехнологий, где традиционные подходы к кибербезопасности не работают.

Получается, теперь не только хакеры могут создавать zero-day эксплойты, но и биологи с доступом к ИИ. Весело живем.

#Microsoft #Biology #ZeroDay
------
@tsingular
6👀532
This media is not supported in your browser
VIEW IN TELEGRAM
Многоножки

a=(y,d=mag(k=(4+sin(y*7-t)*3)*cos(i/78),e=y/8-13))=>point((q=2*sin(k*2)+.3/k+y/8*k*(2+sin(y-d*3+t*2)))+40*cos(c=d-t+(i&2)*2)+200,q*sin(c)+d*46-300)
t=0,draw=$=>{t||createCanvas(w=400,w);background(9).stroke(w,96);for(t+=PI/120,i=2e4;i--;)a(i/470)}


Код HTML в комментарии

#dev #многоножки #шейдеры
———
@tsingular
👍9🔥51
🧠 TDK покажет нейроморфный AI-чип, который "думает" как мозжечок

TDK с Hokkaido University сделали чип, который использует физические свойства электронных компонентов вместо вычислений.

Как это работает:
- Данные циркулируют через 400 связанных узлов (резисторы + конденсаторы + транзисторы)
- Физические процессы (заряд/разряд) заменяют сложные расчёты
- Обучается только выходной слой
- Переключается между режимами 250 раз в секунду

Что покажут в демо на CEATEC 2025:

Чип подключён к руке через акселерометр. Пока вы ещё двигаете пальцами для жеста "камень-ножницы-бумага", AI уже определил что вы покажете и выдал выигрышный вариант.
Выиграть невозможно — чип учится вашим индивидуальным движениям в реальном времени.
(250 раз в секунду, еще раз!)

Еще деталей из документации:

- Предсказание хаоса: точность 95%
- "Память" на 45+ временных шагов назад
- COVID-19 прогноз: ошибка 100-450 человек для регионов Японии
- Всё это на энергопотреблении в разы ниже обычных нейросетей

Где применять:
- Роботы — мгновенная реакция на движущиеся объекты
- Носимая электроника — анализ жестов, походки, биометрии
- IoT-сенсоры — обработка данных прямо на устройстве без облака
- Медицинские датчики — мониторинг показателей в реальном времени

Почему это прорыв:
- Стандартный CMOS-процесс производства = легко масштабировать.
- TDK уже делает сенсоры для edge-устройств, теперь добавляют "мозг" для их мгновенного анализа.
- Edge AI без зависимости от облака и интернета.

Пока прототип, но технология готова к серийному производству.

На дронах и роботах GPU будут не нужны. Ну или рядом с GPU/NPU добавится еще и такой вот нейроморфный "мозжечок".

#ReservoirComputing #EdgeAI #TDK #Neuromorphic
———
@tsingular
1🔥141🤔1
Google вкладывает $4 млрд в дата-центр в Арканзасе

Google строит огромный дата-центр в Вест-Мемфисе на $4 млрд — это крупнейшая частная инвестиция в истории штата.

Пять зданий на 1,100 акрах земли, запуск до 2027 года.
Проект назвали "Pyramid", общая сумма с инфраструктурой может дойти до $10 млрд.

Договорились с Entergy по энергии, вложат в солнечную электростанцию Arkansas Cypress Solar (запуск 2028).
Плюс $25 млн в местный Energy Impact Fund.

Штат дал налоговые льготы через Act 548 и Generating Arkansas Jobs Act.
Взамен Google обучит 10,000 человек работе с ИИ.

Тут ещё слух прошел, что Gemini 3.0 Pro уже на подходе.
Сейчас её активно на бенчах гоняют и по результатам все, что сейчас есть в проде у конкурентов, - даже рядом не стояло.

#Google #Arkansas #DataCenter
------
@tsingular
🔥64
Lemon AI: локальная альтернатива Manus

Hexdo выкатили Lemon AI - опенсорсный full-stack агентный фреймворк, который позиционируют как альтернативу Manus и Genspark AI.

Lemon AI умеет проводить детальные исследования, изучать сайты, писать код с использованием встроенной песочницы Code Interpreter VM для безопасного запуска, анализировать данные, - все это работает исключительно на вашем локальном железе.
Поддерживает функции планирования, действия, размышления и памяти, используя локальные LLM (например, DeepSeek, Qwen, Llama, Gemma) через Ollama, обеспечивая полную конфиденциальность и нулевую зависимость от облака.

Судя по промо ролику, - реально универсальный комбайн.

#LemonAI #OpenSource #Китай
———
@tsingular
🔥1022👍1
Forwarded from InfoSec VK Hub
VK Security Confab: ИИ в безопасности, безопасность ИИ

1 октября мы погрузились в самую горячую тему года — от автоматизации безопасности с помощью ИИ до защиты самих ML-систем.
Для всех, кто был с нами (и для тех, кто пропустил) — делимся презентациями спикеров.

Сохраняйте и используйте!

🔹 Материалы выступлений:

→ Секреты (и) LLM
Илья Сидельников, VK
Ссылка на презентацию

→ Агентный подход для анализа безопасности OpenAPI-схем
Руслан Бомин-Кулаков, Т-Банк
Ссылка на презентацию

→ Использование ИИ для автоматической классификации конфиденциальных данных
Игорь Дмитриев, WB tech
Ссылка на презентацию

MLSecOps в продакшене
Павел Литиков, VK
Ссылка на презентацию

Спасибо спикерам за глубину тем, а всем участникам — за крутые вопросы и атмосферу, где рождаются новые идеи! 💪

Следите за анонсами — готовим кое-что особенное!

VK Security | Буст этому каналу!

#confab #митап #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥21👍1
Стволовые клетки обратили старение у обезьян

Китайские ученые из Chinese Academy of Sciences провели эксперимент на старых обезьянах циномолгус, вводя им генетически модифицированные мезенхимальные стволовые клетки.

За 44 недели эксперимента клетки показали реальное омоложение:
- периферическая кровь: 33% возврата генной экспрессии
- гиппокамп: 42%
- яичники: 45%

Генные модификации включали активацию NRF2 и FOXO3 транскрипционных факторов, что снизило риск опухолей и усилило регенерацию.

Омоложение затронуло 10 физиологических систем и 61 тип тканей.

Никаких серьезных побочек не зафиксировали.

Теперь главные вопросы: GMP-стандартизация, стоимость терапии и регуляторные одобрения до человеческих испытаний.

Публикация в Cell

Осталось не состариться пока регуляторы одобрят. :)

#StemCells #AntiAging #Longevity
———
@tsingular
🔥31821
Google запустил Gemini для умного дома

Google интегрировал Gemini в домашние устройства Nest.

Теперь можно обычными голосовыми командами управлять светом, термостатом и камерами, - что-то типа "сделай потеплее" или "покажи что на заднем дворе".

Хочется верить, что управление физическими устройствами будет проходить без галлюцинаций.

Интересная деталь: вся обработка идёт через облако.
А вы еще не хотите Max устанавливать :)

#Gemini #SmartHome #GoogleNest
———
@tsingular
🔥63🆒3😁1