Технозаметки Малышева
8.27K subscribers
3.72K photos
1.4K videos
40 files
3.91K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA выпустила открытый физический движок Newton для роботов

NVIDIA запустила Newton Physics Engine - открытый движок для симуляции физического мира для роботов, разработанный совместно с Google DeepMind и Disney Research. Основан на NVIDIA Warp и работает как на GPU так и на CPU.

Движок интегрирован в Isaac Lab и позволяет симулировать сложные движения роботов - ходьбу по снегу, гравию, манипуляции с объектами.

Вместе с Newton выходит Isaac GR00T N1.6 - модель для роботов с интеграцией Cosmos Reason для пошагового планирования действий с учётом физики мира.
Превращает расплывчатые инструкции в пошаговый план через "здравый смысл" и знание физики

Cosmos WFMs - генерация синтетических данных для обучения:
Predict 2.5: видео до 30 сек, мультикамерный вывод
Transfer 2.5: в 3.5x компактнее, фотореалистичная синтетика из 3D-сцен

Тут кстати уместно вспомнить про избыточность.
Когда роботы локально смогут быстро генерить хотя бы 30 секундные физически достоверные симуляции будущего, - мы получим то самое "воображение", которое сделает их действия безошибочными.
Нужны мощные маленькие мини-пк, как, например, NVidia Thor.

#Newton #Robotics #NVIDIA
———
@tsingular
👍42🔥2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
FuzzForge AI: платформа для автоматизации поиска уязвимостей

Интересная платформа с ИБ инструментами.

🤖 AI Agents for Security — специализированные агенты для AppSec, реверсинга и фаззинга

🛠 Автоматизация рабочих процессов — определение и выполнение рабочих процессов AppSec в виде кода

📈 Масштабируемое исследование уязвимостей - автоматизированная перепроверка уязвимостей 1-day и обнаружение уязвимостей 0-day

🔗 Интеграция с фаззерами — AFL, Honggfuzz, AFLnet, StateAFL и другие

🌐 Маркетплейс сообщества - обмен рабочими процессами, корпусами, PoC и модулями

🔒 Корпоративная версия - облачные решения для команд/корпораций для масштабирования активной безопасности

Полезный фреймворк для внутренней команды по пентестам.

#FuzzForge #Fuzzing #AppSec #cybersecurity
———
@tsingular
2👍21
HexStrike AI: коллекция 150+ инструментов с MCP для пентеста с ИИ

Новый MCP-сервер позволяет Claude, GPT и другим ИИ автономно запускать 150+ инструментов кибербезопасности для пентеста и поиска уязвимостей.

🔍 Сетевая разведка и сканирование (более 25 инструментов)
🌐 Тестирование безопасности веб-приложений (более 40 инструментов)
🔐 Аутентификация и защита паролей (более 12 инструментов)
🔬 Двоичный анализ и реверс инжиниринг (более 25 инструментов)
☁️ Безопасность облаков и контейнеров (более 20 инструментов)
🏆 Инструменты для CTF и криминалистики (более 20 инструментов)
🔥 Bug Bounty и OSINT Arsenal (более 20 инструментов)

Система интегрирует языковые модели с утилитами для автоматизации багбаунти и исследований безопасности.

Рекомендуется использовать только в исследовательских целях.

#HexStrike #cybersecurity #Pentesting
———
@tsingular
2👍21🔥1
Историческая запись. Сохраним.

Уильям Гибсон, отец мирового киберпанка, пишет, что на его творчество значительно повлиял Виктор Цой.

Т.е. знаменитый Нейромансер, а затем и Бегущий по лезвию бритвы, Матрица, Призрак в Доспехах, Чужие, которые все начитались и насмотрелись и бросились разрабатывать ИИ,- это все немножко Цой и алюминиевые огурцы.

#Гибсон #Цой #жив
------
@tsingular
🔥20138❤‍🔥1👀1
Claude Code: курс от DeepLearning.AI по работе с агентом-разработчиком

Anthropic и DeepLearning.AI запустили бесплатный курс по Claude Code - агентному ассистенту для разработки.

Курс покрывает практики работы с RAG-чатботом, рефакторинг Jupyter ноутбуков в дашборды, создание веб-приложений из Figma макетов.

Рассмотрена интеграция с MCP серверами, git worktrees для параллельных сессий, автоматизация через Playwright.

Если вы еще не погрузились в разработку с Claude Code, - рекомендую найти 2 часа на прохождения курса хотя бы для общего понимания как именно он работает.

#Claude #обучение #Anthropic #DeepLearning
———
@tsingular
🔥63👍2
Бывшие исследователи OpenAI и DeepMind привлекли $300M на автоматизацию науки

Команда экс-сотрудников OpenAI и DeepMind получила $300 миллионов посевных инвестиций на создание ИИ-системы для автономных научных исследований.

Стартап планирует полностью автоматизировать цикл: гипотеза → эксперимент → валидация. Без участия человека.

Типичное распределение таких инвестиций: 40-50% на вычислительную инфраструктуру, 25-30% на таланты, 15-20% на лабораторное оборудование.

Основная проблема - как обеспечить воспроизводимость результатов и стандартизацию данных между разными лабораториями. Плюс вопросы безопасности при работе с потенциально опасными исследованиями.

По прогнозам Gartner, к 2028 году 75% корпораций будут использовать ИИ-исследователей.

Майнинг нобелевских премий :)

#OpenAI #DeepMind #Science
------
@tsingular
🔥5👍32
Media is too big
VIEW IN TELEGRAM
Мы все дальше от бога.

Такими темпами часть людей сами встанут на защиту роботов :)

Но нельзя не восхититься как он, несмотря на удары, сохраняет равновесие на этой куче мусора, продолжая танцевать.

#роботы #Unitree
------
@tsingular
🔥7👾5👀21
Forwarded from Dealer.AI
Мода на файловую память, теперь и код-агенты anthropic.

Вышло agentic SDK от антропика и там нашлось несколько интересных вещей про контекст и память.

Это уже практичное и модное решение, которое в разной форме мы наблюдали у manus и memagent.

Основные позиции – не засоряем контекст и кладем все в файловую систему ОС. Также для поиска НЕ используем без нужды семантику или даже bm25, оставаясь на grep/tail и прочих способах поиска встроенными инструментами вашей ОС. Да это не исключает проблемы больших файлов, где grep может быть не эффективен, но скорее всего, подобно идее с чанкованием, для памяти создается иерархическая память на "малых" файлах.

В итоге, центре всего стоит тезис: зачем нам семантика, когда можно взять поиск в ОС и агента для чтения и записи? Но, думаю, без семантики не обойтись, особенно, когда у нас много зависит от контекста, да еще и синонимов до кучи. Однако, быстренько найти нужный нейм файла, пойдет, а если не вышло (пустой поиск), уже можно полнотекстом и семантикой искать имя, тем самым балансировать между скоростью и надежностью/сложностью поиска. Особенно для файлов сотни мб или гб. Тут кстати и может помочь аналог чанкования, в виде иерархии файлов, на которые заранее бьём большие. Далее, берем файлик и читаем агентом, переносим из файла релевантное в контекст.
В любом случае, такое решение в итоге завязывает вас на эффективный контекст и конечно свойство роутинга, ризонинга и поиска по контексту. Крч хорошая llm вам нужна, которая у антропика есть. Но есть ли она у вас?)
31
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман ворует видеокарту.

Новая сора прям хороша. Кто-то уже успел затестить? Делитесь в комментах чо нагенерировать успели

видео отсюда
😁14
This media is not supported in your browser
VIEW IN TELEGRAM
🔥ИНВАЙТЫ ТУТ

Если вы вдруг каким то чудом (не обсуждаем каким) можете оказаться в США или Канаде, - и зайдете на сайт
https://openai.com/index/sora-2/
Вам может пригодиться этот инвайт
CF5R4G

пригодится он только первым 4-м.
не знаю уж кому повезёт.

Одно условие, - каждый, кто зарегается публикует свой следующий инвайт в комментариях под этим постом.

они все активируются по 4 раза.
поэтому если забрали - ставьте эмоджи или звёздочку на инвайте :)

Генерации идут очень медленно :) Сервера там, похоже, еле вывозят.

Ну и делитесь креативами, чего уж :)

#Sora #invite
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥1754
This media is not supported in your browser
VIEW IN TELEGRAM
Такое, конечно, Sora пока не сумеет.

Трилобит:
a=(x,y,o=2-mag(k=x/8-12.5,e=y/8-12)/3,d=-5*abs(sin(k/2)*cos(e*.6)))=>point((x+e*cos(t)+d*k*sin(d+t))*.7+k*o+130,(y-d*o*9+y*e/19+d*e*cos(d+t))*.7+e*o+150)
t=0,draw=$=>{t||createCanvas(w=400,w);background(6,96).stroke(w,46);for(t+=PI/90,i=4e4;i--;)a(i%200,i/200)}

Файл html в комментарии

#трилобит #dev #шейдеры
------
@tsingular
🔥17👀9🍓3
😂😂😂

#юмор
------
@tsingular
🤣28🔥8💯32🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
LLM Intercept

Вайбкодер нашаманил проксю для ЛЛМ, которая пишет все вызовы и превращает их в датасеты для файнтюна малых моделей :)

Очень удобно, но для большинства проприетарных моделей не разрешено лицензией.

Качаем, пробуем, пока не прикрыли :)

https://github.com/mlech26l/llm_intercept

#LLMproxy #proxy #dev #llmintercept
———
@tsingular
🔥5
n8n готовит релиз, в котором ИИ ассистент будет встроен и сам будет создавать для вас сценарии.

noCode => vibeNoCode

#n8n #dev
———
@tsingular
🔥1221
Антропик опять испортил нам планы на выходные.

Выкатили гайд по контекст инжинирингу

Это вам не просто написать "представь, что ты вайбкодер с 30ти летним стажем".
Тут архитектура! Технолоджия!

В общем откладываем развлечения, открываем тетрадки, записываем ...

Сам гайд не очень большой, но в нем еще коллекция полезных ссылок с детализациями и разъяснениями, так что есть что поизучать.

#Anthropic #обучение
———
@tsingular
👍13631
Media is too big
VIEW IN TELEGRAM
OmniRetarget - платформа для комплексного обучения роботов.

Очень много примеров и сценариев, которые они обкатывают на примере UniTree

Основное:
- Превращает записи движений человека в движения для робота-гуманоида
- Сохраняет взаимодействия с предметами и поверхностями (если человек берет коробку, робот тоже правильно её возьмёт)
- Не создаёт физических ошибок (ноги не скользят, части тела не проходят сквозь предметы)

Из одной записи создаёт много вариантов:
- Предмет в другом месте или повёрнут
- Предмет другого размера
- Платформы разной высоты
- Подходит для роботов разных моделей

paper

не, ну хорошо, в принципе, что они пока на привязи...

#роботы #OmniRetarget #UniTree
———
@tsingular
🔥82👍2👾1
Forwarded from Dealer.AI
MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC.

Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.

🎯 Постановка задачи

Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.

💡 Идея подхода

В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:

Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.

Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.

🧪 Дизайн метрик

Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.

Основные метрики, использованные в исследовании:

pass@1процент задач, успешно решенных моделью с первой попытки.
pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает по крайней мере в одном из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.

🔢 Результаты оценки моделей

Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:

•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.

•claude-sonnet-4 (Anthropic) <30%, <15% соответственно

•o3 (OpenAI) < 30%, < 15% соответственно.

В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.

🤔 Почему это важно

Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.

Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
211🔥1
Media is too big
VIEW IN TELEGRAM
OpenCode.ai - бесплатный открытый аналог СlaudeСode

- Нативный TUI. Гибкий, типовой интерфейс терминала с возможностью настройки тем.

- LSP включен. Автоматическая загрузка правильных LSP для LLM.

- Многосеансовый запуск нескольких агентов параллельно в одном проекте.

- Обмен ссылками. Поделитесь ссылкой на любой сеанс для получения справки или отладки.

- Claude Pro. Можно авторизоваться в Anthropic, чтобы использовать свою учетную запись Claude Pro или Max.

- Любые поставщики LLM моделей: 75+ через Models.dev, включая локальные модели.

- Совместим с любым IDE, так как работает в командной строке

#OpenCode #dev
———
@tsingular
🔥42👍211
This media is not supported in your browser
VIEW IN TELEGRAM
Comet Browser от Perplexity.ai теперь бесплатный для всех.

- понимает контекст страниц
- может ответить на почту
- может управлять страницами как оператор
- может даже создавать сайты
- организует вкладки по запросу
- может покупать на сайтах что скажете

Есть коллекция промптов, если закончились идеи как использовать браузер.
Или даже видеопримеры.

Качать тут:
https://www.perplexity.ai/comet

#Comet #Perplexity
———
@tsingular
👍10🔥74
Microsoft: ИИ создает биологические угрозы нулевого дня

Microsoft заявляет, что современные ИИ-системы могут генерировать новые биологические угрозы, неизвестные науке ранее.

Исследователи тестировали способность больших языковых моделей предлагать опасные биологические модификации, которые нельзя обнаружить существующими методами защиты.

Проблема в том, что такие "zero-day" атаки в биологии могут обойти все текущие системы безопасности — от скрининга ДНК до контроля доступа к лабораторному оборудованию.

Это создает новый класс рисков на пересечении ИИ и биотехнологий, где традиционные подходы к кибербезопасности не работают.

Получается, теперь не только хакеры могут создавать zero-day эксплойты, но и биологи с доступом к ИИ. Весело живем.

#Microsoft #Biology #ZeroDay
------
@tsingular
6👀532
This media is not supported in your browser
VIEW IN TELEGRAM
Многоножки

a=(y,d=mag(k=(4+sin(y*7-t)*3)*cos(i/78),e=y/8-13))=>point((q=2*sin(k*2)+.3/k+y/8*k*(2+sin(y-d*3+t*2)))+40*cos(c=d-t+(i&2)*2)+200,q*sin(c)+d*46-300)
t=0,draw=$=>{t||createCanvas(w=400,w);background(9).stroke(w,96);for(t+=PI/120,i=2e4;i--;)a(i/470)}


Код HTML в комментарии

#dev #многоножки #шейдеры
———
@tsingular
👍9🔥51