Generative Ai – Telegram

Generative Ai

@deeplearning_ru

3.59K subscribers

295 photos

121 videos

8 files

847 links

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film

Download Telegram

About

Blog

Apps

Platform

3.59K subscribers

Forwarded from Neural Kovalskii

Media is too big

VIEW IN TELEGRAM

SGR Agent Core 0.4.0 + UI

Запись стрима!

YouTube
RuTube

Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.

00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct

00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU

00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml

00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning

00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа

01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!

01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса

01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения

01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"

Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance

Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!

❤1👍1🔥1

989 views13:16

Forwarded from Инструменты программиста

SurfSense — это open‑source альтернатива NotebookLM, Perplexity и Glean: AI‑агент для исследований, который подключается к вашим личным источникам (поисковые движки, Slack, Linear, Jira, ClickUp, Confluence, Notion, Gmail, YouTube, GitHub, Discord, Airtable, Google Calendar, Luma, Elasticsearch и другие).

Для тех, кто проспал последний год, NotebookLM — это сервис Google, где вы загружаете свои документы, и AI (Gemini) помогает вам суммировать, отвечать на вопросы, создавать FAQ, учебные материалы и подкасты, опираясь только на ваши источники.

Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.

Быстрый старт:
🟣 git clone https://github.com/MODSetter/SurfSense
🟣 Скопируйте .env.example в .env, добавьте API‑ключи (OpenAI, Tavily и т.д.).
🟣 docker compose up -d
🟣 Откройте http://localhost:3000

Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9

Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.

@prog_tools

Media is too big

VIEW IN TELEGRAM

🔥2

890 views10:39

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images

Ничего себе! Метачка разродилась целым набором проектов.

Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.

Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.

И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images

И вот это уже прям 3Д-генератор.

Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.

На входе фото, на выходе 3Д. Чем не 3Д-генератор.

Причем 3Д-болваны получаются сразу со скелетом.

Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.

Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.

Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.

https://ai.meta.com/blog/sam-3d/

https://ai.meta.com/blog/segment-anything-model-3/

Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)

Кодищще:
https://github.com/facebookresearch/sam3

Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/

@cgevent

👍3

898 views20:27

Forwarded from Data Secrets

⚡️

Иии… Anthropic выпустили Claude Opus 4.5

Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.

Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.

Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.

Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.

Что касается апдейтов в продукте:

– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.

– Из беты вышли Claude для Chrome и для Excel.

– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.

🔥 www.anthropic.com/news/claude-opus-4-5

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.15K views23:00

Forwarded from Neural Kovalskii

Лучшие практики и подходы для RAG
(буду наполнять)

Очередной раз спросили в чате канала что почитать про RAG (https://xn--r1a.website/neuraldeepchat)

Соберем тут все лучшее присылайте и ваши статьи и разборы

Тут материалы предыдущих ответов

1) https://xn--r1a.website/neuraldeepchat/3176
2) https://xn--r1a.website/neuraldeepchat/2953

1) Чанкование (sliding window) можно подглядеть концепты от langchain

2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)

3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B

4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B

5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0

Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)

Презентация от Дяди
Построение RAG систем от исследований до индустрии

Хорошо описанные подходы от Богдана
https://xn--r1a.website/bogdanisssimo/2047

Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main

Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra

Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/

#RAG
#best_rag_practice

Сохраняй в избранное чтобы не потерять

Чат Kovalskii Варианты?

Ask about ALL
Чат канала @neuraldeep
Kovalskii на все ответит!

Никакой политики
Мат, первое предупреждение, потом бан

Уважайте друг друга

Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76

🔥4👍1

1.32K views19:49

Forwarded from БлоGнот

OpenAI выкатила GPT-5.2 Pro и GPT-5.2 Thinking — по заявлению компании, лучшие в мире модели для научной работы. На бенчмарке GPQA Diamond, где вопросы уровня аспирантуры специально составлены так, чтобы ответ нельзя было найти через поиск, Pro-версия показывает 93.2%. На FrontierMath — 40.3% решённых задач экспертного уровня, новый рекорд.

Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.

Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.

https://openai.com/index/gpt-5-2-for-science-and-math/

Advancing science and math with GPT-5.2

GPT-5.2 is OpenAI’s strongest model yet for math and science, setting new state-of-the-art results on benchmarks like GPQA Diamond and FrontierMath. This post shows how those gains translate into real research progress, including solving an open theoretical…

❤1

1.22K views20:20

Forwarded from эйай ньюз

Вышла Gemini 3 Flash

Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.

Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.

Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).

Блогпост

@ai_newz

🤔1

1.04K views12:20

Forwarded from Нейросети и Блендер

Media is too big

VIEW IN TELEGRAM

Документальный фильм «The Thinking Game»

Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).

😶‍🌫️

☺️ Ниже приведены 10 аргументов, почему данная картина представляет ценность для всех, кто погружен в сферу AI:

Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.

Видеоигры как полигон для обучения. Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.

Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.

Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.

Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.

Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.

Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.

Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.

Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.

Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.

Поглядеть можно тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

885 views08:08

Forwarded from LLM под капотом

Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher

Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.

Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).

LLM под капотом проекта:

- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.

При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.

Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:

- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.

Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.

Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.

Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:

(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в experiments/007-experiment.md
(2) Анализируем код, проглядываем журнал экспериментов и в файл experiments/007-experiment.md дописываем план для улучшения текущего score
(3) реализуем код и запускаем make eval. Если score стал лучше, то отправляем все в коммит с описанием
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.

Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:


PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"

for ((start_index=0; start_index<=50; start_index+=1)); do
  codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done

Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.

Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.

Ваш, @llm_under_hood 🤗

PS: Список всех кейсов канала

🔥3👍1

835 views17:38

Forwarded from Радиорубка Лихачёва

This media is not supported in your browser

VIEW IN TELEGRAM

Claude Cowork: агент для повседневных задач на компе

Компания тестирует агента на базе Claude с доступом к файлам и системным командам для нетехнических задач. Но пока только за сотку в месяц.

Anthropic анонсировала Claude Cowork — по сути это Claude Code, но для всех остальных задач, где не нужно программировать. Агент получает доступ к файлам на компьютере и может выполнять системные команды: разобрать завалы в документах, запланировать встречи в календаре, подготовить презентацию или прототип, обработать табличные данные.

Тул выходит в формате research preview: это намекает на то, что даже в Anthropic пока не до конца понимают, какие сценарии использования откроются. Запускают, смотрят, собирают фидбек: сначала выкатывают MVP, потом адаптируются под реальное поведение пользователей.

Claude Code за последние месяцы доказал свою полезность как инструмент для больших проектов: он берёт детальный план, разбивает на подзадачи и методично их выполняет, не отвлекаясь. Я сам на выходных распробовал его не только для программирования, но и для работы с большими массивами текстовых данных — штука реально экономит время там, где нужна последовательность и внимание к деталям.

Логично, что много нетехнических задач можно было бы делегировать похожему агенту. Вопрос всегда был в безопасности: Claude Code по умолчанию спрашивает разрешение перед любыми изменениями файлов или системных настроек. Судя по релизу Cowork, Anthropic нащупала баланс между автономностью агента и контролем пользователя.

Но есть нюансы. Во-первых, Claude Cowork доступен только подписчикам Max — это стоит $100 в месяц и выше. Во-вторых, агентные сценарии жрут токены как не в себя: на обычной подписке Pro я упираюсь в недельные лимиты почти моментально после того, как даю Claude Code серьёзную задачу. С Cowork, скорее всего, будет так же.

Тем не менее это ещё один маркер того, что 2026-й действительно становится годом агентов. Anthropic, OpenAI, Google, OpenCode — все двигаются в сторону того, чтобы дать AI не просто возможность отвечать на вопросы, но и выполнять многошаговые задачи с доступом к инструментам.

Вопрос только в том, насколько быстро эти инструменты станут доступны не только корпоративным клиентам и энтузиастам с жирными подписками, но и обычным пользователям. Пока что Anthropic тестирует спрос среди тех, кто готов платить.

🤯2🔥1

774 views08:19

Forwarded from Вайб-кодинг

Нашёл клад, а там этот skill: который лечит Cursor/Claude от типичного “AI-вайба” в интерфейсах.

Когда пишешь код с AI, то UI получается один и тот же: фиолетово-розовый градиент, шрифт Inter и белый фон, классический набор из трёх пунктов. 😯

Этот oпенсорс проект просто упаковал базу знаний профессиональных UI-дизайнеров:

57 UI-стилей (glassmorphism, clay, минимализм, брутализм и т.д.)
95 наборов отраслевых цветовых схем
56 комбинаций шрифтов
100 дизайн-правил для разных индустрий

Поддерживает Cursor, Claude Code, Windsurf, Copilot, Kiro и почти все популярные AI-инструменты для программирования.

Установка одной командой:

# Install CLI globally
npm install -g uipro-cli

# Go to your project
cd /path/to/your/project

# Install for your AI assistant
uipro init --ai claude      # Claude Code
uipro init --ai cursor      # Cursor
uipro init --ai windsurf    # Windsurf
uipro init --ai antigravity # Antigravity (.agent + .shared)
uipro init --ai copilot     # GitHub Copilot
uipro init --ai kiro        # Kiro
uipro init --ai codex       # Codex CLI
uipro init --ai qoder       # Qoder
uipro init --ai roocode     # Roo Code
uipro init --ai gemini      # Gemini CLI
uipro init --ai trae        # Trae
uipro init --ai all         # All assistants

Дальше просто пишешь /ui-ux-pro-max помоги сделать SaaS-лендинг и готово.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4🤯3

499 views08:55

Forwarded from DevOps

🤖

Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.

@DevOPSitsec

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🥰1

510 views12:44

Forwarded from О чем молчит AI CTO

image_2026-01-19_09-03-37.png

Агент == Бизнес-функция. Инженерный подход к проектированию

Рассмотрим проектирование агента поиска товаров в маркетплейсе по бенчмарку Store с ERC3. Попробуем подойти к проектированию агента с точки зрения структурного анализа.

Сначала посмотрим на схему #1 — из каких компонентов состоит Агент. Не буду их описывать, думаю вы и так понимаете, что они означают… НО что-то это напоминает… хм…

Да это вылитая схема IDEF0 (см. схему #2 для понимания) по описанию бизнес-функций! Слева вход — запрос пользователя или другого агента, сверху инструкции, правила поведения и навыки, снизу инструментарий для выполнения бизнес-функции, ну а справа выход.

Если смотрели выступление Ильи у Валеры, то вспомните: он применил схему оркестратора с саб-агентами для решения бенчмарка store, и один из таких агентов был агент по поиску товаров, использующий ручку API /products/list (см. схему #3).

Давайте теперь опишем данного саб-агента с помощью методологии IDEF0:

1. Определим бизнес-функцию нашего агента как «Подобрать товар» — анализ каталога товаров и выявление позиции, соответствующей запросу.

Мы выбираем «Подобрать», а не просто «Найти» или «Сканировать», потому что агент выполняет сложную когнитивную работу: он не просто делает запрос в базу (как поисковик), а итеративно сканирует каталог, фильтрует результаты в памяти и валидирует их на соответствие нечетким критериям пользователя.

2. На вход нашему агенту мы предоставляем «поисковый запрос с критериями фильтрации» — текстовая строка на естественном языке, содержащая как намерение («найди»), так и ограничения («дешевле 500», «красный»).

Пример: «Нужна игровая видеокарта не дороже 60000 рублей, желательно Asus».

На этом этапе можно размышлять над краевыми случаями и собрать Evaluation Dataset.

3. Для функции «Подобрать товар» механизм представляет собой tool, назовем ее get_product_list. В нашем случае это будет простая обертка вокруг API /products/list.

Мы осознанно не упоминаем в механизмах LLM, так как это больше НФТ (нефункциональное требование), нежели бизнес-требование.

4. В классическом менеджменте сверху находятся должностные инструкции, регламенты, ГОСТы и законы, но в нашем случае это будет Ролевая модель, Процедура поиска и Политики безопасности.

Важно: мы не отбираем у исследователей работу с промптом, но указываем в требованиях общие рекомендации.

5. Ну и Вывод — это продукт или информация, полученная в результате работы функции. Это то, ради чего функция существует. В классическом чат-боте выводом считается текстовое сообщение пользователю. В инженерии автономных агентов выводом является структурированный ответ, передающий ответственность оркестратору.

Рекомендую сразу размышлять над негативными сценариями: как мы будем обрабатывать ошибки.

Зачем это нужно?

Такая детализация позволяет еще до написания первой строки кода и промпта наглядно увидеть «дыры» в логике. Если вы не можете описать агента в этой схеме — значит, вы пока не знаете, что именно строите.

Хотите пример требований и кода по методологии? Поставьте реакцию, чтобы я знал, что вам это интересно 👇

👍5

628 views17:57

Forwarded from Machinelearning

🌟

GLM-4.7 Flash: лайт-версия флагмана GLM-4.7.

В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.

ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.

Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.

🟡

MoE
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.

🟡

Interleaved Thinking
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.

🟡

Файнтюн на эстетику и DevOps
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.

Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).

🟡

Цифры тестов выглядят как конфетка.

В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.

В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.

Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.

📌Лицензирование: MIT License.

🟡

🟡

Квантованные варианты под все

🟡

🟡

Demo2

@ai_machinelearning_big_data

#AI #ML #LLM #GLM #ZAI

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2🥰2

613 views16:23

Forwarded from Вайб-кодинг

This media is not supported in your browser

VIEW IN TELEGRAM

Исследователи собрали новый подход к RAG, который:

* не требует vector DB
* не делает эмбеддинги
* не режет документы на чанки
* не выполняет similarity search

И он показал 98,7% точности на финансовом бенчмарке (SOTA).

Вот какую ключевую проблему классического RAG этот подход решает:

Обычный RAG режет документы на чанки, превращает их в векторы и достает фрагменты по семантической похожести.

Но похожесть ≠ релевантность.

Когда ты спрашиваешь: "Какие были тренды по долгу в 2023?", векторный поиск вернет куски, которые семантически похожи на запрос.

А реальный ответ может быть спрятан где-нибудь в Appendix, упомянут ссылкой на другой странице, в разделе, который вообще не пересекается по смысловым словам с твоим вопросом.

Классический RAG, скорее всего, это просто не найдет.

PageIndex это закрывает.

Вместо чанкинга и эмбеддингов PageIndex строит иерархическое дерево структуры документа, по сути умную "таблицу содержания".

А дальше модель рассуждением проходит по этому дереву.

То есть она не спрашивает: "Какой текст больше всего похож на мой запрос?"

Она спрашивает: "Судя по структуре документа, где бы человек-эксперт искал ответ?"

Это принципиально другой подход, у которого:

* нет произвольного чанкинга, который рвет контекст
* не нужно тащить и обслуживать vector DB
* retrieval трассируемый: видно, почему выбрали конкретный раздел
* можно нормально ходить по внутренним ссылкам документа ("см. Table 5.3"), как делает человек

Но глубже проблема вот в чем.

Векторный поиск воспринимает каждый запрос как независимый.

А документы имеют структуру и логику: разделы ссылаются друг на друга, контекст накапливается по страницам.

PageIndex уважает эту структуру, вместо того чтобы сплющивать все в эмбеддинги.

При этом важно: такой подход не везде имеет смысл, потому что классический vector search все еще быстрый, простой и отлично работает во многих кейсах.

Но для проф-документов, где нужна доменная экспертиза и многошаговые рассуждения, tree-based, reasoning-first подход реально раскрывается.

Например, PageIndex показал 98,7% точности на FinanceBench и заметно обогнал традиционные vector-based RAG системы в разборе сложных финансовых документов.

Все полностью в oпенсорс, можно посмотреть реализацию на GitHub и попробовать самому.

👍4🤯4❤2

589 views06:40

https://research.nvidia.com/labs/adlr/personaplex/

NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice

We introduce PersonaPlex, a full-duplex conversational AI model that enables natural conversations with customizable voices and roles. PersonaPlex handles interruptions and backchannels while maintaining any chosen persona, outperforming existing systems…

👍2🔥2

592 views06:46

Forwarded from Denis Sexy IT 🤖

Тут в деталях разобрали, что входит в 200$ подписку на Claude Code:
За 200$ вы покупаете $2708 аналога трат по API,
За 100$ – $1354
За 20$ – $163

При этом, все обращения в кеш диалога от клод кода стоят 0 денег – что делает эти подписки еще более секси; по API кэшированные запросы стоят 10% от стоимости на каждое чтение (кэширование запросов это когда у вас история чата с LLM не меняется и увеличивается от каждого хода, вот ее провайдеры API продают со скидкой – иначе дорого выходит)

В итоге, получается, что тарифный план за 100$ выгоднее API почти в 37 раз (!) – не понимаю как любой стартап может конкурировать с этим, строя своего кодинг агента ☕️

Тут все расчеты:
https://she-llac.com/claude-limits

Please open Telegram to view this post

VIEW IN TELEGRAM

suspiciously precise floats, or, how I got Claude's real limits

I reverse-engineered Claude's hidden subscription usage caps from two unrounded utilization floats, recovered exact denominators via Stern-Brocot, and compared what Pro/Max actually buy you versus API pricing (including caching).

609 views15:45

Forwarded from Вайб-кодинг

Опытные пользователи Claude Code, вам стоит это увидеть.

Есть публичный репозиторий, который по сути как полноценная ОС для Claude Code: агенты, skills, hooks, команды, правила, конфиги MCP, всё уже связали и можно просто подключать.

Можешь просто посмотреть (или забрать себе) целиком. Это мнение автора, которое уже обкатали на реальных проектах.

GitHub - affaan-m/everything-claude-code: Complete Claude Code configuration collection - agents, skills, hooks, commands, rules…

Complete Claude Code configuration collection - agents, skills, hooks, commands, rules, MCPs. Battle-tested configs from an Anthropic hackathon winner. - affaan-m/everything-claude-code

👍3🤯1

658 views07:00

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Google начали раскатывать доступ к Genie 3

Пока что модель доступна лишь подписчикам Ultra. Юзеры могут создать набросок мира с помощью Nano Banana Pro, перед тем как туда залететь. Также есть библиотека готовых миров, которые можно ремиксить. Длина симуляции до 60 секунд, а видео можно потом скачать.

http://labs.google/projectgenie/

@ai_newz

🔥3

578 views23:26