Generative Ai
3.61K subscribers
288 photos
118 videos
7 files
831 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
Forwarded from Data Secrets
О, Гарвард опубликовал отличную книгу по ML-системам

Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.

Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.

В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.

pdf-ка и онлайн версия доступны здесь, репозиторий тут
Кейс с LLM под капотом - поиск видео для монтажа рекламы

Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.

Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.

Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.

Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.

Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).

Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.

А что тут можно сделать еще лучше?

(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.

А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:

(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования

Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.

В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.

Ваш, @llm_under_hood 🤗


PS: Пост со списком всех кейсов
3
Forwarded from Neural Kovalskii
Media is too big
VIEW IN TELEGRAM
SGR Agent Core 0.4.0 + UI

Запись стрима!

YouTube
RuTube

Разработка агента для работы с корпоративным Confluence на базе SGR Agent Core 0.4.0 с использованием локальной модели Qwen3-30B на vLLM.

00:00:00 - Подготовка окружения
- Настройка OBS и серверов (Yandex Cloud + 2x4090(48гб))
- Развертывание vLLM с Qwen3-30B-A3B-Instruct

00:15:00 - Тестирование инфраструктуры
- Проверка работы Qwen через OpenWebUI (~86 tokens/sec)
- Настройка мониторинга GPU

00:27:00 - Настройка SGR Agent Core
- Клонирование репозитория на удаленный сервер
- Подключение через Cursor с SSH
- Конфигурация agents.yaml и config.yaml

00:38:00 - Первый запуск агента
- Тестирование базового SGR Tool Calling Agent
- Запрос цены биткоина - успешно ($96k)
- Разбор двухфазного reasoning

00:52:00 - Разработка Confluence toolkit
- Создание confluence_tools.py с Cursor AI
- Три инструмента: full_text_search, space_search, page_retrieval
- Фиксы с правами доступа

01:10:00 - Тестирование Agentic RAG
- Поиск информации о проекте Smart Platform
- Агент нашел страницы, извлек контент, создал отчет
- Всё без векторизации и чанкинга!

01:26:00 - Запуск фронтенда
- Установка Node.js, настройка портов
- Демонстрация веб-интерфейса

01:36:00 - Финальный тест
- Сравнительный анализ двух проектов
- Объяснение архитектуры решения

01:42:00 - Завершение
- Итог: рабочий агентный RAG за 1.5 часа
- "Когда-нибудь придумаю красивую концовку"

Стек: SGR Agent Core, vLLM, Qwen3-30B, Confluence REST API, Cursor AI, vLLM, guidance

Как результат Агент ищет в Confluence без традиционного RAG pipeline - никаких векторных БД, эмбеддингов и чанкинга!
1👍1🔥1
SurfSense — это open‑source альтернатива NotebookLM, Perplexity и Glean: AI‑агент для исследований, который подключается к вашим личным источникам (поисковые движки, Slack, Linear, Jira, ClickUp, Confluence, Notion, Gmail, YouTube, GitHub, Discord, Airtable, Google Calendar, Luma, Elasticsearch и другие).​

Для тех, кто проспал последний год, NotebookLM — это сервис Google, где вы загружаете свои документы, и AI (Gemini) помогает вам суммировать, отвечать на вопросы, создавать FAQ, учебные материалы и подкасты, опираясь только на ваши источники.​

Что делает SurfSense:
🟣 Поддерживает 100+ LLM (включая локальные Ollama) и 6000+ моделей эмбеддингов.​
🟣 Продвинутый RAG: иерархические индексы (2‑уровневый), гибридный поиск (семантический + полнотекстовый), ранжирование (Pinecone, Cohere, Flashrank).​
🟣 Подкаст‑агент: создаёт 3‑минутный подкаст менее чем за 20 секунд, поддерживает локальные TTS (Kokoro) и облачных провайдеров.​
🟣 Поддержка 50+ форматов файлов (PDF, DOCX, видео, аудио, email и т.д.).​
🟣 Self‑hostable: можно поднять через Docker Compose или вручную.​

Быстрый старт:
🟣 git clone https://github.com/MODSetter/SurfSense
🟣 Скопируйте .env.example в .env, добавьте API‑ключи (OpenAI, Tavily и т.д.).
🟣 docker compose up -d
🟣 Откройте http://localhost:3000

Где попробовать:
GitHub: https://github.com/MODSetter/SurfSense
Сайт: https://surfsense.com
Discord: https://discord.gg/ejRNvftDp9

Технический стек: FastAPI, PostgreSQL (pgvector), LangGraph, LangChain, Celery, Redis, Next.js 15, React 19, TypeScript, Docker.

@prog_tools
Media is too big
VIEW IN TELEGRAM
🔥2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images

Ничего себе! Метачка разродилась целым набором проектов.

Meta Segment Anything Model 3 - с кодом, весами, датасетами и кодом для файнтюна. Видео-сегментация и композ.

Segment Anything Playground - это демо для всех этих проектов, пока работает быстро и даже без регистрации.

И наконец: SAM 3D: Powerful 3D Reconstruction for Physical World Images

И вот это уже прям 3Д-генератор.

Там есть две модели. SAM 3D Objects для реконструкции объектов и сцен, и SAM 3D Body для оценки тела и формы человека.

На входе фото, на выходе 3Д. Чем не 3Д-генератор.

Причем 3Д-болваны получаются сразу со скелетом.

Они так и пишут про целевую аудиторию: 3Д моделинг, VR\AR, геймдев.

Я думаю, что не стоит ждать прям высокополигональных деталей, это больше про 3D reconstructions, но надо разбираться.

Тьма ссылок, посмотрите хотя бы видосы, это новый уровень.

https://ai.meta.com/blog/sam-3d/

https://ai.meta.com/blog/segment-anything-model-3/

Демо-плейграунд:
https://www.aidemos.meta.com/segment-anything
(там есть и обычное вырезание объектов по видео)

Кодищще:
https://github.com/facebookresearch/sam3

Статья: SAM 3: Segment Anything with Concepts
https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/

@cgevent
👍3
Forwarded from Data Secrets
⚡️ Иии… Anthropic выпустили Claude Opus 4.5

Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.

Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.

Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.

Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.

Что касается апдейтов в продукте:

В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.

– Из беты вышли Claude для Chrome и для Excel.

– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.

🔥 www.anthropic.com/news/claude-opus-4-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Neural Kovalskii
Лучшие практики и подходы для RAG
(буду наполнять)


Очередной раз спросили в чате канала что почитать про RAG (https://xn--r1a.website/neuraldeepchat)

Соберем тут все лучшее присылайте и ваши статьи и разборы

Тут материалы предыдущих ответов

1) https://xn--r1a.website/neuraldeepchat/3176
2) https://xn--r1a.website/neuraldeepchat/2953


1) Чанкование (sliding window) можно подглядеть концепты от langchain

2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)

3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B

4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B


5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0

Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)

Презентация от Дяди
Построение RAG систем от исследований до индустрии


Хорошо описанные подходы от Богдана
https://xn--r1a.website/bogdanisssimo/2047

Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main


Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra

Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/

#RAG
#best_rag_practice

Сохраняй в избранное чтобы не потерять
🔥4👍1
Forwarded from БлоGнот
OpenAI выкатила GPT-5.2 Pro и GPT-5.2 Thinking — по заявлению компании, лучшие в мире модели для научной работы. На бенчмарке GPQA Diamond, где вопросы уровня аспирантуры специально составлены так, чтобы ответ нельзя было найти через поиск, Pro-версия показывает 93.2%. На FrontierMath — 40.3% решённых задач экспертного уровня, новый рекорд.

Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.

Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.

https://openai.com/index/gpt-5-2-for-science-and-math/
1
Forwarded from эйай ньюз
Вышла Gemini 3 Flash

Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.

Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.

Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).

Блогпост

@ai_newz
🤔1
Media is too big
VIEW IN TELEGRAM
Документальный фильм «The Thinking Game»

Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).

😶‍🌫️☺️ Ниже приведены 10 аргументов, почему данная картина представляет ценность для всех, кто погружен в сферу AI:

Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.

Видеоигры как полигон для обучения.
Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.

Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.

Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.

Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.

Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.

Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.

Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.

Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.

Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.

Поглядеть можно тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher

Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.

Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).

LLM под капотом проекта:

- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.

При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.

Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:

- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.

Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.

Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.

Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:

(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в experiments/007-experiment.md
(2) Анализируем код, проглядываем журнал экспериментов и в файл experiments/007-experiment.md дописываем план для улучшения текущего score
(3) реализуем код и запускаем make eval. Если score стал лучше, то отправляем все в коммит с описанием
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.

Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:


PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"

for ((start_index=0; start_index<=50; start_index+=1)); do
codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done


Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.

Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.

Ваш, @llm_under_hood 🤗

PS: Список всех кейсов канала