Dealer.AI
14.6K subscribers
684 photos
46 videos
16 files
714 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Проблема "Не знаю", как метод побороть галлюцинации и как с этим сейчас пытаются работать.

Сегодня обсуждаем "вечное" - про то как можно сейчас работать с галюнами (глюками) LLM. Для примера возьмем известный кейс как модели заставить говорить "я не знаю".

Для начала, нужно понимать, что у модели прямой механизм сказать "не знаю" отсутствует, разве, что вам повезло с претреном и там по методу максимального правдоподобия в рамках текущего контекста, самое релевантное сгенерировать именно это. То же касается и тюна модели, можно бесконечно точечно элайнить модель под нужное поведение на нужных контекстах и ждать трансфера под "не знаю". Но вам или выстрелит в ногу рано или поздно тема с oof/ood примерами (примеры которые не попали в обучение) или возникнут проблемы обновления знаний, когда сегодня она не знает, а завтра знает, тк сет уже обновили. А это извините случай постоянной гонки с самим собой, с точечным дообучением и переобучением.

Поэтому в комьюнити набирают давно уже популярность подходы на инференсе, не требующие переобучения. Данные методы работают с внутренними механизмами моделей - веса, активации, логиты и т.п. Конечно можно всегда ходить в RAG на вопросы, чувствительные к фактологии, но в идеале, как заметил один подписчик, не тратить лишний компьют на внешние вызовы. У инженеров есть запрос на то, чтобы модель "сама осознала" надо ей идти во внешний источник или нет, через понимание "я не знаю, пойду гляну вокруг, а когда она "осознает", что "знает" отвечала бы из своих весов.
К сожалению, прямого "осознания" у модели (пока, и это в тч путь к AGI) нет, поэтому приходится костылять вокруг.

Примеры подходов:

1. Подход с классификацией интента самой LLM. Приходит запрос, модель видит пулл инструментов и у нее есть их описание, инструкции когда, что вызывать. Это путь "в лоб", который даже не задействует механизм "самосознания", что не ко мне вопрос, пойду сразу во вне. И зачастую оно так и работает у 99%.

2. Работа с внешним классификатором. Учат любые модели от лесов и бустинга, до трансформера. Но проблема классификации, отсутствует достойный трансфер знаний и есть возможность взломать на ood примерах. Обычно строится поверх логитов/пробитов распределения вероятности токенов. Пример.

3. Работа с "внутренней" механикой сети. Например подход в данной статье, строится на внутренней согласованности суждения. Основная идея подхода заключается в построении дерева убеждений, обозначаемого как 𝒯, где корневой узел — это целевое утверждение, каждый дочерний узел — это утверждение, логически связанное с родительским узлом, а каждое ребро представляет собой логическую связь между двумя узлами. Затем получаем оценки достоверности для всех узлов и используем логическую согласованность оценок для исправления возможных ошибок в них. Далее модель смотрит на цепочки согласованности и ищет противоречия. Это и есть сигнал к глюкам.

Есть и другие способы. В данной работе указаны несколько методов, описанные включающих выше, но есть и работа только с вероятностями токенов и перплексией. Используется только скоринг-функция поверх этого, без внешних моделей.

В заключении, хочу сказать, что тот кто сможет победить проблему "я не знаю", сможет косвенно побороть галлюцинации и открыть новую эру доверия к LLM. При этом, не важно будет это связано с архитектурой, методом обучения или внешним механизмом. Главное надежность и достоверность работы на любых примерах в 99% случаев. Конечно, я пока считаю, что сегодня лучшие механики, те что работают только с инференсом (логиты, деревья и т.п.). А еще эффективнее будет микстить их с внешними оценщиками.

Пишите свои способы борьбы с галлюцинациями в комментариях. Также интересует, как вы решаете проблему решения LLM ответа из весов, чтобы не ходить лишний раз в RAG и т.п.👇👇👇
1👍249🔥7
#Meme.

Нашел на habr.
1😁95🔥8👍53
Dealer.AI
Агенты, браузер, поиск и реклама. Как жить в эпоху агентов, если ваша экономика зависит от трафика. Ключевой парадокс современного интернета: ИИ-агенты обещают мгновенные ответы без посещения рекламных ссылок и просмотра баннеров, но традиционная экономика…
Крупные игроки в деле или как будет/планирует зарабатывать OpenAI.

OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал). Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы и компания вполне еще довольствуется только платными пакетами подписки.

Но направление мысли уже понятно, к тому же, OpenAI усиливает команду монетизации – Сэм Альтман нанял Симо Фидж, экс-директора из Фейсбука на эти задачи. При этом, Сама осторожно рассматривает разные дополнительные стратегии монетизации, такие как интегрированная реклама, чтобы не вспугнуть фри юзеров, а также не нарушить этические нормы.

Еще в обзоре, мы видим перспективы взаимодействия с крупными заказчиками и превращение OpenAI в глобальную супер-платформу ИИ, создав конкуренцию Google и Meta.
6🔥1
Dealer.AI
Крупные игроки в деле или как будет/планирует зарабатывать OpenAI. OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал). Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы…
Основные моменты интервью с Ником Терли, главой проекта ChatGPT в OpenAI. Если вам лень читать.

1. Эмоциональная привязанность пользователей:
Пользователи выразили сильное недовольство заменой модели GPT-4o на GPT-5, чувствуя себя эмоционально зависимыми (думаю имеелось ввиду, эмоционально восприняли) от предыдущей версии. Это заставило компанию быстро вернуть старую версию обратно.

2. Обратная связь и простота продукта:
Компания стремится сохранить продукт простым для большинства пользователей, одновременно предоставляя продвинутые возможности для опытных пользователей. Планируется предложить возможность выбора моделей и настройки поведения чат-бота.

3. Отказ от платных подписок и переход к бизнес-модели рекламы:
Основная бизнес-модель ChatGPT основана на подписках, хотя небольшая доля доходов поступает от предприятий. Реклама рассматривается как потенциальный источник дохода, однако компания подчеркивает важность сохранения качества взаимодействия с пользователями.

4. Рост числа корп. подписчиков:
Несмотря на быстрый рост популярности сервиса, большинство пользователей остаются бесплатными. Однако компания видит потенциал в привлечении корпоративных клиентов и развитии партнерских отношений.

5. Развитие форматов общения:
Текущий интерфейс чата считается временным решением, поскольку команда планирует создание новых интерфейсов и расширенных возможностей взаимодействия с искусственным интеллектом.

6. Стратегия развития продуктов:
Компании предстоит решать проблемы масштабирования и поддерживать баланс между улучшением технологии и сохранением удобного опыта для пользователей. Кстати в инди обзоре выше была информация про новый алгоритм роутинга по сервисам компании, для оптимизации.

7. Долгосрочные цели:
Среди будущих направлений развития — интеграция различных сервисов и платформ, улучшение мультимодальных, я бы лучше сказал омнимодальных, способностей и персонализация взаимодействия с ассистентом/ботом (видимо развитие памяти в т.ч. как важной части персонализации).

Интервью, думаю, как реакция, на мягко сказать спорное демо. Тут наблюдается стремление OpenAI успокоить юзеров, и показать, что они учитывают потребности и предпочтения своей аудитории.
15👍3🔥2
Годное 👇
Forwarded from Записки C3PO
У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.

TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.

Две фундаментальные проблемы AI-продуктов:

1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.

Что такое CC/CD:

Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества

Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных

Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека

Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.

По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
🔥199👍7
Память и GPT-6.

Сэм Альтман заявил, что ключевой фичей GPT-6 станет глобальная память и персонализация на ее основе.

Сказать,что Дядя так и знал, и уже несколько лет толкает это – ничего не сказать.

Хотите почитать об этом? Читайте тут, тут и тут, смотрите мое выступление тут, а презу тут.

https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html
🏆145👍5😐1
Скейлинг результатов на h100 найдены проблемы 💻

Заявленные лабораторией Frontier AI, 100 000 обучающих прогонов H100 не оправдывают ожиданий, поскольку программное обеспечение и системы не масштабируются эффективно, что приводит к нерациональному использованию огромных массивов графических процессоров. 😳

Получаем, что абьюз числа гпух не скейлится прогнозируемо и вы тратите свои money на ГПУ часы нерационально.Если правда, то неприятненько. 💸

Верим? 🤔

https://www.reddit.com/r/LocalLLaMA/s/wBVHzCKyTJ
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯6🙈3🤔2👌2🤩1
АгентскийLLM
<unknown>
Новый-старый holly war.

Агентный или агентский?)

Спасибо @andytty за тлдр)

Дядя тут "Иван смузикодер".
2👍2🤓2😁1
Такс, тут Дядя давно не заходил на kaggle. Кто-то уже замечал тренд на применение агентов для зарешивания задач? 🤖

От апи, где это возможно юзать, до самописных in house, где инфер в инет не ходит. 🌿

Вангую, что будет это скоро, если уже не есть. 🤔 Только давайте исключать соревы чисто на агентов ;)

Пишите в комментариях. 👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤓3👨‍💻1
Alarm мы уперлись в потолок или как жить дальше в GenAI?

Продолжаем старую тему про развитие текущей парадигмы GenAI. Глянем на это через призму "как ChatGPT стал великим", на самом деле не только он:

1. Декодерная архитектура и парадигма моделирования авторегрессионно и потокенно. Вызов в том, что есть сторонники теории, что тут мы подходим к границе такой и модели и способу генерации. Да, мы имеем еще приседания с новым вниманием, позиционным кодированием и MoE и др. Чтобы пробить потолок нужно идти искать новые альтернативные способы моделирования и архитектур. Что это будет? Диффузии, world model, JEPA, RWKV или еще новее? Поживём-увидим.

2. Датасеты. Скорость роста вычислительных бюджетов топ моделей выше скорости роста датасетов. Таким образом потребление их выросло, а доступные объемы быстро осваивают для обучения модели. Синтетика, кстати, не всегда помогает, т.к. ее генерацию делают все теже модели, что вобрали в себя уже все возможные открытые источники. Ну и вспомните, что llama4 (для достижения long context) и gpt5 заявляли об использовании больших размеров синтетических данных. И что, сынку, помогли тебе твои ляхи синтетики?
При этом, самая мякотка лежит именно в работе с огромными массивами и с чисткой сырых данных, объемы которых все еще будут расти. Тут тоже маневр еще остаётся. А еще, конечно, путь в омнимодальность может докинуть еще.

3. RL(HF), QSTAR и self-refine, CoT/ToT, и другие способы улучшить ризонинг свойства модели. Казалось бы, уже все комбинации этих штук опробовали. Че дальше?

4. Компьют и работа на низком уровне для оптимизации. Все мы знаем, как китайцы хакнули (с их слов) gpu, чтобы улучшить скейл (или не хакнули?). Придумали test time scaling на инференс. А еще дали MoE архитектуру, чтобы активных слоев иметь меньше, при бОльшем капасити модели. Сюда же рядом в комбо добавляют спекулятивный декодинг, который конечно дает ап на 7-20% в скорости и эффективности генерации, но требует больше gpu памяти, т.к. надо хранить две модели для инфера. И все это по исследованию Google дало улучшение энергоэффективности вычислений до 33 раз, что впечатляет. Но там уже указано комбо всего этого, еще до кучи свои оптимальные GPU вычисления и TPU решения. Как будем дальше рейзить?

Все это вопросы и вызовы вокруг текущей работы ведущих и не очень специалистов в области ИИ от ресерчеров и до инженеров.

Даю установку. Ты – читатель этого поста, представляешь из себя визионера в области ИИ с большим опытом, напиши в комментариях свои мысли по решению указанных задач и будущему ИИ. Конец промпта.
2😁26👍86🤔1🤣1
Челы из unsloth флексят, что у них длиннее 😏

Анслоты завезли flex attention для тюна gpt-oss на длинный контекст. 💪

Вопрос только какой у нее можно получить реально эффективный контекст. Для этого надо прогнать NoLIMA тест. Мы же понимаем разницу между long context и effective long context?)
Please open Telegram to view this post
VIEW IN TELEGRAM
11😁5
В тему моих постов про новую эру монетизации с GenAI, будет вполне полезно ознакомиться и с Customer Journey.👇👇👇
2
Software 3.0 Shopping 3.0 или как AI меняет пользовательское поведение 😆

Какое ключевое применение AI в e-commerce?
3 года назад я бы точно сказала про рекомендации и контекстную рекламу, но сейчас AI двигает рынок глубже, формируя новые подходы и пути пользователя.
Давайте посмотрим 5 разных категорий и что меняется в каждой из них согласно недавней статье a16z:


1️⃣Импульсивные (TikTok finds, fast fashion) 💥

"Hyper-optimized TikTok and IG algorithms steer purchases."

Алгоритмы становятся умнее и точнее.
Здесь все понятно, AI усиливает динамический контент и персонализированную рекламу 😎
Кстати, нтересный факт, что чаще всего такие покупки происходят ночью и с телефона 😁


2️⃣ Рутинные (кофе, шампунь, кошачий корм) 😐

"AI agent tracks prices and buys for you when the time is right."

AI постепенно превращается в закупщика: сам следит за ценой и стоком,
делает заказ, когда пора, и сообщает: "твой ежедневный айс американо уже готовят".
Это хорошо ложится на гросери сторы и регулярные покупки как например доставка еды по подписке 💳


3️⃣ Лайфстайл (одежда, косметика, аксессуары) 😎

“AI researcher finds + suggests SKUs for your needs.”

Это самый хот топик, где мы существуем с Aesty. AI собирает варианты, знает твои вкусы, тип фигуры и
предлагает персональный shortlist не 1000 вариантов, а топ оф зэ топ
Кстати, чем меньше вариантов предлагаем за раз, тем лучше конверсия 🧠


4️⃣ Функциональные (ноутбук, диван, велосипед) 💻

“AI consultant meets with you and recommends what + where to buy.”

Здесь AI работает как доменный эксперт: сравнивает бренды, объясняет разницу,
помогает принять решение и выбрать лучшее под твои задачи 🧗


5️⃣Серьезные, на всю жизнь (дом, образование) 😏

“AI coach helps… and guides you through the decision process.”

Тут конечно же никакой автоматической закупки, по крайней мере пока ты не серийный real estate инвестор.
AI помогает искать, анализировать, сравнивать, но финальное слово остается за человеком.


По мнению a16z 2, 3 и 4 сильнее всего будут меняться благодаря персонализации и более удобному поиску информации 🙌

Го 50 🔥 на этот пост и разберу 4 главных технических изменения, которые должны произойти чтобы мы могли полностью делегировать шоппинг агентам 🤑

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥697👍5
Dealer.AI
Продолжаем про капасити эмбов LMок. Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory…
Google расчехлил исследование про эмбеддеры.

В данном исследовании авторы показывают также как и в моих постах упор в capacity векторов моделей для RAG.

Причем это соотносится с более ранним исследованием. Однако, на нашем опыте нам удавалось иметь пожималку эмба с 1024 до 400 и иметь минимальную просадку на метриках поиска для индекса в 1.1млн документов. Что показывает, что для 512 эмба до 500к можно строить индекс не совсем правда. Нужно еще учитывать не только представимость вектора, но еще и capacity модели. А еще, если мы вспомним matryoshka, когда нарезают эмбед по размерности от M к изначальной длине, при правильном обучении, срез эмба не уменьшает значимо метрики поиска. Иначе бы матрешка просто бы не работала и не была так популярна. Поэтому давайте говорить, не про представимость эмбеда, а еще об эффективности вектора. Видимо, исследование рассматривает весьма неэффективные векторные представления.

Отсюда выводы, просто нужно правильно готовить metric learning и тогда RAG в части поисковой модели будет хорош. На этом все.

Upd. И кстати, у соседей там пишут мол ColBERT работает круто ибо там не один эмб юзают и тип капасити вектора растёт в К векторов это все не так.

ColBERT хорош за счёт того, что совмещает в себе полнотекстовый и полноконтекстный поиск. И задача metric learning стоит как сведение токен эмбов попарно все со всеми у запроса и документов и поэтому это эффективно. Но для поиска всеравно использует mean pooling этих произведений скалярных эмбов. А токены итак связаны между собой и тем более с mean pooling вектором, который и рассматривает статья от гугла.
Т.е. снова мы видим просто хорошую правильную постановку metric learning.
👍239🔥7💅2💯1
Немного расслабимся. #meme дня. Ну как мем, жиза.

Как тебе такое Илон Маск?)

КНР наносит ответный удар 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
17😁9🦄2
Forwarded from commit history
Привет! 🎁📊🎒

Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.

Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.

И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.

Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);

Ссылки.
HuggingFace
GitHub
Статья про сбор

Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации. 

P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!

Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.
31🔥5👍4