Dealer.AI

https://devcrowd.ru/ds25/community_3/

Опа, мама, Дядя в телевизоле... 😎

😎

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38❤5👍5🏆3

4.06K views10:47

Dealer.AI

Проблема "Не знаю", как метод побороть галлюцинации и как с этим сейчас пытаются работать.

Сегодня обсуждаем "вечное" - про то как можно сейчас работать с галюнами (глюками) LLM. Для примера возьмем известный кейс как модели заставить говорить "я не знаю".

Для начала, нужно понимать, что у модели прямой механизм сказать "не знаю" отсутствует, разве, что вам повезло с претреном и там по методу максимального правдоподобия в рамках текущего контекста, самое релевантное сгенерировать именно это. То же касается и тюна модели, можно бесконечно точечно элайнить модель под нужное поведение на нужных контекстах и ждать трансфера под "не знаю". Но вам или выстрелит в ногу рано или поздно тема с oof/ood примерами (примеры которые не попали в обучение) или возникнут проблемы обновления знаний, когда сегодня она не знает, а завтра знает, тк сет уже обновили. А это извините случай постоянной гонки с самим собой, с точечным дообучением и переобучением.

Поэтому в комьюнити набирают давно уже популярность подходы на инференсе, не требующие переобучения. Данные методы работают с внутренними механизмами моделей - веса, активации, логиты и т.п. Конечно можно всегда ходить в RAG на вопросы, чувствительные к фактологии, но в идеале, как заметил один подписчик, не тратить лишний компьют на внешние вызовы. У инженеров есть запрос на то, чтобы модель "сама осознала" надо ей идти во внешний источник или нет, через понимание "я не знаю, пойду гляну вокруг, а когда она "осознает", что "знает" отвечала бы из своих весов.
К сожалению, прямого "осознания" у модели (пока, и это в тч путь к AGI) нет, поэтому приходится костылять вокруг.

Примеры подходов:

1. Подход с классификацией интента самой LLM. Приходит запрос, модель видит пулл инструментов и у нее есть их описание, инструкции когда, что вызывать. Это путь "в лоб", который даже не задействует механизм "самосознания", что не ко мне вопрос, пойду сразу во вне. И зачастую оно так и работает у 99%.

2. Работа с внешним классификатором. Учат любые модели от лесов и бустинга, до трансформера. Но проблема классификации, отсутствует достойный трансфер знаний и есть возможность взломать на ood примерах. Обычно строится поверх логитов/пробитов распределения вероятности токенов. Пример.

3. Работа с "внутренней" механикой сети. Например подход в данной статье, строится на внутренней согласованности суждения. Основная идея подхода заключается в построении дерева убеждений, обозначаемого как 𝒯, где корневой узел — это целевое утверждение, каждый дочерний узел — это утверждение, логически связанное с родительским узлом, а каждое ребро представляет собой логическую связь между двумя узлами. Затем получаем оценки достоверности для всех узлов и используем логическую согласованность оценок для исправления возможных ошибок в них. Далее модель смотрит на цепочки согласованности и ищет противоречия. Это и есть сигнал к глюкам.

Есть и другие способы. В данной работе указаны несколько методов, описанные включающих выше, но есть и работа только с вероятностями токенов и перплексией. Используется только скоринг-функция поверх этого, без внешних моделей.

В заключении, хочу сказать, что тот кто сможет победить проблему "я не знаю", сможет косвенно побороть галлюцинации и открыть новую эру доверия к LLM. При этом, не важно будет это связано с архитектурой, методом обучения или внешним механизмом. Главное надежность и достоверность работы на любых примерах в 99% случаев. Конечно, я пока считаю, что сегодня лучшие механики, те что работают только с инференсом (логиты, деревья и т.п.). А еще эффективнее будет микстить их с внешними оценщиками.

Пишите свои способы борьбы с галлюцинациями в комментариях. Также интересует, как вы решаете проблему решения LLM ответа из весов, чтобы не ходить лишний раз в RAG и т.п.👇👇👇

1👍24❤9🔥7

6.96K viewsedited 16:54

Dealer.AI

#Meme.

Нашел на habr.

1😁95🔥8👍5❤3

5.27K views17:18

Dealer.AI

Агенты, браузер, поиск и реклама. Как жить в эпоху агентов, если ваша экономика зависит от трафика. Ключевой парадокс современного интернета: ИИ-агенты обещают мгновенные ответы без посещения рекламных ссылок и просмотра баннеров, но традиционная экономика…

Крупные игроки в деле или как будет/планирует зарабатывать OpenAI.

OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал). Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы и компания вполне еще довольствуется только платными пакетами подписки.

Но направление мысли уже понятно, к тому же, OpenAI усиливает команду монетизации – Сэм Альтман нанял Симо Фидж, экс-директора из Фейсбука на эти задачи. При этом, Сама осторожно рассматривает разные дополнительные стратегии монетизации, такие как интегрированная реклама, чтобы не вспугнуть фри юзеров, а также не нарушить этические нормы.

Еще в обзоре, мы видим перспективы взаимодействия с крупными заказчиками и превращение OpenAI в глобальную супер-платформу ИИ, создав конкуренцию Google и Meta.

The Verge

ChatGPT chief Nick Turley doesn’t want you too attached to AI

OpenAI’s head of ChatGPT on what surprised him most about AI attachment, and what’s next for chatbots.

❤6🔥1

4.1K viewsedited 12:50

Dealer.AI

Крупные игроки в деле или как будет/планирует зарабатывать OpenAI. OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал). Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы…

Основные моменты интервью с Ником Терли, главой проекта ChatGPT в OpenAI. Если вам лень читать.

1. Эмоциональная привязанность пользователей:
Пользователи выразили сильное недовольство заменой модели GPT-4o на GPT-5, чувствуя себя эмоционально зависимыми (думаю имеелось ввиду, эмоционально восприняли) от предыдущей версии. Это заставило компанию быстро вернуть старую версию обратно.

2. Обратная связь и простота продукта:
Компания стремится сохранить продукт простым для большинства пользователей, одновременно предоставляя продвинутые возможности для опытных пользователей. Планируется предложить возможность выбора моделей и настройки поведения чат-бота.

3. Отказ от платных подписок и переход к бизнес-модели рекламы:
Основная бизнес-модель ChatGPT основана на подписках, хотя небольшая доля доходов поступает от предприятий. Реклама рассматривается как потенциальный источник дохода, однако компания подчеркивает важность сохранения качества взаимодействия с пользователями.

4. Рост числа корп. подписчиков:
Несмотря на быстрый рост популярности сервиса, большинство пользователей остаются бесплатными. Однако компания видит потенциал в привлечении корпоративных клиентов и развитии партнерских отношений.

5. Развитие форматов общения:
Текущий интерфейс чата считается временным решением, поскольку команда планирует создание новых интерфейсов и расширенных возможностей взаимодействия с искусственным интеллектом.

6. Стратегия развития продуктов:
Компании предстоит решать проблемы масштабирования и поддерживать баланс между улучшением технологии и сохранением удобного опыта для пользователей. Кстати в инди обзоре выше была информация про новый алгоритм роутинга по сервисам компании, для оптимизации.

7. Долгосрочные цели:
Среди будущих направлений развития — интеграция различных сервисов и платформ, улучшение мультимодальных, я бы лучше сказал омнимодальных, способностей и персонализация взаимодействия с ассистентом/ботом (видимо развитие памяти в т.ч. как важной части персонализации).

Интервью, думаю, как реакция, на мягко сказать спорное демо. Тут наблюдается стремление OpenAI успокоить юзеров, и показать, что они учитывают потребности и предпочтения своей аудитории.

❤15👍3🔥2

4.44K viewsedited 12:58

Dealer.AI

Forwarded from BOGDANISSSIMO

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Сидим-пердим впятером за AI и бизнес-вопросики

https://xn--r1a.website/neuraldeep
https://xn--r1a.website/alexs_journal
https://xn--r1a.website/vitales_on
https://xn--r1a.website/dealerAI

5🔥16🤓2🙈2

3.71K views13:43

Dealer.AI

Годное 👇

3.73K views12:31

Dealer.AI

Forwarded from Записки C3PO

У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.

TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.

Две фундаментальные проблемы AI-продуктов:

1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.

Что такое CC/CD:

Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества

Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных

Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека

Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.

По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.

Lennysnewsletter

Why your AI product needs a different development lifecycle

Introducing the Continuous Calibration/Continuous Development (CC/CD) framework

🔥19❤9👍7

4.15K views12:31

Dealer.AI

Память и GPT-6.

Сэм Альтман заявил, что ключевой фичей GPT-6 станет глобальная память и персонализация на ее основе.

Сказать,что Дядя так и знал, и уже несколько лет толкает это – ничего не сказать.

Хотите почитать об этом? Читайте тут, тут и тут, смотрите мое выступление тут, а презу тут.

https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html

CNBC

Sam Altman on GPT-6: 'People want memory'

OpenAI CEO Sam Altman says the next version of ChatGPT will be more personal than its predecssors.

🏆14❤5👍5😐1

5.17K viewsedited 14:48

Dealer.AI

Скейлинг результатов на h100 найдены проблемы

💻

Заявленные лабораторией Frontier AI, 100 000 обучающих прогонов H100 не оправдывают ожиданий, поскольку программное обеспечение и системы не масштабируются эффективно, что приводит к нерациональному использованию огромных массивов графических процессоров. 😳

Получаем, что абьюз числа гпух не скейлится прогнозируемо и вы тратите свои money на ГПУ часы нерационально.Если правда, то неприятненько. 💸

Верим? 🤔

https://www.reddit.com/r/LocalLLaMA/s/wBVHzCKyTJ

Please open Telegram to view this post

VIEW IN TELEGRAM

From the LocalLLaMA community on Reddit: Frontier AI labs’ publicized 100k-H100 training runs under-deliver because software and…

Explore this post and more from the LocalLLaMA community

🤯6🙈3🤔2👌2🤩1

5.61K views07:05

Dealer.AI

АгентскийLLM

Новый-старый holly war.

Агентный или агентский?)

Спасибо @andytty за тлдр)

Дядя тут "Иван смузикодер".

❤2👍2🤓2😁1

5.1K viewsedited 15:59

Dealer.AI

<unknown> – АгентскийLLM

Агентный или агентский подход? 🤔

Final Results

Этого вообще в ру языке нет, как хочу, так и говорю.

😁4

560 voters5.76K views16:01

Dealer.AI

Такс, тут Дядя давно не заходил на kaggle. Кто-то уже замечал тренд на применение агентов для зарешивания задач? 🤖

От апи, где это возможно юзать, до самописных in house, где инфер в инет не ходит. 🌿

Вангую, что будет это скоро, если уже не есть. 🤔 Только давайте исключать соревы чисто на агентов ;)

Пишите в комментариях. 👇👇👇

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🤓3👨‍💻1

4.25K viewsedited 18:18

Dealer.AI

Alarm мы уперлись в потолок или как жить дальше в GenAI?

Продолжаем старую тему про развитие текущей парадигмы GenAI. Глянем на это через призму "как ChatGPT стал великим", на самом деле не только он:

1. Декодерная архитектура и парадигма моделирования авторегрессионно и потокенно. Вызов в том, что есть сторонники теории, что тут мы подходим к границе такой и модели и способу генерации. Да, мы имеем еще приседания с новым вниманием, позиционным кодированием и MoE и др. Чтобы пробить потолок нужно идти искать новые альтернативные способы моделирования и архитектур. Что это будет? Диффузии, world model, JEPA, RWKV или еще новее? Поживём-увидим.

2. Датасеты. Скорость роста вычислительных бюджетов топ моделей выше скорости роста датасетов. Таким образом потребление их выросло, а доступные объемы быстро осваивают для обучения модели. Синтетика, кстати, не всегда помогает, т.к. ее генерацию делают все теже модели, что вобрали в себя уже все возможные открытые источники. Ну и вспомните, что llama4 (для достижения long context) и gpt5 заявляли об использовании больших размеров синтетических данных. И что, сынку, помогли тебе твои ~~ляхи~~ синтетики?
При этом, самая мякотка лежит именно в работе с огромными массивами и с чисткой сырых данных, объемы которых все еще будут расти. Тут тоже маневр еще остаётся. А еще, конечно, путь в омнимодальность может докинуть еще.

3. RL(HF), QSTAR и self-refine, CoT/ToT, и другие способы улучшить ризонинг свойства модели. Казалось бы, уже все комбинации этих штук опробовали. Че дальше?

4. Компьют и работа на низком уровне для оптимизации. Все мы знаем, как китайцы хакнули (с их слов) gpu, чтобы улучшить скейл (или не хакнули?). Придумали test time scaling на инференс. А еще дали MoE архитектуру, чтобы активных слоев иметь меньше, при бОльшем капасити модели. Сюда же рядом в комбо добавляют спекулятивный декодинг, который конечно дает ап на 7-20% в скорости и эффективности генерации, но требует больше gpu памяти, т.к. надо хранить две модели для инфера. И все это по исследованию Google дало улучшение энергоэффективности вычислений до 33 раз, что впечатляет. Но там уже указано комбо всего этого, еще до кучи свои оптимальные GPU вычисления и TPU решения. Как будем дальше рейзить?

Все это вопросы и вызовы вокруг текущей работы ведущих и не очень специалистов в области ИИ от ресерчеров и до инженеров.

Даю установку. Ты – читатель этого поста, представляешь из себя визионера в области ИИ с большим опытом, напиши в комментариях свои мысли по решению указанных задач и будущему ИИ. Конец промпта.

2😁26👍8❤6🤔1🤣1

7.97K viewsedited 07:01

Dealer.AI

Челы из unsloth флексят, что у них длиннее

😏

Анслоты завезли flex attention для тюна gpt-oss на длинный контекст. 💪

Вопрос только какой у нее можно получить реально эффективный контекст. Для этого надо прогнать NoLIMA тест. Мы же понимаем разницу между long context и effective long context?)

Please open Telegram to view this post

VIEW IN TELEGRAM

unsloth.ai

Long Context gpt-oss Training | Unsloth Documentation

❤11😁5

3.51K viewsedited 18:20

Dealer.AI

Челы из unsloth флексят, что у них длиннее 😏 Анслоты завезли flex attention для тюна gpt-oss на длинный контекст. 💪 Вопрос только какой у нее можно получить реально эффективный контекст. Для этого надо прогнать NoLIMA тест. Мы же понимаем разницу между long…

А такое Дядя предполагал еще в посте про gpt-oss,что логичнее и быстрее было бы иметь , global+swa, а не fullcontext+swa схемы внимания.

❤9

3.62K viewsedited 18:26

Dealer.AI

В тему моих постов про новую эру монетизации с GenAI, будет вполне полезно ознакомиться и с Customer Journey.👇👇👇

❤2

6.95K viewsedited 11:59

Dealer.AI

Forwarded from Пресидский залив

~~Software 3.0~~ Shopping 3.0 или как AI меняет пользовательское поведение 😆

Какое ключевое применение AI в e-commerce?
3 года назад я бы точно сказала про рекомендации и контекстную рекламу, но сейчас AI двигает рынок глубже, формируя новые подходы и пути пользователя.
Давайте посмотрим 5 разных категорий и что меняется в каждой из них согласно недавней статье a16z:

1️⃣

Импульсивные (TikTok finds, fast fashion)

💥

"Hyper-optimized TikTok and IG algorithms steer purchases."

Алгоритмы становятся умнее и точнее.
Здесь все понятно, AI усиливает динамический контент и персонализированную рекламу 😎
Кстати, нтересный факт, что чаще всего такие покупки происходят ночью и с телефона 😁

2️⃣

Рутинные (кофе, шампунь, кошачий корм)

😐

"AI agent tracks prices and buys for you when the time is right."

AI постепенно превращается в закупщика: сам следит за ценой и стоком,
делает заказ, когда пора, и сообщает: "твой ежедневный айс американо уже готовят".
Это хорошо ложится на гросери сторы и регулярные покупки как например доставка еды по подписке 💳

3️⃣ Лайфстайл (одежда, косметика, аксессуары) 😎

“AI researcher finds + suggests SKUs for your needs.”

Это самый хот топик, где мы существуем с Aesty. AI собирает варианты, знает твои вкусы, тип фигуры и
предлагает персональный shortlist не 1000 вариантов, а топ оф зэ топ
Кстати, чем меньше вариантов предлагаем за раз, тем лучше конверсия 🧠

4️⃣

Функциональные (ноутбук, диван, велосипед)

💻

“AI consultant meets with you and recommends what + where to buy.”

Здесь AI работает как доменный эксперт: сравнивает бренды, объясняет разницу,
помогает принять решение и выбрать лучшее под твои задачи 🧗

5️⃣Серьезные, на всю жизнь (дом, образование)

😏

“AI coach helps… and guides you through the decision process.”

Тут конечно же никакой автоматической закупки, по крайней мере пока ты не серийный real estate инвестор.
AI помогает искать, анализировать, сравнивать, но финальное слово остается за человеком.

По мнению a16z 2, 3 и 4 сильнее всего будут меняться благодаря персонализации и более удобному поиску информации 🙌

Го 50 🔥 на этот пост и разберу 4 главных технических изменения, которые должны произойти чтобы мы могли полностью делегировать шоппинг агентам 🤑

@neural_prosecco

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥69❤7👍5

3.52K views11:59

Dealer.AI

Продолжаем про капасити эмбов LMок. Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory…

Google расчехлил исследование про эмбеддеры.

В данном исследовании авторы показывают также как и в моих постах упор в capacity векторов моделей для RAG.

Причем это соотносится с более ранним исследованием. Однако, на нашем опыте нам удавалось иметь пожималку эмба с 1024 до 400 и иметь минимальную просадку на метриках поиска для индекса в 1.1млн документов. Что показывает, что для 512 эмба до 500к можно строить индекс не совсем правда. Нужно еще учитывать не только представимость вектора, но еще и capacity модели. А еще, если мы вспомним matryoshka, когда нарезают эмбед по размерности от M к изначальной длине, при правильном обучении, срез эмба не уменьшает значимо метрики поиска. Иначе бы матрешка просто бы не работала и не была так популярна. Поэтому давайте говорить, не про представимость эмбеда, а еще об эффективности вектора. Видимо, исследование рассматривает весьма неэффективные векторные представления.

Отсюда выводы, просто нужно правильно готовить metric learning и тогда RAG в части поисковой модели будет хорош. На этом все.

Upd. И кстати, у соседей там пишут мол ColBERT работает круто ибо там не один эмб юзают и тип капасити вектора растёт в К векторов это все не так.

ColBERT хорош за счёт того, что совмещает в себе полнотекстовый и полноконтекстный поиск. И задача metric learning стоит как сведение токен эмбов попарно все со всеми у запроса и документов и поэтому это эффективно. Но для поиска всеравно использует mean pooling этих произведений скалярных эмбов. А токены итак связаны между собой и тем более с mean pooling вектором, который и рассматривает статья от гугла.
Т.е. снова мы видим просто хорошую правильную постановку metric learning.

arXiv.org

On the Theoretical Limitations of Embedding-Based Retrieval

Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These...

👍23❤9🔥7💅2💯1

4.98K viewsedited 18:38

Dealer.AI

Немного расслабимся. #meme дня. Ну как мем, жиза.

Как тебе такое Илон Маск?)

КНР наносит ответный удар

🤣

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17😁9🦄2