Dealer.AI
14.6K subscribers
684 photos
46 videos
16 files
713 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Dealer.AI
Ну раз уж все заметили уже) Видимо бары рисовала тоже GPT-5;)
Крч, беру свои слова назад, несите следующее демо.
😁41
Dealer.AI
Ну раз уж все заметили уже) Видимо бары рисовала тоже GPT-5;)
В голос 😁 Спс @sergey_b_tg.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁52👍8🔥4🤩1
Dealer.AI
Продолжаем тему контента и заработка в сети с GenAI технологиями. Вот тут обнаружил такую вакансию в сети, вилочка-то ммм. #meme или нет?
This media is not supported in your browser
VIEW IN TELEGRAM
Ах вот ты какой цветошек аленький ИИ контент завод.

Кстати, тема популярная, видосов и мануалов, как сделать и заработать куча в сети стало.

ИИнфобиз процветает.

За видео спасибо @igortru
👍15💅75
Из года в год одно и тоже (а это на минутку май 2023 года).

Тут четырёхдневка, там два дня в неделю по-собственному. ИИ всех заменит, туда сюда.


Уволят, наймут, качели, романтика.

И тут снова, IBM, Google и т.п. сокращают найм, опять, дело в ИИ.
💯12😁11🔥32👍1🫡1
Dealer.AI
Из года в год одно и тоже (а это на минутку май 2023 года). Тут четырёхдневка, там два дня в неделю по-собственному. ИИ всех заменит, туда сюда. Уволят, наймут, качели, романтика. И тут снова, IBM, Google и т.п. сокращают найм, опять, дело в ИИ.
Ну вот в тему, увольняют тут из-за ИИ, и из-за ИИ будешь на собес в офис ходить, чтобы не списывал. Число оффлайн собесов выросло на 15-30%. Майкры стали приглашать в офис и т.п.
1😈15😁11🫡5
Опять какие-то китайцы завезли топ эмбеддер на MTEB. Однако, разумеется, подобно Qwen ребятам - только на английском и без замера на ру части. Чтож, видать сами замерим. Ну и опять нет техрепорта и папира.

Ах, да - это бандура на 7b параметров и 8к токенов контекста, базируется на qwen2.

https://huggingface.co/Kingsoft-LLM/QZhou-Embedding

Upd. Всех законно будоражит рост метрик по некоторым осям. Думаю это fit on the test, тк данные мтеба открыты.

Когда мы зарелизили Frida, никто из тех, кто юзал ее у себя не предъявил,что на метриках у нас все красиво, а по факту модель плохая. Но мы и не делали fit on the test. Большинству зашло, поэтому ждем практические кейсы с этой моделькой.
1👍122😁1
Dealer.AI pinned Deleted message
https://devcrowd.ru/ds25/community_3/

Опа, мама, Дядя в телевизоле... 😎😎😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥385👍5🏆3
Проблема "Не знаю", как метод побороть галлюцинации и как с этим сейчас пытаются работать.

Сегодня обсуждаем "вечное" - про то как можно сейчас работать с галюнами (глюками) LLM. Для примера возьмем известный кейс как модели заставить говорить "я не знаю".

Для начала, нужно понимать, что у модели прямой механизм сказать "не знаю" отсутствует, разве, что вам повезло с претреном и там по методу максимального правдоподобия в рамках текущего контекста, самое релевантное сгенерировать именно это. То же касается и тюна модели, можно бесконечно точечно элайнить модель под нужное поведение на нужных контекстах и ждать трансфера под "не знаю". Но вам или выстрелит в ногу рано или поздно тема с oof/ood примерами (примеры которые не попали в обучение) или возникнут проблемы обновления знаний, когда сегодня она не знает, а завтра знает, тк сет уже обновили. А это извините случай постоянной гонки с самим собой, с точечным дообучением и переобучением.

Поэтому в комьюнити набирают давно уже популярность подходы на инференсе, не требующие переобучения. Данные методы работают с внутренними механизмами моделей - веса, активации, логиты и т.п. Конечно можно всегда ходить в RAG на вопросы, чувствительные к фактологии, но в идеале, как заметил один подписчик, не тратить лишний компьют на внешние вызовы. У инженеров есть запрос на то, чтобы модель "сама осознала" надо ей идти во внешний источник или нет, через понимание "я не знаю, пойду гляну вокруг, а когда она "осознает", что "знает" отвечала бы из своих весов.
К сожалению, прямого "осознания" у модели (пока, и это в тч путь к AGI) нет, поэтому приходится костылять вокруг.

Примеры подходов:

1. Подход с классификацией интента самой LLM. Приходит запрос, модель видит пулл инструментов и у нее есть их описание, инструкции когда, что вызывать. Это путь "в лоб", который даже не задействует механизм "самосознания", что не ко мне вопрос, пойду сразу во вне. И зачастую оно так и работает у 99%.

2. Работа с внешним классификатором. Учат любые модели от лесов и бустинга, до трансформера. Но проблема классификации, отсутствует достойный трансфер знаний и есть возможность взломать на ood примерах. Обычно строится поверх логитов/пробитов распределения вероятности токенов. Пример.

3. Работа с "внутренней" механикой сети. Например подход в данной статье, строится на внутренней согласованности суждения. Основная идея подхода заключается в построении дерева убеждений, обозначаемого как 𝒯, где корневой узел — это целевое утверждение, каждый дочерний узел — это утверждение, логически связанное с родительским узлом, а каждое ребро представляет собой логическую связь между двумя узлами. Затем получаем оценки достоверности для всех узлов и используем логическую согласованность оценок для исправления возможных ошибок в них. Далее модель смотрит на цепочки согласованности и ищет противоречия. Это и есть сигнал к глюкам.

Есть и другие способы. В данной работе указаны несколько методов, описанные включающих выше, но есть и работа только с вероятностями токенов и перплексией. Используется только скоринг-функция поверх этого, без внешних моделей.

В заключении, хочу сказать, что тот кто сможет победить проблему "я не знаю", сможет косвенно побороть галлюцинации и открыть новую эру доверия к LLM. При этом, не важно будет это связано с архитектурой, методом обучения или внешним механизмом. Главное надежность и достоверность работы на любых примерах в 99% случаев. Конечно, я пока считаю, что сегодня лучшие механики, те что работают только с инференсом (логиты, деревья и т.п.). А еще эффективнее будет микстить их с внешними оценщиками.

Пишите свои способы борьбы с галлюцинациями в комментариях. Также интересует, как вы решаете проблему решения LLM ответа из весов, чтобы не ходить лишний раз в RAG и т.п.👇👇👇
1👍249🔥7
#Meme.

Нашел на habr.
1😁95🔥8👍53
Dealer.AI
Агенты, браузер, поиск и реклама. Как жить в эпоху агентов, если ваша экономика зависит от трафика. Ключевой парадокс современного интернета: ИИ-агенты обещают мгновенные ответы без посещения рекламных ссылок и просмотра баннеров, но традиционная экономика…
Крупные игроки в деле или как будет/планирует зарабатывать OpenAI.

OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал). Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы и компания вполне еще довольствуется только платными пакетами подписки.

Но направление мысли уже понятно, к тому же, OpenAI усиливает команду монетизации – Сэм Альтман нанял Симо Фидж, экс-директора из Фейсбука на эти задачи. При этом, Сама осторожно рассматривает разные дополнительные стратегии монетизации, такие как интегрированная реклама, чтобы не вспугнуть фри юзеров, а также не нарушить этические нормы.

Еще в обзоре, мы видим перспективы взаимодействия с крупными заказчиками и превращение OpenAI в глобальную супер-платформу ИИ, создав конкуренцию Google и Meta.
6🔥1
Dealer.AI
Крупные игроки в деле или как будет/планирует зарабатывать OpenAI. OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал). Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы…
Основные моменты интервью с Ником Терли, главой проекта ChatGPT в OpenAI. Если вам лень читать.

1. Эмоциональная привязанность пользователей:
Пользователи выразили сильное недовольство заменой модели GPT-4o на GPT-5, чувствуя себя эмоционально зависимыми (думаю имеелось ввиду, эмоционально восприняли) от предыдущей версии. Это заставило компанию быстро вернуть старую версию обратно.

2. Обратная связь и простота продукта:
Компания стремится сохранить продукт простым для большинства пользователей, одновременно предоставляя продвинутые возможности для опытных пользователей. Планируется предложить возможность выбора моделей и настройки поведения чат-бота.

3. Отказ от платных подписок и переход к бизнес-модели рекламы:
Основная бизнес-модель ChatGPT основана на подписках, хотя небольшая доля доходов поступает от предприятий. Реклама рассматривается как потенциальный источник дохода, однако компания подчеркивает важность сохранения качества взаимодействия с пользователями.

4. Рост числа корп. подписчиков:
Несмотря на быстрый рост популярности сервиса, большинство пользователей остаются бесплатными. Однако компания видит потенциал в привлечении корпоративных клиентов и развитии партнерских отношений.

5. Развитие форматов общения:
Текущий интерфейс чата считается временным решением, поскольку команда планирует создание новых интерфейсов и расширенных возможностей взаимодействия с искусственным интеллектом.

6. Стратегия развития продуктов:
Компании предстоит решать проблемы масштабирования и поддерживать баланс между улучшением технологии и сохранением удобного опыта для пользователей. Кстати в инди обзоре выше была информация про новый алгоритм роутинга по сервисам компании, для оптимизации.

7. Долгосрочные цели:
Среди будущих направлений развития — интеграция различных сервисов и платформ, улучшение мультимодальных, я бы лучше сказал омнимодальных, способностей и персонализация взаимодействия с ассистентом/ботом (видимо развитие памяти в т.ч. как важной части персонализации).

Интервью, думаю, как реакция, на мягко сказать спорное демо. Тут наблюдается стремление OpenAI успокоить юзеров, и показать, что они учитывают потребности и предпочтения своей аудитории.
15👍3🔥2
Годное 👇
Forwarded from Записки C3PO
У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.

TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.

Две фундаментальные проблемы AI-продуктов:

1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.

Что такое CC/CD:

Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества

Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных

Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека

Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.

По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
🔥199👍7
Память и GPT-6.

Сэм Альтман заявил, что ключевой фичей GPT-6 станет глобальная память и персонализация на ее основе.

Сказать,что Дядя так и знал, и уже несколько лет толкает это – ничего не сказать.

Хотите почитать об этом? Читайте тут, тут и тут, смотрите мое выступление тут, а презу тут.

https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html
🏆145👍5😐1
Скейлинг результатов на h100 найдены проблемы 💻

Заявленные лабораторией Frontier AI, 100 000 обучающих прогонов H100 не оправдывают ожиданий, поскольку программное обеспечение и системы не масштабируются эффективно, что приводит к нерациональному использованию огромных массивов графических процессоров. 😳

Получаем, что абьюз числа гпух не скейлится прогнозируемо и вы тратите свои money на ГПУ часы нерационально.Если правда, то неприятненько. 💸

Верим? 🤔

https://www.reddit.com/r/LocalLLaMA/s/wBVHzCKyTJ
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯6🙈3🤔2👌2🤩1
АгентскийLLM
<unknown>
Новый-старый holly war.

Агентный или агентский?)

Спасибо @andytty за тлдр)

Дядя тут "Иван смузикодер".
2👍2🤓2😁1