Dealer.AI
Ну раз уж все заметили уже) Видимо бары рисовала тоже GPT-5;)
Крч, беру свои слова назад, несите следующее демо.
😁41
Dealer.AI
Ну раз уж все заметили уже) Видимо бары рисовала тоже GPT-5;)
В голос 😁 Спс @sergey_b_tg.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁52👍8🔥4🤩1
Dealer.AI
Агенты, браузер, поиск и реклама. Как жить в эпоху агентов, если ваша экономика зависит от трафика. Ключевой парадокс современного интернета: ИИ-агенты обещают мгновенные ответы без посещения рекламных ссылок и просмотра баннеров, но традиционная экономика…
Продолжаем тему контента и заработка в сети с GenAI технологиями. Вот тут обнаружил такую вакансию в сети, вилочка-то ммм.
#meme или нет?
#meme или нет?
❤4🤔3🤣1
Dealer.AI
Продолжаем тему контента и заработка в сети с GenAI технологиями. Вот тут обнаружил такую вакансию в сети, вилочка-то ммм. #meme или нет?
This media is not supported in your browser
VIEW IN TELEGRAM
Ах вот ты какой цветошек аленький ИИ контент завод.
Кстати, тема популярная, видосов и мануалов, как сделать и заработать куча в сети стало.
ИИнфобиз процветает.
За видео спасибо @igortru
Кстати, тема популярная, видосов и мануалов, как сделать и заработать куча в сети стало.
ИИнфобиз процветает.
За видео спасибо @igortru
👍15💅7❤5
Из года в год одно и тоже (а это на минутку май 2023 года).
Тут четырёхдневка, там два дня в неделю по-собственному. ИИ всех заменит, туда сюда.
Уволят, наймут, качели, романтика.
И тут снова, IBM, Google и т.п. сокращают найм, опять, дело в ИИ.
Тут четырёхдневка, там два дня в неделю по-собственному. ИИ всех заменит, туда сюда.
Уволят, наймут, качели, романтика.
И тут снова, IBM, Google и т.п. сокращают найм, опять, дело в ИИ.
💯12😁11🔥3❤2👍1🫡1
Dealer.AI
Из года в год одно и тоже (а это на минутку май 2023 года). Тут четырёхдневка, там два дня в неделю по-собственному. ИИ всех заменит, туда сюда. Уволят, наймут, качели, романтика. И тут снова, IBM, Google и т.п. сокращают найм, опять, дело в ИИ.
Ну вот в тему, увольняют тут из-за ИИ, и из-за ИИ будешь на собес в офис ходить, чтобы не списывал. Число оффлайн собесов выросло на 15-30%. Майкры стали приглашать в офис и т.п.
1😈15😁11🫡5
Опять какие-то китайцы завезли топ эмбеддер на MTEB. Однако, разумеется, подобно Qwen ребятам - только на английском и без замера на ру части. Чтож, видать сами замерим. Ну и опять нет техрепорта и папира.
Ах, да - это бандура на 7b параметров и 8к токенов контекста, базируется на qwen2.
https://huggingface.co/Kingsoft-LLM/QZhou-Embedding
Upd. Всех законно будоражит рост метрик по некоторым осям. Думаю это fit on the test, тк данные мтеба открыты.
Когда мы зарелизили Frida, никто из тех, кто юзал ее у себя не предъявил,что на метриках у нас все красиво, а по факту модель плохая.Но мы и не делали fit on the test. Большинству зашло, поэтому ждем практические кейсы с этой моделькой.
Ах, да - это бандура на 7b параметров и 8к токенов контекста, базируется на qwen2.
https://huggingface.co/Kingsoft-LLM/QZhou-Embedding
Upd. Всех законно будоражит рост метрик по некоторым осям. Думаю это fit on the test, тк данные мтеба открыты.
Когда мы зарелизили Frida, никто из тех, кто юзал ее у себя не предъявил,что на метриках у нас все красиво, а по факту модель плохая.
1👍12❤2😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38❤5👍5🏆3
Проблема "Не знаю", как метод побороть галлюцинации и как с этим сейчас пытаются работать.
Сегодня обсуждаем "вечное" - про то как можно сейчас работать с галюнами (глюками) LLM. Для примера возьмем известный кейс как модели заставить говорить "я не знаю".
Для начала, нужно понимать, что у модели прямой механизм сказать "не знаю" отсутствует, разве, что вам повезло с претреном и там по методу максимального правдоподобия в рамках текущего контекста, самое релевантное сгенерировать именно это. То же касается и тюна модели, можно бесконечно точечно элайнить модель под нужное поведение на нужных контекстах и ждать трансфера под "не знаю". Но вам или выстрелит в ногу рано или поздно тема с oof/ood примерами (примеры которые не попали в обучение) или возникнут проблемы обновления знаний, когда сегодня она не знает, а завтра знает, тк сет уже обновили. А это извините случай постоянной гонки с самим собой, с точечным дообучением и переобучением.
Поэтому в комьюнити набирают давно уже популярность подходы на инференсе, не требующие переобучения. Данные методы работают с внутренними механизмами моделей - веса, активации, логиты и т.п. Конечно можно всегда ходить в RAG на вопросы, чувствительные к фактологии, но в идеале, как заметил один подписчик, не тратить лишний компьют на внешние вызовы. У инженеров есть запрос на то, чтобы модель "сама осознала" надо ей идти во внешний источник или нет, через понимание "я не знаю, пойду гляну вокруг, а когда она "осознает", что "знает" отвечала бы из своих весов.
К сожалению, прямого "осознания" у модели (пока, и это в тч путь к AGI) нет, поэтому приходится костылять вокруг.
Примеры подходов:
1. Подход с классификацией интента самой LLM. Приходит запрос, модель видит пулл инструментов и у нее есть их описание, инструкции когда, что вызывать. Это путь "в лоб", который даже не задействует механизм "самосознания", что не ко мне вопрос, пойду сразу во вне. И зачастую оно так и работает у 99%.
2. Работа с внешним классификатором. Учат любые модели от лесов и бустинга, до трансформера. Но проблема классификации, отсутствует достойный трансфер знаний и есть возможность взломать на ood примерах. Обычно строится поверх логитов/пробитов распределения вероятности токенов. Пример.
3. Работа с "внутренней" механикой сети. Например подход в данной статье, строится на внутренней согласованности суждения. Основная идея подхода заключается в построении дерева убеждений, обозначаемого как 𝒯, где корневой узел — это целевое утверждение, каждый дочерний узел — это утверждение, логически связанное с родительским узлом, а каждое ребро представляет собой логическую связь между двумя узлами. Затем получаем оценки достоверности для всех узлов и используем логическую согласованность оценок для исправления возможных ошибок в них. Далее модель смотрит на цепочки согласованности и ищет противоречия. Это и есть сигнал к глюкам.
Есть и другие способы. В данной работе указаны несколько методов, описанные включающих выше, но есть и работа только с вероятностями токенов и перплексией. Используется только скоринг-функция поверх этого, без внешних моделей.
В заключении, хочу сказать, что тот кто сможет победить проблему "я не знаю", сможет косвенно побороть галлюцинации и открыть новую эру доверия к LLM. При этом, не важно будет это связано с архитектурой, методом обучения или внешним механизмом. Главное надежность и достоверность работы на любых примерах в 99% случаев. Конечно, я пока считаю, что сегодня лучшие механики, те что работают только с инференсом (логиты, деревья и т.п.). А еще эффективнее будет микстить их с внешними оценщиками.
Пишите свои способы борьбы с галлюцинациями в комментариях. Также интересует, как вы решаете проблему решения LLM ответа из весов, чтобы не ходить лишний раз в RAG и т.п.👇👇👇
Сегодня обсуждаем "вечное" - про то как можно сейчас работать с галюнами (глюками) LLM. Для примера возьмем известный кейс как модели заставить говорить "я не знаю".
Для начала, нужно понимать, что у модели прямой механизм сказать "не знаю" отсутствует, разве, что вам повезло с претреном и там по методу максимального правдоподобия в рамках текущего контекста, самое релевантное сгенерировать именно это. То же касается и тюна модели, можно бесконечно точечно элайнить модель под нужное поведение на нужных контекстах и ждать трансфера под "не знаю". Но вам или выстрелит в ногу рано или поздно тема с oof/ood примерами (примеры которые не попали в обучение) или возникнут проблемы обновления знаний, когда сегодня она не знает, а завтра знает, тк сет уже обновили. А это извините случай постоянной гонки с самим собой, с точечным дообучением и переобучением.
Поэтому в комьюнити набирают давно уже популярность подходы на инференсе, не требующие переобучения. Данные методы работают с внутренними механизмами моделей - веса, активации, логиты и т.п. Конечно можно всегда ходить в RAG на вопросы, чувствительные к фактологии, но в идеале, как заметил один подписчик, не тратить лишний компьют на внешние вызовы. У инженеров есть запрос на то, чтобы модель "сама осознала" надо ей идти во внешний источник или нет, через понимание "я не знаю, пойду гляну вокруг, а когда она "осознает", что "знает" отвечала бы из своих весов.
К сожалению, прямого "осознания" у модели (пока, и это в тч путь к AGI) нет, поэтому приходится костылять вокруг.
Примеры подходов:
1. Подход с классификацией интента самой LLM. Приходит запрос, модель видит пулл инструментов и у нее есть их описание, инструкции когда, что вызывать. Это путь "в лоб", который даже не задействует механизм "самосознания", что не ко мне вопрос, пойду сразу во вне. И зачастую оно так и работает у 99%.
2. Работа с внешним классификатором. Учат любые модели от лесов и бустинга, до трансформера. Но проблема классификации, отсутствует достойный трансфер знаний и есть возможность взломать на ood примерах. Обычно строится поверх логитов/пробитов распределения вероятности токенов. Пример.
3. Работа с "внутренней" механикой сети. Например подход в данной статье, строится на внутренней согласованности суждения. Основная идея подхода заключается в построении дерева убеждений, обозначаемого как 𝒯, где корневой узел — это целевое утверждение, каждый дочерний узел — это утверждение, логически связанное с родительским узлом, а каждое ребро представляет собой логическую связь между двумя узлами. Затем получаем оценки достоверности для всех узлов и используем логическую согласованность оценок для исправления возможных ошибок в них. Далее модель смотрит на цепочки согласованности и ищет противоречия. Это и есть сигнал к глюкам.
Есть и другие способы. В данной работе указаны несколько методов, описанные включающих выше, но есть и работа только с вероятностями токенов и перплексией. Используется только скоринг-функция поверх этого, без внешних моделей.
В заключении, хочу сказать, что тот кто сможет победить проблему "я не знаю", сможет косвенно побороть галлюцинации и открыть новую эру доверия к LLM. При этом, не важно будет это связано с архитектурой, методом обучения или внешним механизмом. Главное надежность и достоверность работы на любых примерах в 99% случаев. Конечно, я пока считаю, что сегодня лучшие механики, те что работают только с инференсом (логиты, деревья и т.п.). А еще эффективнее будет микстить их с внешними оценщиками.
Пишите свои способы борьбы с галлюцинациями в комментариях. Также интересует, как вы решаете проблему решения LLM ответа из весов, чтобы не ходить лишний раз в RAG и т.п.👇👇👇
1👍24❤9🔥7
Dealer.AI
Агенты, браузер, поиск и реклама. Как жить в эпоху агентов, если ваша экономика зависит от трафика. Ключевой парадокс современного интернета: ИИ-агенты обещают мгновенные ответы без посещения рекламных ссылок и просмотра баннеров, но традиционная экономика…
Крупные игроки в деле или как будет/планирует зарабатывать OpenAI.
OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы(так Дядя и знал) . Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы и компания вполне еще довольствуется только платными пакетами подписки.
Но направление мысли уже понятно, к тому же, OpenAI усиливает команду монетизации – Сэм Альтман нанял Симо Фидж, экс-директора изФейсбука на эти задачи. При этом, Сама осторожно рассматривает разные дополнительные стратегии монетизации, такие как интегрированная реклама, чтобы не вспугнуть фри юзеров, а также не нарушить этические нормы.
Еще в обзоре, мы видим перспективы взаимодействия с крупными заказчиками и превращение OpenAI в глобальную супер-платформу ИИ, создав конкуренцию Google и Meta.
OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы
Но направление мысли уже понятно, к тому же, OpenAI усиливает команду монетизации – Сэм Альтман нанял Симо Фидж, экс-директора из
Еще в обзоре, мы видим перспективы взаимодействия с крупными заказчиками и превращение OpenAI в глобальную супер-платформу ИИ, создав конкуренцию Google и Meta.
The Verge
ChatGPT chief Nick Turley doesn’t want you too attached to AI
OpenAI’s head of ChatGPT on what surprised him most about AI attachment, and what’s next for chatbots.
❤6🔥1
Dealer.AI
Крупные игроки в деле или как будет/планирует зарабатывать OpenAI. OpenAI планируют монетизацию через feed's и транзакции, возможно, и через интеграцию рекламы (так Дядя и знал) . Об этом сообщил Ник Тёрли в своем интервью. Естественно, пока это только планы…
Основные моменты интервью с Ником Терли, главой проекта ChatGPT в OpenAI. Если вам лень читать.
1. Эмоциональная привязанность пользователей:
Пользователи выразили сильное недовольство заменой модели GPT-4o на GPT-5, чувствуя себя эмоционально зависимыми (думаю имеелось ввиду, эмоционально восприняли) от предыдущей версии. Это заставило компанию быстро вернуть старую версию обратно.
2. Обратная связь и простота продукта:
Компания стремится сохранить продукт простым для большинства пользователей, одновременно предоставляя продвинутые возможности для опытных пользователей. Планируется предложить возможность выбора моделей и настройки поведения чат-бота.
3. Отказ от платных подписок и переход к бизнес-модели рекламы:
Основная бизнес-модель ChatGPT основана на подписках, хотя небольшая доля доходов поступает от предприятий. Реклама рассматривается как потенциальный источник дохода, однако компания подчеркивает важность сохранения качества взаимодействия с пользователями.
4. Рост числа корп. подписчиков:
Несмотря на быстрый рост популярности сервиса, большинство пользователей остаются бесплатными. Однако компания видит потенциал в привлечении корпоративных клиентов и развитии партнерских отношений.
5. Развитие форматов общения:
Текущий интерфейс чата считается временным решением, поскольку команда планирует создание новых интерфейсов и расширенных возможностей взаимодействия с искусственным интеллектом.
6. Стратегия развития продуктов:
Компании предстоит решать проблемы масштабирования и поддерживать баланс между улучшением технологии и сохранением удобного опыта для пользователей.Кстати в инди обзоре выше была информация про новый алгоритм роутинга по сервисам компании, для оптимизации.
7. Долгосрочные цели:
Среди будущих направлений развития — интеграция различных сервисов и платформ, улучшение мультимодальных, я бы лучше сказал омнимодальных, способностей и персонализация взаимодействия с ассистентом/ботом (видимо развитие памяти в т.ч. как важной части персонализации).
Интервью, думаю, как реакция, на мягко сказать спорное демо. Тут наблюдается стремление OpenAI успокоить юзеров, и показать, что они учитывают потребности и предпочтения своей аудитории.
1. Эмоциональная привязанность пользователей:
Пользователи выразили сильное недовольство заменой модели GPT-4o на GPT-5, чувствуя себя эмоционально зависимыми (думаю имеелось ввиду, эмоционально восприняли) от предыдущей версии. Это заставило компанию быстро вернуть старую версию обратно.
2. Обратная связь и простота продукта:
Компания стремится сохранить продукт простым для большинства пользователей, одновременно предоставляя продвинутые возможности для опытных пользователей. Планируется предложить возможность выбора моделей и настройки поведения чат-бота.
3. Отказ от платных подписок и переход к бизнес-модели рекламы:
Основная бизнес-модель ChatGPT основана на подписках, хотя небольшая доля доходов поступает от предприятий. Реклама рассматривается как потенциальный источник дохода, однако компания подчеркивает важность сохранения качества взаимодействия с пользователями.
4. Рост числа корп. подписчиков:
Несмотря на быстрый рост популярности сервиса, большинство пользователей остаются бесплатными. Однако компания видит потенциал в привлечении корпоративных клиентов и развитии партнерских отношений.
5. Развитие форматов общения:
Текущий интерфейс чата считается временным решением, поскольку команда планирует создание новых интерфейсов и расширенных возможностей взаимодействия с искусственным интеллектом.
6. Стратегия развития продуктов:
Компании предстоит решать проблемы масштабирования и поддерживать баланс между улучшением технологии и сохранением удобного опыта для пользователей.
7. Долгосрочные цели:
Среди будущих направлений развития — интеграция различных сервисов и платформ, улучшение мультимодальных, я бы лучше сказал омнимодальных, способностей и персонализация взаимодействия с ассистентом/ботом (видимо развитие памяти в т.ч. как важной части персонализации).
Интервью, думаю, как реакция, на мягко сказать спорное демо. Тут наблюдается стремление OpenAI успокоить юзеров, и показать, что они учитывают потребности и предпочтения своей аудитории.
❤15👍3🔥2
Forwarded from BOGDANISSSIMO
This media is not supported in your browser
VIEW IN TELEGRAM
Сидим-пердим впятером за AI и бизнес-вопросики
https://xn--r1a.website/neuraldeep
https://xn--r1a.website/alexs_journal
https://xn--r1a.website/vitales_on
https://xn--r1a.website/dealerAI
https://xn--r1a.website/neuraldeep
https://xn--r1a.website/alexs_journal
https://xn--r1a.website/vitales_on
https://xn--r1a.website/dealerAI
5🔥16🤓2🙈2
Forwarded from Записки C3PO
У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.
TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.
Две фундаментальные проблемы AI-продуктов:
1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.
Что такое CC/CD:
Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества
Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных
Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека
Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.
По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.
Две фундаментальные проблемы AI-продуктов:
1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.
Что такое CC/CD:
Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества
Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных
Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека
Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.
По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
Lennysnewsletter
Why your AI product needs a different development lifecycle
Introducing the Continuous Calibration/Continuous Development (CC/CD) framework
🔥19❤9👍7
Память и GPT-6.
Сэм Альтман заявил, что ключевой фичей GPT-6 станет глобальная память и персонализация на ее основе.
Сказать,что Дядя так и знал, и уже несколько лет толкает это – ничего не сказать.
Хотите почитать об этом? Читайте тут, тут и тут, смотрите мое выступление тут, а презу тут.
https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html
Сэм Альтман заявил, что ключевой фичей GPT-6 станет глобальная память и персонализация на ее основе.
Сказать,что Дядя так и знал, и уже несколько лет толкает это – ничего не сказать.
Хотите почитать об этом? Читайте тут, тут и тут, смотрите мое выступление тут, а презу тут.
https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html
CNBC
Sam Altman on GPT-6: 'People want memory'
OpenAI CEO Sam Altman says the next version of ChatGPT will be more personal than its predecssors.
🏆14❤5👍5😐1
Скейлинг результатов на h100 найдены проблемы 💻
Заявленные лабораторией Frontier AI, 100 000 обучающих прогонов H100 не оправдывают ожиданий, поскольку программное обеспечение и системы не масштабируются эффективно, что приводит к нерациональному использованию огромных массивов графических процессоров.😳
Получаем, что абьюз числа гпух не скейлится прогнозируемо и вы тратите свои money на ГПУ часы нерационально.Если правда, то неприятненько.💸
Верим?🤔
https://www.reddit.com/r/LocalLLaMA/s/wBVHzCKyTJ
Заявленные лабораторией Frontier AI, 100 000 обучающих прогонов H100 не оправдывают ожиданий, поскольку программное обеспечение и системы не масштабируются эффективно, что приводит к нерациональному использованию огромных массивов графических процессоров.
Получаем, что абьюз числа гпух не скейлится прогнозируемо и вы тратите свои money на ГПУ часы нерационально.Если правда, то неприятненько.
Верим?
https://www.reddit.com/r/LocalLLaMA/s/wBVHzCKyTJ
Please open Telegram to view this post
VIEW IN TELEGRAM
Reddit
From the LocalLLaMA community on Reddit: Frontier AI labs’ publicized 100k-H100 training runs under-deliver because software and…
Explore this post and more from the LocalLLaMA community
🤯6🙈3🤔2👌2🤩1
АгентскийLLM
<unknown>
❤2👍2🤓2😁1
Dealer.AI
<unknown> – АгентскийLLM
Агентный или агентский подход? 🤔
Final Results
63%
Агентный
19%
Агентский
19%
Этого вообще в ру языке нет, как хочу, так и говорю.
😁4