Dealer.AI
14.6K subscribers
685 photos
46 videos
16 files
715 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Жиза...
Мы и AI PO.

#meme
😁66🤯2💯2👍1
Гибридизируй это - память.

Как я и говорил гибридизация механизмов памяти это будущее. Теперь уже и настоящее.

Подобно memGPT (про память, а не мемы 😀 ), коллеги из Китая пошли в операционку с памятью. Очень интересная работа.

https://xn--r1a.website/chinaaichannel/167

+ выкладываю свою презу по памяти для LLM на datafest (будет ниже).

Видео залиты сами знаете куда. Мое выступление с 1:33:00 примерно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥136👍2😁1
- Это все еще работает?
- Всегда работало. 🔫

#meme, #injection
🔥49😁414👍4
Google делает OpenAI в GenAI
OpenAI делает свой Google ч. 3я


Теперь в моде иметь в гараже по Бентли браузеру с LLM. Тут ждут анонс от OpenAI. А также зарелизили свой браузер perplexity - зовут Comet.

С одной стороны, это посягательство на трон Google. С другой, привычный всем, и тем самым, удобный канал связи через браузер и поисковую строку с доп. интерфейсом. Так сказать, более легкое и нативное проникновение в массы, а еще способ монетизации через рекламу, сбор датки о юзерах для персонализации и т. п.

В общем, набираемся попкорна и следим за парадом браузеров с LLM. 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135👍2
Dealer.AI
Жиза... Мы и AI PO. #meme
#meme
И мое любимое: "хочу везде LLM/GenAI".
😁81💯142
Сначала они копировали европейский автопром, советское оружие и ширпотреб из USA.

Теперь, они копируют авто друг у друга (привет копии лисян и zeeker), оружие делают и сами норм, но еще крадут у друга код и архитектуру модели 🧠.


Хуавей официально отвергла сходство своей модели с Qwen от Алибаба.

Хотя не только китайцы "копируют" наработки у друг-друга, разработчики с запада также перенимают их опыт и архитектуру😀. If you know what I mean 🤣.
Привет коллегам по цеху в РФ.

Для тех, кто в англ не бум бум.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12👍2🔥1
Интересное завезли 👇👇👇👇
🔎 Опытные разработчики с ИИ работают на 19% медленнее

Организация METR провела рандомизированное контролируемое исследование, которое перевернуло представления об эффективности ИИ-инструментов для кодинга.

16 опытных разработчиков open-source проектов решали 246 задач в знакомых им кодовых базах. Проекты в среднем существовали 10 лет и содержали более 1,1 миллиона строк кода. Разработчики использовали Cursor Pro с Claude 3.5/3.7 Sonnet, каждая задача занимала около 2 часов. Участники записывали экраны и получали $150/час.

Результаты показали разительное расхождение между ожиданиями и реальностью:
🟡До исследования: разработчики ожидали ускорение на 24%
🟡После исследования: считали, что ускорились на 20%
🟡Реальные измерения: замедление на 19%

93% участников имели опыт с ChatGPT, но только 44% работали с Cursor ранее.

Детальный анализ 74 задач показал, как именно тратилось время при использовании ИИ:

Время сократилось:
🟡Активное кодирование: -15%
🟡Тестирование и отладка: -5%
🟡Исследование и чтение информации: -8%

Время увеличилось:
🟡Режим ожидания (idle time): +4%
🟡Чат с ИИ: +20%

Именно 20% дополнительного времени на взаимодействие с ИИ (промпты, ожидание генерации, проверка результатов) стало основной причиной общего замедления.

Ключевые проблемы:
1. ИИ генерировал код, который формально работал, но не соответствовал стандартам open-source проектов
2. Множественные раунды "промпт ➡️ ожидание ➡️ проверка ➡️ отбрасывание ➡️ новый промпт" замедляли работу
3. Ожидание ИИ сбивает фокус (flow state)
4. Сложности передачи нужного контекста ИИ в больших, сложных кодовых базах

Замедление НЕ ожидается для:
🟡Junior-разработчиков
🟡Работы в незнакомых кодовых базах
🟡Greenfield проектов (создание с нуля)

Также возможны значительные улучшения эффективности после сотен часов использования Cursor.

Исследование METR контрастирует с предыдущими работами, которые показывали ускорение от ИИ-инструментов. Однако те исследования часто использовали более простые benchmark задачи или новые проекты, что объясняет разницу в результатах.

Reuters отмечает, что это первое крупное исследование, показавшее замедление при использовании ИИ-инструментов опытными разработчиками.

#исследование #cursor #claude

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
35👍12🔥11🤩4👌1💯1
Google и vibe coding на собесе PO/PM - теперь не только гномики 🚬.

Ждем новшества на рынке СНГ? 👍

А ваш PO/PM уже работает с курсором и т. п.?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥175🤩1👨‍💻1
Reinforcement Pretraining Learning от Microsoft - новый взгляд на предобучение.

RPT - это новый подход для дообучение моделей на основе рассуждений с RL.

Как это работает? 💡
Ранее, мы использовали старую схему: предобучение, инструктивный тюнинг и выравнивание. Далее DeepSeek привнёс дополнительно методологию предобучения+RL тюнинга, без итерации SFT.
Однако, Microsoft пошли дальше. Мы делаем предобучение модели с задачей next token prediction, а далее делаем дополнительный шаг к дообучению (допредобучению) с использованием формата рассуждений для предсказания следующего токена. Да, да, с использованием спец.форматов thinking tokens и т.п. (ниже будет скрин формата). При этом, откуда взялся RL тут? Да все просто – ввиду моды на GRPO и задач, которые сами порождают себе награду, из-за своего известного ответа. Ведь для задач предсказания токена мы уже также имеем нужную разметку. Поясню, у нас есть тренировочный опорный текст, его мы нарезаем на контекст + следующий токен, так мы делаем teacher forcing. Отсюда награду на этапе RPT будем давать за правильно предсказанный токен с GRPO, а не юзать CCE loss. Кстати, очень похоже на подходик с RTD (replaced token detection) для обучения ELECTRA, помните такую?

Вот и вся идея: берем претрейн+rpt, далее уже че хотим, то и воротим. Можно следом сделать RL SFT, и авторы этот эксперимент проводят и показывают, что такой RPT "отжиг" (почему-то с ним аналогия, хотя у отжига есть условие соблюдения чистоты и частоты разметки к претрен сырцу), естественно, улучшает качество тюна дальнейшего с RL. Все логично, мы же уже подготовили почву через обучение сродственное.

Отсюда вообще много чего, интересного можно натворить. Взять и сделать реально аналог отжига, но на RPT подходе, прям по всем правилам и требованиям к датке, но с функцией цели в виде GRPO. Можно генерить разметку претрен сета в виде рассуждений при помощи reasoning моделек, создавая уже RPT синту. Далее пойти в DeepSeek R1 пайп. Написать сначала людьми разметку под токены рассуждений, потом обучить опорную свою RPT модельку, ее использовать для рефайна сета претрен. Получив синту с нужной разметкой, отобрать ту синту, для которой энтропия/перплексия минимальная (отобрать лучшие примеры), и вкинуть уже в модель второго уровня на пайплайн: претрен, rpt с синтой, rl sft и т. д.  по аналогии с R1 пайпом после ZeroStage.

Кстати, авторы показали не только хорошую интеграцию с RL sft, но и правила скейлинга качества для разного уровня сложности задач на рассуждения, на примере задач математики. Туда же долили замеры QA и MMLU и тоже показали ап. 🌿
К тому же, 14b моделька Qwen с RPT заняла место между NTP 14b и 32b. 📈

В общем, читайте статью и пробуйте.
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥5👍2😁2
SEO и фильтры поисковиков на страже оригинальности контента в эпоху GenAI. Факты и мифы.

В сети и в рабочих процессах smm/seo спецов стали появляться разговоры про снижение качества выдачи. Как считают специалисты, это связано с нашествием сгенерированого контента. Мол google, yandex и пр. стали банить такую выдачу по магическим паттернам: спец. классификаторы, частотки слов с обученных моделей и пр.колдунщики.

Давайте немного порассуждаем над вариантами такой фильтрации и сделаем один интересный вывод.

1. Модели классификации сгенерированного контента. Никто на рынке еще не смог без хайпа и пиара, нормально, описать работу этих моделей. С метриками fpr, tpr и т. п. Везде только "точность", а мы знаем, что задача сильно дизбалансная и метрика смещенная. Поэтому может там и есть 95% точности, но в охватах ~20% дай матричный бог (для примера). Поэтому я бы был осторожен с такими моделями. Даже если есть такие модели, у поисковиков, они публично об этом не будут заявлять, с одной стороны это конкурентное преимущество, а с другой паблик риски. Вы сами-то можете отличить ген.текст, от оригинала на глаз?

2. Магические частоты слов корпусов, на которых обучались модели. Ходит и такая гипотеза. Мол фильтры основаны на паттернах датасетов, которые видели модели для обучения. Но при этом, данные сеты открытые, и естественные. Не естественным может быть выдача при генерации, хотя это тоже спорное. Крч банить за распределение войны и мира частоток, равно забанить всю выдачу Толстого. Далее, некоторые из моделей вообще закрыты и не известно на каких сетах обучались. Тут если и есть, что анализировать для составления таких карт частот, то только обстрелы по апи. Да, мы можем оценить типовые частоты генераций, но не самих сетов в обучении в таком случае. И, возможно, последнее и будет полезнее.

3. Инъекции спец. символов и вотермаркинг. Это самый реалистичный вариант фильтрации, но все ли открытые модели пользуются вотермаркингом? Все ли закрытые модели, доступные по api делятся на коммерческой основе с Яндексом или гуглом такими вещами?

А теперь вернемся на "землю". Мы знаем, что у поисковиков есть индексация по своим правилам, которые в свою очередь имеют требования к контенту для его продвижения вверх. И мне кажется, что дело не в LLM контенте, а в людях,что тупо копипастят его без доработок под особенности выдачи. Т.е. проблема не сколько в специальных колдунщиках для сгенерированного контента, сколько в лени специалистов, юзающих GenAI для материалов новостей, сайтов и т.п.

Да и камон, люди, вы реально думаете, что крупнейшие игроки, которые зарабатывают на своих ИИ-решениях в т.ч. для создания контента, будут себе в колени стрелять?)

В доказательство доводов выше, дополнительно, приведу свод правил Google в отношении ИИ-контента. В этих правилах указано, что компания поощряет любые способы создания контента высокого качества. "Главное, чтобы он соответствовал стандартам E‑E-A‑T (опыт, компетентность, авторитетность и достоверность), которые составил Google."
А еще важное это с одной стороны проводить фактчекинг генераций, т. к. глюки моделей никто не отменял, а с другой не атаковать выдачу:
«…искусственный интеллект не должен использоваться для создания контента, нацеленного исключительно на продвижение сайта в результатах поиска. Это является нарушением наших правил в отношении спама».

В общем, Дядя напомнит, что задача llm в копирайтинге не писать все за спеца, а дать эскиз или нулевой шаг, приведя к горячему старту. Дальше художник/редактор всеравно доработает текст/картинку, естественно, если это необходимо, под правила платформы размещения. Но есть те места, где нет таких фильтров как в поисковиках.

За этим урок окончен, увидимся на просторах паутины.
12👍9🔥4