SEO и фильтры поисковиков на страже оригинальности контента в эпоху GenAI. Факты и мифы.
В сети и в рабочих процессах smm/seo спецов стали появляться разговоры про снижение качества выдачи. Как считают специалисты, это связано с нашествием сгенерированого контента. Мол google, yandex и пр. стали банить такую выдачу по магическим паттернам: спец. классификаторы, частотки слов с обученных моделей и пр.колдунщики.
Давайте немного порассуждаем над вариантами такой фильтрации и сделаем один интересный вывод.
1. Модели классификации сгенерированного контента. Никто на рынке еще не смог без хайпа и пиара, нормально, описать работу этих моделей. С метриками fpr, tpr и т. п. Везде только "точность", а мы знаем, что задача сильно дизбалансная и метрика смещенная. Поэтому может там и есть 95% точности, но в охватах ~20% дай матричный бог (для примера). Поэтому я бы был осторожен с такими моделями. Даже если есть такие модели, у поисковиков, они публично об этом не будут заявлять, с одной стороны это конкурентное преимущество, а с другой паблик риски. Вы сами-то можете отличить ген.текст, от оригинала на глаз?
2. Магические частоты слов корпусов, на которых обучались модели. Ходит и такая гипотеза. Мол фильтры основаны на паттернах датасетов, которые видели модели для обучения. Но при этом, данные сеты открытые, и естественные. Не естественным может быть выдача при генерации, хотя это тоже спорное. Крч банить за распределение войны и мира частоток, равно забанить всю выдачу Толстого. Далее, некоторые из моделей вообще закрыты и не известно на каких сетах обучались. Тут если и есть, что анализировать для составления таких карт частот, то только обстрелы по апи. Да, мы можем оценить типовые частоты генераций, но не самих сетов в обучении в таком случае. И, возможно, последнее и будет полезнее.
3. Инъекции спец. символов и вотермаркинг. Это самый реалистичный вариант фильтрации, но все ли открытые модели пользуются вотермаркингом? Все ли закрытые модели, доступные по api делятся на коммерческой основе с Яндексом или гуглом такими вещами?
А теперь вернемся на "землю". Мы знаем, что у поисковиков есть индексация по своим правилам, которые в свою очередь имеют требования к контенту для его продвижения вверх. И мне кажется, что дело не в LLM контенте, а в людях,что тупо копипастят его без доработок под особенности выдачи. Т.е. проблема не сколько в специальных колдунщиках для сгенерированного контента, сколько в лени специалистов, юзающих GenAI для материалов новостей, сайтов и т.п.
Да и камон, люди, вы реально думаете, что крупнейшие игроки, которые зарабатывают на своих ИИ-решениях в т.ч. для создания контента, будут себе в колени стрелять?)
В доказательство доводов выше, дополнительно, приведу свод правил Google в отношении ИИ-контента. В этих правилах указано, что компания поощряет любые способы создания контента высокого качества. "Главное, чтобы он соответствовал стандартам E‑E-A‑T (опыт, компетентность, авторитетность и достоверность), которые составил Google."
А еще важное это с одной стороны проводить фактчекинг генераций, т. к. глюки моделей никто не отменял, а с другой не атаковать выдачу:
«…искусственный интеллект не должен использоваться для создания контента, нацеленного исключительно на продвижение сайта в результатах поиска. Это является нарушением наших правил в отношении спама».
В общем, Дядя напомнит, что задача llm в копирайтинге не писать все за спеца, а дать эскиз или нулевой шаг, приведя к горячему старту. Дальше художник/редактор всеравно доработает текст/картинку, естественно, если это необходимо, под правила платформы размещения.Но есть те места, где нет таких фильтров как в поисковиках.
За этим урок окончен, увидимся на просторах паутины.
В сети и в рабочих процессах smm/seo спецов стали появляться разговоры про снижение качества выдачи. Как считают специалисты, это связано с нашествием сгенерированого контента. Мол google, yandex и пр. стали банить такую выдачу по магическим паттернам: спец. классификаторы, частотки слов с обученных моделей и пр.колдунщики.
Давайте немного порассуждаем над вариантами такой фильтрации и сделаем один интересный вывод.
1. Модели классификации сгенерированного контента. Никто на рынке еще не смог без хайпа и пиара, нормально, описать работу этих моделей. С метриками fpr, tpr и т. п. Везде только "точность", а мы знаем, что задача сильно дизбалансная и метрика смещенная. Поэтому может там и есть 95% точности, но в охватах ~20% дай матричный бог (для примера). Поэтому я бы был осторожен с такими моделями. Даже если есть такие модели, у поисковиков, они публично об этом не будут заявлять, с одной стороны это конкурентное преимущество, а с другой паблик риски. Вы сами-то можете отличить ген.текст, от оригинала на глаз?
2. Магические частоты слов корпусов, на которых обучались модели. Ходит и такая гипотеза. Мол фильтры основаны на паттернах датасетов, которые видели модели для обучения. Но при этом, данные сеты открытые, и естественные. Не естественным может быть выдача при генерации, хотя это тоже спорное. Крч банить за распределение войны и мира частоток, равно забанить всю выдачу Толстого. Далее, некоторые из моделей вообще закрыты и не известно на каких сетах обучались. Тут если и есть, что анализировать для составления таких карт частот, то только обстрелы по апи. Да, мы можем оценить типовые частоты генераций, но не самих сетов в обучении в таком случае. И, возможно, последнее и будет полезнее.
3. Инъекции спец. символов и вотермаркинг. Это самый реалистичный вариант фильтрации, но все ли открытые модели пользуются вотермаркингом? Все ли закрытые модели, доступные по api делятся на коммерческой основе с Яндексом или гуглом такими вещами?
А теперь вернемся на "землю". Мы знаем, что у поисковиков есть индексация по своим правилам, которые в свою очередь имеют требования к контенту для его продвижения вверх. И мне кажется, что дело не в LLM контенте, а в людях,что тупо копипастят его без доработок под особенности выдачи. Т.е. проблема не сколько в специальных колдунщиках для сгенерированного контента, сколько в лени специалистов, юзающих GenAI для материалов новостей, сайтов и т.п.
Да и камон, люди, вы реально думаете, что крупнейшие игроки, которые зарабатывают на своих ИИ-решениях в т.ч. для создания контента, будут себе в колени стрелять?)
В доказательство доводов выше, дополнительно, приведу свод правил Google в отношении ИИ-контента. В этих правилах указано, что компания поощряет любые способы создания контента высокого качества. "Главное, чтобы он соответствовал стандартам E‑E-A‑T (опыт, компетентность, авторитетность и достоверность), которые составил Google."
А еще важное это с одной стороны проводить фактчекинг генераций, т. к. глюки моделей никто не отменял, а с другой не атаковать выдачу:
«…искусственный интеллект не должен использоваться для создания контента, нацеленного исключительно на продвижение сайта в результатах поиска. Это является нарушением наших правил в отношении спама».
В общем, Дядя напомнит, что задача llm в копирайтинге не писать все за спеца, а дать эскиз или нулевой шаг, приведя к горячему старту. Дальше художник/редактор всеравно доработает текст/картинку, естественно, если это необходимо, под правила платформы размещения.
За этим урок окончен, увидимся на просторах паутины.
Google for Developers
Правила Google Поиска в отношении контента, созданного искусственным интеллектом | Google Search Central Blog | Google for…
В этой записи мы расскажем о том, как контент, созданный искусственным интеллектом, вписывается в наш проверенный временем подход к показу качественного контента в Google Поиске.
❤12👍9🔥4
Forwarded from Pavel Zloi
Хабр
MCP для новичков
Model Context Protocol (MCP) - это просто API, разработанный для LLM. Конечно, LLM могут использовать традиционные API, но это как просить повара готовить в кладовке из-за: Сложных промптов для...
Обзор "MCP для новичков"
Пожалуй это первая публикация на Хабр в которой просто и понятно, без маркетингового булщита и воды, автор разобрался сам и попытался объяснить нам, что такое MCP (Model Context Protocol), зачем он нужен, почему он работает так как работает и какие у него особенности.
Тезис, вокруг которого построена публикация:
Я тоже придерживаюсь мнения, что MCP это такое хитрое API с полезными утилитами созданными для того чтобы LLM эффективнее решала поставленные задачи, точка, попытки прикрутить к MCP что-то более как правило оканчиваются разочарованием в MCP.
Тут просто нужно понять и принять тот факт, что инструмент этот создан под определённую задачу, например молотком стоит забивать гвозди, а не пытаться рубить дерево, MCP нужен далеко не всегда, иногда проще реализовать классическое REST API.
Рекомендую к прочтению.
PS. И хоть видно что публикацию сгенерила нейронка виден здравый поинт и мысль автора.
Пожалуй это первая публикация на Хабр в которой просто и понятно, без маркетингового булщита и воды, автор разобрался сам и попытался объяснить нам, что такое MCP (Model Context Protocol), зачем он нужен, почему он работает так как работает и какие у него особенности.
Тезис, вокруг которого построена публикация:
Model Context Protocol (MCP) - это просто API, разработанный для LLM.
Я тоже придерживаюсь мнения, что MCP это такое хитрое API с полезными утилитами созданными для того чтобы LLM эффективнее решала поставленные задачи, точка, попытки прикрутить к MCP что-то более как правило оканчиваются разочарованием в MCP.
Тут просто нужно понять и принять тот факт, что инструмент этот создан под определённую задачу, например молотком стоит забивать гвозди, а не пытаться рубить дерево, MCP нужен далеко не всегда, иногда проще реализовать классическое REST API.
Рекомендую к прочтению.
PS. И хоть видно что публикацию сгенерила нейронка виден здравый поинт и мысль автора.
👍14🤔5🤣2🔥1🙈1
Пока Google делал OpenAI, OpenAI делали свой браузер Google. Маск и xAI делали свою Replika.ai.
Тем временем, шел 2025...🚬 🚬 🚬
Тем временем, шел 2025...
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔22😁5🤩3🤣1😐1
Manus: "Agents and in-context learning is all you need for it."
Пристально слежу за развитиемцыганских агентов от Мануш (на самом деле Манус 😂 ). И в их блоге, недавно, отсыпало весьма классный пост про опыт и видение настоящего и будущего работы с агентами. А именно, в статье команда авторов делится хаками для интеракций агентов.
У команды был долгий опыт с NLP и связанные с этим дилеммы для проекта Manus: учить ли свои модели или использовать всю мощь in-context инженерии. Ввиду большого time to market для задач, связанных с тюном моделей, их выбор пал на гибкое, быстрое и масштабируемое решение в виде своей адаптации in-context learning для агентов.
Мне очень импонирует, что эти ребята делают свою агентную систему круче OpenAI, при этом, основываясь, на уже казалось бы затертых до дыр, концептах function calling и rag/in-context learning (engineering как они сами это зовут) + LLMs, разумеется.
Основные столпы их механизмов взаимодействия агентов:
1. Грамотное использование KV-cachig. Как для экономии финансов, так и для быстрого контекстуального ответа.
2. При этом рассматриваются важные аспекты, как не сломать кэширование при масштабировании функций и инструментов, доступных агентам. Ведь новые фичи, как команды и результаты их исполнения, будут попадать в контекст, который они заполняют по определенной стратегии. Поэтому, чтобы не пришлось пересчитывать кэш и не ломать его логику, используется маскирование аля как в constrained output, четкий словарь префиксов, а также пополнение контекста в конце. Еще предупреждают – не стоит вкидывать или удалять новые операции/функции в середину итерации, только после завершения экшена.
3. Приятно, что тут же упомянули, механизмы вызова или добавления функций в виде RAG-механик с description функции, которые аттендятся на контекст. Обычно, это делается через матчинг эмбеддером векторов состояний контекста с описанием действия (функции).
Но учить такой FunctionRanker придется отдельно и ожидать трансфер знаний на лету. Кстати на нашем опыте FRIDA и e5, bge-m3 отлично в zeroshot с этим справляются без дообучения, а с ним и подавно метрики @K летят к 0.99.
4. Использование файловой системы, как памяти. Мое любимое - про память. Авторы предлагают гениально простой способ хранения информации без переполнения локального контекста - в файлах.Кстати, вы можете заметить подобное хранение в памяти от OpenAI. Это позволяет не перегружать контекст LLM, обращаясь только за нужной информацией во вне и сохраняя тоже только нужное, вырезая из контекста, все, что можно положить в файл. При этом, агент сам запишет, куда и в какой файл, что он сохранил.
Тут же, создатель Мануш говорит об ограничениях моделей SSM, которым не хватает внимания ввиду сродства с RNN/LSTM и происходит затухание памяти на длинных контекстах. Именно гибридизация агентов на базе моделей SSM с памятью на file system может породить новый аналог нейронной машины Тьюринга.
Пристально слежу за развитием
У команды был долгий опыт с NLP и связанные с этим дилеммы для проекта Manus: учить ли свои модели или использовать всю мощь in-context инженерии. Ввиду большого time to market для задач, связанных с тюном моделей, их выбор пал на гибкое, быстрое и масштабируемое решение в виде своей адаптации in-context learning для агентов.
Мне очень импонирует, что эти ребята делают свою агентную систему круче OpenAI, при этом, основываясь, на уже казалось бы затертых до дыр, концептах function calling и rag/in-context learning (engineering как они сами это зовут) + LLMs, разумеется.
Основные столпы их механизмов взаимодействия агентов:
1. Грамотное использование KV-cachig. Как для экономии финансов, так и для быстрого контекстуального ответа.
2. При этом рассматриваются важные аспекты, как не сломать кэширование при масштабировании функций и инструментов, доступных агентам. Ведь новые фичи, как команды и результаты их исполнения, будут попадать в контекст, который они заполняют по определенной стратегии. Поэтому, чтобы не пришлось пересчитывать кэш и не ломать его логику, используется маскирование аля как в constrained output, четкий словарь префиксов, а также пополнение контекста в конце. Еще предупреждают – не стоит вкидывать или удалять новые операции/функции в середину итерации, только после завершения экшена.
3. Приятно, что тут же упомянули, механизмы вызова или добавления функций в виде RAG-механик с description функции, которые аттендятся на контекст. Обычно, это делается через матчинг эмбеддером векторов состояний контекста с описанием действия (функции).
Но учить такой FunctionRanker придется отдельно и ожидать трансфер знаний на лету. Кстати на нашем опыте FRIDA и e5, bge-m3 отлично в zeroshot с этим справляются без дообучения, а с ним и подавно метрики @K летят к 0.99.
4. Использование файловой системы, как памяти. Мое любимое - про память. Авторы предлагают гениально простой способ хранения информации без переполнения локального контекста - в файлах.
Тут же, создатель Мануш говорит об ограничениях моделей SSM, которым не хватает внимания ввиду сродства с RNN/LSTM и происходит затухание памяти на длинных контекстах. Именно гибридизация агентов на базе моделей SSM с памятью на file system может породить новый аналог нейронной машины Тьюринга.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤5👍3
Manus: "Agents and incontext learning is all you need for it."
Продолжение.
5. Декламация/акцентуация внимания агентов и «lost in the middle». Тут все просто, т.к. основной актор это LLM внутри агентов, то мы наследуем проблемы затухания/размывания внимания. Это происходит из-за того, что агенты совершают несколько десятков действий (50 в случае Манус), которые пишутся в контекст. Чтобы фокус не сбивался, агенты этой системы ведут todo.md, куда пишут план и пометки о его выполнении. Этот чек-лист помещается в конец контекста, для сохранения акцентов на цели. А мы помним, last tokens модели с casual mask "помнят/видят" лучше, чем инфо в самом начале.
6. Сохраняйте ошибки. Кстати, в наших работах с памятью - это работает плохо, но тут есть важный нюанс. Ввиду того, что есть трассировки ошибок, и результаты неверного выполнения логируются, вызывая отличные действия, это помогает в контексте модели видеть верный и неверный путь, отодвигая внимание от последнего.Надо записать для себя. Если бы трассировок не было, то конечно неверные экшны ломали бы контекст, как в нашем случае.
Еще очень важный пойнт авторов тут: "восстановление после ошибки — один из самых явных признаков настоящего агентного поведения." Создатели бенчмарков для агентов, задумайтесь!
7. Бойтесь обыденности. Под этим имеется ввиду, не злоупотребляйте few-shot подсказками или промптами. Повторяющиеся шаблоны "запрос-действие" создают рамки, которые могут быть неоптимальными – вызывать зацикливания или даже галлюцинации. Для того, чтобы избежать такого, авторы вносят шум, перестановки слов и разнообразие в формулировки, через специальные инструкции к агентам (возможно, в тч на уровне систем промптов). Таким образом, в лог контекста попадают парафразы, а не синонимы.
Фух, вроде все. Очень интересный мануал-откровение. Читаем подробно сами и перенимаем для своих агентных систем. Хороших выходных.🙏
Продолжение.
5. Декламация/акцентуация внимания агентов и «lost in the middle». Тут все просто, т.к. основной актор это LLM внутри агентов, то мы наследуем проблемы затухания/размывания внимания. Это происходит из-за того, что агенты совершают несколько десятков действий (50 в случае Манус), которые пишутся в контекст. Чтобы фокус не сбивался, агенты этой системы ведут todo.md, куда пишут план и пометки о его выполнении. Этот чек-лист помещается в конец контекста, для сохранения акцентов на цели. А мы помним, last tokens модели с casual mask "помнят/видят" лучше, чем инфо в самом начале.
6. Сохраняйте ошибки. Кстати, в наших работах с памятью - это работает плохо, но тут есть важный нюанс. Ввиду того, что есть трассировки ошибок, и результаты неверного выполнения логируются, вызывая отличные действия, это помогает в контексте модели видеть верный и неверный путь, отодвигая внимание от последнего.
Еще очень важный пойнт авторов тут: "восстановление после ошибки — один из самых явных признаков настоящего агентного поведения." Создатели бенчмарков для агентов, задумайтесь!
7. Бойтесь обыденности. Под этим имеется ввиду, не злоупотребляйте few-shot подсказками или промптами. Повторяющиеся шаблоны "запрос-действие" создают рамки, которые могут быть неоптимальными – вызывать зацикливания или даже галлюцинации. Для того, чтобы избежать такого, авторы вносят шум, перестановки слов и разнообразие в формулировки, через специальные инструкции к агентам (возможно, в тч на уровне систем промптов). Таким образом, в лог контекста попадают парафразы, а не синонимы.
Фух, вроде все. Очень интересный мануал-откровение. Читаем подробно сами и перенимаем для своих агентных систем. Хороших выходных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18🔥1
Forwarded from LLM Arena
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍5❤3😐3
Forwarded from AiConf Channel
Кто делает так, чтобы в программе каждый доклад был по делу и с пользой, соответствовал актуальным вызовам и содержал работающие инструменты?
Это программный комитет AiConf X — опытные практики из мира Data Science, лучшие из лучших в нашей сфере.
Именно они:
🔴 Оценивают глубину и новизну.
🔴 Отбирают то, что будет полезно сегодня на рынке (а он у нас с вами быстро меняется).
🔴 Следят, чтобы в каждом докладе, кейсе, мастер-классе были конкретные цифры и инструменты.
Сегодня хотим познакомить вас с теми, кто создает AiConf Х (и это еще не все, ждите вторую часть команды) — поддержите реакцией🔥
✅Все, что нужно знать о конференции, — на сайте
💬 Подписаться на AiConf X
Это программный комитет AiConf X — опытные практики из мира Data Science, лучшие из лучших в нашей сфере.
Именно они:
И все для того, чтобы вы могли выйти с конференции с фразой «было мощно» и десятками идей и решений, которые возьмете в работу.
Сегодня хотим познакомить вас с теми, кто создает AiConf Х (и это еще не все, ждите вторую часть команды) — поддержите реакцией🔥
✅Все, что нужно знать о конференции, — на сайте
💬 Подписаться на AiConf X
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15❤6😐2👍1🫡1