Embedika | ИТ-решения для бизнеса
449 subscribers
954 photos
5 files
434 links
Научно-ориентированная ИТ-компания, разработчик корпоративных систем на основе технологий обработки естественного языка и машинного обучения. Data science, LegalTech, AI https://embedika.ru
Download Telegram
Оценка качества RAG: практические метрики и подходы

Внедрение RAG-системы — это отправная точка для непрерывного цикла улучшений. Чтобы понимать, насколько решение действительно приносит пользу пользователям и бизнесу, необходимо регулярно измерять качество его работы.

Оценка RAG сложна: корректных ответов может быть несколько, а ошибка способна возникнуть как на этапе извлечения информации (retrieval), так и на этапе генерации (generation). Поэтому для объективной картины требуется набор взаимодополняющих метрик.

Далее ML-инженер в Embedika, Никита Кравчук, расскажет о ключевых подходах, которые применяются на практике.

#мнения
🔥13👍63💯3😍2
Как качество RAG влияет на бизнес-результаты: от метрик к эффекту

Оценка RAG-системы с помощью метрик, которые мы рассматривали в нашем прошлом посте — это не просто техническая процедура. Каждый показатель напрямую связан с эффективностью конкретных бизнес-процессов, затратами и рисками.

Мониторинг качества необходим на всем жизненном цикле решения: от этапа пилота и выбора архитектурных подходов до промышленной эксплуатации и масштабирования.

Сегодня мы наглядно покажем, как изменения в метриках отражаются на реальных бизнес-показателях и почему управление ими становится задачей не только ML-команды, но и бизнеса.

Рассказали больше в карточках к этому посту! 👉
👍9🔥52💯2👏1
🌐 Дайджест новостей в сфере регулирования ИИ со всего мира с начала год от ИИ & Право

Вопросы права и технологий неразрывно связаны. Пока одни разрабатывают алгоритмы, другие создают правила, по которым им предстоит работать. Чтобы быть в курсе того, как меняется нормативная среда и законодательство в сфере ИИ, коллеги из канала ИИ & Право собрали подборку из самых интересных новостей с начала 2026-го года.

🚫 Китай планирует строго регулировать работу ИИ-компаньонов;
⚖️ Франция начала расследование из-за дипфейков, созданных Grok;
🧒 Нью-Йорк предлагает ограничить использование ИИ-чатботов детьми;
🏫 Гонконг выпустил рекомендации по защите школ от дипфейков;
💼 Канадский артист готовит иск против Google за сгенерированную ИИ клевету;
🏛 В январе 2026 года началось применение Регламента 10 DIFC;
📘 Сингапур опубликовал Model AI Governance Framework for Agentic AI;
📜 Ирландия опубликовала национальную схему исполнения Регламента ЕС об ИИ;
🎙 Европейский регулятор персональных данных запускает серию подкастов о ключевых трендах в ИИ;
📖 Опубликован Международный доклад по безопасности ИИ 2026, предупреждающий о реальных угрозах.

В канале регулярно публикуют самые свежие новости о регулировании нейросетей, ИИ-комплаенсе, этических нормах и LegalTech.
Если вам важно понимать не только содержание законов, но и логику регуляторов — подписывайтесь на канал @ai_and_law_rus. Здесь вы всегда найдете оперативные разборы законопроектов и опубликованные документы.
👍8🔥53👏2
Сразу два ИИ-решения от Embedika — в рейтинге CNews!

В CNews опубликовали ежегодный обзор корпоративных ИИ-помощников для автоматизации рабочих задач, поиска и проверки документов. И в этот раз в рейтинг вошли сразу два наших решения — Contract и Cursor.

🔗 Ознакомиться с результатами обзора можно по ссылке.

В исследовании коллеги собрали инструменты для бизнеса, помогающие в написании текстов, поиске информации по базам знаний или проверки документации. Наши продукты выполняют следующие функции:

1️⃣ Contract помогает работать с договорной документацией. Система определяет тип документа, проверяет его по внутренним чек-листам, находит риски и собирает протокол разногласий. Подробно о возможностях сервиса мы рассказывали в нашем канале.

2️⃣ Cursor — система поиска по корпоративным данным с применением технологии RAG. Он объединяет все источники информации в компании и ищет нужное не только по названию файла, но и по смыслу. Узнать о возможностях платформы вы можете в нашем посте с обзором функционала.

Попадание в рейтинг — приятное подтверждение того, что мы движемся в верном направлении 🚀
6🔥6👏3🎉3👍1
Три уровня оценки RAG: ранжирование, генерация с эталонами и без

Недавно мы разобрали, какие метрики помогают диагностировать работу RAG-систем. А сегодня делимся новой статьей на TProger, где наш ML-инженер, Никита Кравчук, поделился методиками оценки еще более подробно и затронул вопросы математики метрик, используемых для оценки поиска и генерации.

В новом материале на TProger разобрали ключевые моменты, которые важно учитывать при оценке RAG. Делимся главным 👇

🔹Внедрение RAG — это не финальная точка, а начало цикла улучшений. Чтобы система действительно приносила пользу бизнесу, нужно точно понимать, где возникают ошибки: на этапе поиска релевантных фрагментов или при формировании ответа. И здесь важен комплексный подход к метрикам.
🔹 Оценка поиска. Для расчета метрик ранжирования необходима эталонная разметка релевантности чанков. MRR учитывает только позицию первого релевантного фрагмента, precision@k оценивает точность в топ-k, а nDCG@k чувствителен к порядку выдачи. Полноту найденных релевантных чанков измеряет recall@k.
🔹 Оценка генерации при наличии эталонов. Если есть датасет правильных ответов, можно использовать такие метрики, как BLEU и ROUGE. Они оценивают совпадение n-грамм токенов, но чрезмерно штрафуют за перефразирование эталонов. BERTScore лишен этого недостатка, так как оценивает семантическую близость через эмбеддинги токенов.
🔹 Оценка генерации без эталонов. Когда собрать эталонные ответы невозможно, применяется подход LLM-as-a-judge. LLM получает промпт с запросом, ответом и критерием оценки, после чего выставляет балл по заданной шкале с обоснованием.

🔗 Полный разбор с формулами и классификацией — в статье на TProger
7🔥7❤‍🔥4💯2
LLM-as-a-judge: как языковые модели оценивают качество ответов

Оценка качества генерации в RAG-системах часто осложняется отсутствием эталонных ответов. Даже когда эталоны есть, вариативность формулировок затрудняет автоматическую проверку. Один из современных подходов к решению этой задачи — использование самой языковой модели в роли судьи. Этот метод называется LLM-as-a-judge и позволяет оценивать ответы RAG-системы по заданным критериям без прямого сравнения с эталоном.

📍 Принцип работы LLM-as-a-judge:
Подход LLM-as-a-judge применим как при наличии эталонных ответов, так и без них. В первом случае модель оценивает, насколько сгенерированный ответ похож на эталонный. Во втором — ответ оценивается по заданному критерию, описанному в промпте. Модель получает на вход запрос, сгенерированный ответ, при необходимости — эталон и контекст, а также шкалу оценивания, и выдает оценку с обоснованием.

📍 Критерии оценивания
В зависимости от бизнес-задачи и требований к системе могут использоваться различные критерии:
🔹 Правильность ответа — оценивает, совпадает ли ответ с правильным решением или явно решает задачу пользователя;
🔹Отсутствие избыточной информации — проверяет, насколько ответ лаконичен и не содержит повторов;
🔹Доступность изложения — определяет, насколько текст понятен широкому кругу пользователей и не содержит излишней сложности.

Для каждого критерия разрабатывается шкала оценивания, где каждое значение (например, от 0 до 2) соответствует определенному уровню соблюдения требований критерия.

📍 Ограничения подхода:
Языковая модель может допускать ошибки при оценке ответов RAG. Для повышения надежности оценок рекомендуется валидация на основе экспертных данных: подготовка датасета с запросами и ответами системы, экспертная разметка, разделение выборок, подбор параметров модели и промпта на валидационной выборке и итоговая проверка на тестовой. Такой подход обеспечивает контролируемую настройку модели и повышает достоверность автоматической оценки качества.
👍7🔥3👏31
Подборка полезных и интересных материалов

Технологии не стоят на месте, и чтобы оставаться в курсе, важно следить не только за новыми релизами, но и за экспертными мнениями и прогнозами . В новой подборке собрали для вас самые свежие материалы об ИИ — от смены технологических трендов до влияния нейросетей на корпоративную культуру.

Статьи:
📎 Интервью «Интерфакса» с Ириной Шелкуновой, руководителем электронной библиотеки «СКАН-Интерфакс», о том, как генеративные модели меняют структуру трафика и перераспределяют влияние между медиа.
📎 Материал РБК: гендиректор по ИИ Ассоциации ФинТех Алексей Сидорюк — о том, прошел ли рынок «яму разочарования» в ИИ в конце 2025 года и что ждет отрасль дальше.
📎 Глава ИИ-направления Microsoft Мустафа Сулейман делится прогнозом с «Ведомостями»: когда ИИ сможет автоматизировать большую часть задач офисных сотрудников.
📎 Колонка в «Ведомостях» от гендиректора Fork-Tech Кристины Коваленко о том, как выстраивать корпоративную культуру при внедрении ИИ.

Заметки в блогах:
✍️ Телеграм-канал Machinelearning о первых попытках использования GPT-5 в судебной практике США.
✍️ CPO Just AI Андрей Грабарник в канале компании объясняет, в чем реальная сила ИИ-агентов и где их применение дает максимум пользы.
✍️ Канал red_mad_robot собрал мнения экспертов о том, в каком направлении будет развиваться R&D в сфере ИИ в 2026 году.

Книги:
📚 «Глубокое обучение», Джон Д. Келлехер — для тех, кто хочет разобраться в архитектуре и принципах работы глубоких нейросетей.
📚 «Нейросети практика», Джейд Картер — руководство для перехода от теории к реальным проектам, от настройки моделей до их внедрения.

Подкасты:
🎤 Академия искусственного интеллекта: как ИИ избавляет от ручного заполнения таблиц и работы с документацией.
🎤 AI4Dev: прагматичный разбор — какие ИИ-инструменты действительно работают в российских компаниях.
🔥8👏53👍2
Как внедрять ИИ так, чтобы он приносил бизнесу реальную пользу, а не просто числился в отчетах? 🤔
Ответ будут искать на программе повышения квалификации от коллег из Нейролаб ЦТИ. Старт — 10 марта 2026.
Это курс для руководителей, аналитиков и IT-специалистов, которые хотят разобраться в управлении ИИ-проектами.

Авторы обещают не только технологию, но и живые кейсы: как ИИ помогает в цифровой трансформации, как управлять инновациями и где прячется рост эффективности.
Всеми важными подробностями делимся в репосте 🔥
👍6🔥32
🔥Как внедрять ИИ, который приносит деньги?

"Накидать" идеи с ChatGPT. Сгенерировать презентацию, не отвлекая дизайнера. Это здорово.

Но это только начало.

Настоящая ценность искусственного интеллекта — в системном внедрении, которое приносит измеримый экономический эффект.


Для этого мы создали практическую программу «Искусственный интеллект: внедрение и управление».

Что внутри?
⭐️ 11 модулей. От основ до практики: стратегия внедрения, проверка решений, безопасность, управление проектами, ИИ-агенты, масштабирование и финансирование.
⭐️ Готовые инструменты: шаблоны, чек-листы и методики, чтобы применять знания сразу после обучения.
⭐️Удостоверение о повышении квалификации государственного образца.


Чему вы научитесь после прохождения курса?
• Выбирать ИИ-решение и проверять его качество (метрики, A/B-тесты).
• Строить дорожную карту, считать ROI и оценивать риски.
• Закрывать вопросы данных, инфраструктуры, безопасности и регуляторики.
• Собирать команду и управлять ИИ-проектом как продуктом.


Кому будет полезен курс?
• Руководителям и тимлидам, уставшим от точечных экспериментов, без результата.
• Специалистам, которым поручили «разобраться с ИИ».
• Всем, кто хочет использовать ИИ в качестве реального инструмента.


Как устроено обучение?
⚙️Формат: Онлайн, 1,5 месяца, два глубоких практических занятия в неделю. Итоговое тестирование
📆Старт: 10 марта 2026.

Регистрация на курс
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏43😁1
Разбор UI-ошибок: как дизайн выстраивает диалог и доверие с пользователем

Компании инвестируют в ИИ для анализа данных и автоматизации, но сотрудники продолжают работать по-старому. Причина часто кроется не в алгоритмах, а в сложном или непонятном интерфейсе.

О том, как правильный дизайн превращает сложные технологии в понятный рабочий инструмент, рассказала Евгения Чистякова, ведущий дизайнер интерфейсов в Embedika, в публикации для TechInsider.


В новом материале разобрали четыре ключевые проблемы, из-за которых ИИ-системы простаивают, и способы их решения. Делимся главным 👇

🔹 Интерфейс не должен скрывать сомнения модели: пользователю важно видеть источники данных и фрагменты с низкой уверенностью, чтобы понимать, где ответ может быть ошибочным.
🔹 Вместо выдачи ответа как готового продукта интерфейс должен оставлять контроль за человеком — через возможность редактирования и кнопки явного согласия вроде «Применить» или «Заменить».
🔹 Прозрачность работы системы критична: статусы обработки запроса, понятные формулировки ошибок и обоснование результатов со ссылками на источники снижают тревожность и повышают доверие к ИИ.
🔹 Обучение должно быть встроено в процесс: примеры запросов, автодополнение и уточняющие вопросы в интерфейсе помогают пользователю осваивать инструмент без чтения инструкций.
🔹 Интерфейс становится ключевым звеном между сложным алгоритмом и пользователем — именно контроль, прозрачность и встроенное обучение превращают ИИ в рабочий инструмент.

🔗 Полный разбор с примерами — в статье на TechInsider
🔥7👏54👍3
Дайджест событий в области искусственного интеллекта

Промышленность, библиотеки, перевозки и создание интерфейсов — в феврале ИИ-технологии проникают в те сферы, где еще недавно не были распространены. Собрали главные новости месяца, чтобы вы оставались в курсе событий.

В России:

🧠 Ученые AIRI и МФТИ создали среду CAMAR для координации, обучения и тестирования алгоритмов множества ИИ-агентов.
🤖 «Т-Технологии» представили ИИ-инструмент для анализа разговоров сотрудников с клиентами в офлайн-точках для контроля качества сервиса.
🚛 «Яндекс» в этом году планирует запустить 70 автономных грузовиков, 200 беспилотных такси и 5 тыс. роверов.
🎓 «Сибур» и Центральный университет создадут кафедру ИИ и образовательную программу для подготовки кадров под производственные и бизнес-задачи.

В мире:
🤝 Samsung расширил мультиагентную экосистему Galaxy AI, добавив в нее ИИ-модель Perplexity. Пользователи смогут выбирать предпочтительного ассистента.
🆕 Google выпустила Gemini 3.1 Pro: модель заточена под сложные задачи рассуждения и анализа больших объемов данных.
🎨 Figma и Anthropic представили функцию Code to Canvas — она превращает код, написанный нейросетью, в готовые интерфейсы внутри редактора.
🎧 Google Docs теперь умеет собирать аудиосаммари текстов. Функция позволяет слушать краткое содержание документа, а не читать его целиком.

Аналитика:
💰 В Yadro подсчитали, что в 2025 году российские компании потратили около 60 млрд руб. на закупку серверов, оптимизированных под ИИ-нагрузки.
📊 Глава ИИ-направления в Microsoft, Мустафа Сулейман, считает, что в ближайшие 12-18 месяцев нейросети смогут автоматизировать большинство рутинных задач офисных сотрудников.
📈 Опрос UserGate показал, что 97% российских компаний уже используют ИИ, либо тестируют пилоты. Чаще всего технологии применяют для генерации отчетов и аналитики (42%).

#дайджест
👍52🔥2💯2