DATApedia | Data science

Как большие языковые модели планируют свои ответы еще до их генерации

Привет, Хабр! Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?

Читать | DATApedia

673 views09:16

Путешествие токена: что конкретно происходит внутри трансформера

Из этой статьи вы узнаете о том, как трансформеры преобразуют входные данные в контекстно-зависимые представления и, в итоге, выдают вероятности, влияющие на выбор слов, которые генерируют большие языковые модели.

Читать | DATApedia

794 views09:51

DATApedia | Data science

Как системному аналитику перейти в дата-аналитику: советы из личного опыта

Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.

Читать | DATApedia

❤2

721 views08:23

DATApedia | Data science

Проверяем качество ИИ без сложной математики

Представьте, что ваша команда только что получила доступ к новейшей AI-модели или внедрила умный чат-бот. Коллеги в восторге от точности, скорости и функциональности инструмента. Но как понять, насколько он действительно хорош?

Читать | DATApedia

👍1

744 views09:58

DATApedia | Data science

😁4

658 views08:30

DATApedia | Data science

Книги, видео и курсы для изучения ML

Собрали бесплатные ресурсы, которые позволят погрузиться в работу с искусственным интеллектом — как для новичков, так и для тех, кто уже работает с ML и хочет углубить знания.

Читать | DATApedia

678 views09:30

DATApedia | Data science

Метрики для задач NLP. Часть 1. Классификация, NER, Кластеризация

В этой статье будет рассказано о популярных метриках для NLP-задач: классификации текста, NER и кластеризации. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

Читать | DATApedia

700 views09:31

DATApedia | Data science

Создаем простую систему RAG на Python

Представьте, что вы предоставляете своему ИИ конкретные релевантные документы (или фрагменты), которые он может быстро просмотреть, чтобы найти необходимую информацию, прежде чем ответить на ваши вопросы. То есть, вместо поиска по всей базе данных (которая может не поместиться в контекстное окно модели LLM, или даже если поместится, это потребует много токенов для ответов), мы предоставляем LLM только релевантные документы (фрагменты), которые ему необходимо найти, чтобы ответить на вопрос пользователя.

Читать | DATApedia

814 views07:34

DATApedia | Data science

Claude Opus 4.5 и конец привычной разработки

Статья о том, почему Claude Opus 4.5 стал переломным моментом в ИИ-разработке. Автор на реальных проектах показывает, как ИИ-агенты уже сегодня способны собирать полноценные приложения — от UI до бэкенда — за считанные часы, и рассуждает о том, зачем человеку вообще читать код в мире AI-first разработки.

Читать | DATApedia

👍1

657 views07:49

DATApedia | Data science

Функция потерь: как алгоритм понимает, что он ошибся

Представьте, что вы играете в дартс. Сначала ваши дротики разлетаются по всей мишени, но с каждой попыткой вы постепенно приближаетесь к заветному центру. Человек интуитивно понимает, что нужно скорректировать бросок: сильнее, выше, левее или правее. Примерно так же работает и алгоритм машинного обучения. Только вместо интуиции там есть функция потерь.

Читать | DATApedia

597 views08:57

DATApedia | Data science

🔥 Твоя статья может принести 1 миллион рублей!

ВТБ и Институт ИИ МГУ открыли прием заявок на конкурс Data Fusion Awards для data scientists и ML-исследователей. Ищут лучшие научные статьи 2025 года по ИИ.

Зачем участвовать:
🔵 Продемонстрировать прорыв в математике ИИ, оптимизации или глубоком обучении
🔵Получить признание от лидеров отрасли
🔵 Забрать до 1 млн рублей из призового фонда 3 млн
🔵 Усилить резюме аффилиацией с топ-конкурсом

👉 Подавать заявку до конца января на сайте

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

1.04K views15:00

DATApedia | Data science

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

Владимир Крылов, профессор математики, научный консультант Artezio и один из самых глубоких русскоязычных экспертов по применению ИИ в разработке, дал интервью по итогам года. Мы поговорили о том, почему reasoning-модели галлюцинируют вдвое чаще обычных (и это математически неизбежно), почему OpenAI объявил «код красный» и отстаёт от Google, и правда ли, что программисты, умеющие писать код только руками, скоро вымрут как вид. Спойлер: Паваротти не умел читать ноты, и это кое-что говорит о будущем vibe-coding.

Читать | DATApedia

700 views12:45

DATApedia | Data science

Анатомия трансформеров: почему обычный Self-Attention больше не используют

В этой статье я постараюсь рассказать, как механизм внимания помогает языковым моделям обрабатывать тысячи слов контекста и почему с этим не справлялись в свое время обычные RNN. В конце статьи я расскажу про проблемы классического attention и современные адаптации.

Читать | DATApedia

734 views10:04

DATApedia | Data science

😁2

672 views09:06

DATApedia | Data science

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Сказ о том, как после долгого перерыва я "взял в руки шашки" (поучаствовал в ML-соревновании) и дотащил задачу на "таблички" до первого места на финальном "приватном" лидерборде с помощью простейшей подготовки фич и классической линейной регрессии с регуляризацией, внезапно обогнав при этом всех модных катбустеров, банально переобучившихся на "паблике".

Читать | DATApedia

👍3

694 views09:09

DATApedia | Data science

Топ нейросетей и ИИ-сервисов 2026 года: лучшие ИИ-инструменты

В этом обзоре вы найдёте не только известных гигантов вроде ChatGPT 5.2 или Gemini 3, но и другие решения: ChatPDF для документов, SlidesAI для слайдов, Suno для музыки и отечественного “Кандинского” для изображений.

Читать | DATApedia

592 views06:56

DATApedia | Data science

Как оптимизация промптов превратилась из шаманства в инженерную дисциплину

Ещё пару лет назад промпт-инжиниринг выглядел как подбор удачного заклинания: "а давай добавим think step by step, "а давай попросим быть аккуратнее" и о приправим xml-тегами".
Сегодня это типовая задача оптимизации в условиях чёрного ящика.
Промпт -> это не текст, а параметр модели, и оптимизировать его нужно алгоритмически, а не интуитивно.

Читать | DATApedia

483 views09:31

DATApedia | Data science

Anthropic создала монстра: как самая безопасная компания выпустила самую безрассудную модель

В этой короткой статье вы узнаете и о реальной опасности, которой подвергают нас эти новые, мощные ИИ, и о вполне обыденном, не-фантастическом объяснении того, почему ИИ лгут, шантажируют или действуют безрассудно — всё простыми словами, чтобы вы поняли.

Читать | DATApedia

628 views09:06

DATApedia | Data science

Обзор на Claude Opus 4.6: разбор модели, тесты и сравнение

В этой статье мы обсудим, что именно изменилось в версии 4.6 Opus. Мы разберем возможности модели в программировании, анализе данных и работе с автономными функциями.

Читать | DATApedia

507 views14:02

DATApedia | Data science

Как векторные базы данных налаживают взаимопонимание между человечеством и роботами

Если в вашем проекте пользователи ищут данные не по точным ключевым запросам, а по смыслу, эта статья для вас. В ней мы расскажем, как работают векторные базы данных, для каких проектов они нужны и как выбрать подходящую в зависимости от задач.

Читать | DATApedia

517 views07:23

About

Blog

Apps

Platform