LLM Arena
1.04K subscribers
59 photos
1 video
65 links
llmarena.ru - открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке
Download Telegram
🎨 Запускаем Text-to-Image Арену!

Text-to-Image Арена — открытая платформа, где каждый может поучаствовать в формировании рейтинга моделей, создающих изображения по тексту.

Рейтинг строится методом краудсорсинга: пользователи оценивают результаты генераций, что делает итоговый лидерборд наиболее объективным и приближённым к реальности.

Какие модели доступны?

➡️ YandexART 2.5 и YandexART 2.5 ULTRA
➡️ Kandinskiy
➡️ Ideogram
➡️ Imagen 3.0
➡️ Recraft V3

Зачем это нужно?

❤️ Создать независимый рейтинг генеративных моделей, который отражает реальные предпочтения пользователей.
❤️ Внедрить новый подход к img-бенчмаркингу в России — с реальными голосами, открытыми промптами и возможностью оперативно оценивать качество моделей.
❤️ Сформировать базу релевантных запросов от российских пользователей, учитывающую культурный и языковой контекст.


➡️ Присоединяйтесь к Арене и помогите выяснить, какая модель лучше справляется с промптом!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍3
Как на самом деле устроены современные большие языковые модели? 🧐

С момента выхода GPT прошло уже семь лет, и технологии шагнули далеко вперед. Но что именно изменилось в архитектуре моделей, которые мы используем сегодня?

Наша новая статья на Хабре проливает свет на эволюцию LLM — от классических решений до прорывных технологий в DeepSeek V3 и Llama 4.

Из статьи вы узнаете:

➡️Что такое Mixture-of-Experts (MoE) и почему эта технология так важна для моделей с сотнями миллиардов параметров.
➡️Какие преимущества даёт Multi-Head Latent Attention (MLA) по сравнению с традиционными подходами.
➡️Почему открытые модели, как OLMo 2, играют ключевую роль в развитии всей индустрии.

Если вам интересно, что находится “под капотом” современных нейросетей — эта статья для вас.

🔗 Читать тут: https://habr.com/ru/articles/931382/
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍65🔥4
Вы просили — мы сделали! Обновили бенчмарк Pollux от AGI NLP SberAI

Недавно мы запустили на нашей платформе бенчмарк Pollux, разработанный командой AGI NLP SberAI, и он сразу вызвал большой интерес. Напомним, в чём его особенность:

POLLUX — это не классический тест, а 2100 уникальных творческих задач (от написания сказок до анализа кода), созданных вручную для реалистичной оценки AI. Модели оценивают 4 дообученных судьи (LM-as-a-Judge), которые не просто ставят балл, а объясняют его.Мы внимательно прочитали все ваши предложения и расширили бенчмарк, теперь в нём 40 моделей, включая RuAdapt Qwen, Vikhr и другие!


Спасибо за ваш вклад — этот апдейт стал возможен благодаря вам!

🔗 Полный список добавленных моделей и обновлённый лидерборд — по ссылке.
👍7🔥5👏3
🏆 Подводим итоги битвы этого месяца!

Огромное спасибо всем за участие! Эта битва была по-настоящему напряженной, и мы с огромным интересом ежедневно следили, как меняется наш "Зал славы". Каждый ваш голос был важен и мог изменить исход!

Но правила есть правила, и победители есть победители. Мы готовы объявить счастливчиков, которые получают заветную подписку Telegram Premium!

Вот наши герои месяца:

1. mu********ot
2. an****y
3. Ca****5
4. J***
5. Ele*******a
6. Ana**************ina
7. le*****5
8. usv******e
9. Vya*************1
10. hel******3


Мы скоро свяжемся с победителями в личных сообщениях для вручения призов (убедитесь, что у вас не стоит никаких ограничений для личных сообщений) 🎁

Оставайтесь с нами и до новых встреч!
👍3👏3🔥1
🔥Новые модели в LLM Arena!

Добавили сразу 4 модели:

Claude 4.1 — новая версия флагмана от Anthropic.
Kimi K2 — мощнейшая открытая модель от Moonshot AI (1 трлн параметров!).
GPT-OSS-120B и GPT-OSS-20B — первые открытые модели OpenAI.


Тестируйте, сравнивайте и делитесь впечатлениями!

Не забудьте проголосовать за лучшие ответы!
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👍5
❗️Скоро на Арене появится GPT-5

Следите за обновлениями и будьте первыми, кто попробует инновацию в действии!

➡️llmarena.ru

___

UPD. GPT-5-chat доступен для всех пользователей!
Please open Telegram to view this post
VIEW IN TELEGRAM
2👻8👍63👎1
Успели попробовать GPT-5 в действии?

Хотим почитать ваши впечатления, делитесь ими в комментариях под этим постом 👇
👍1
🤖Написали новый материал, в котором разбираем архитектуру RAG

Что внутри?

- Архитектура RAG: Этапы работы от индексации до генерации, с примерами (например, как ответить на вопрос о победах Аргентины в футболе).
- Инструменты и фреймворки: Векторные БД (Faiss, Milvus, Pinecone и др.), LangChain, LlamaIndex и Haystack.
- Примеры кода на Python: Практические сниппеты с LangChain (FAISS + OpenAI) и LlamaIndex для создания RAG-систем.
- Кейсы применения: Чат-боты, поиск по документам, поддержка клиентов, медицина и юриспруденция.
- Вызовы и лучшие практики: Релевантность поиска, скорость, конфиденциальность, сравнение с fine-tuning LLM.
- Перспективы: Agentic RAG, мультимодальные системы и интеграция с БД.


Статья полна технических деталей, сравнений и выводов — идеально для разработчиков, кто хочет внедрить RAG в свои проекты.

➡️Читайте полную статью здесь: https://habr.com/ru/articles/931396/

Что думаете о RAG? Делитесь в комментариях! 💬
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥42
🆕 Обновили категории в нашем рейтинге

Представляем новый функционал «Таблицы лидеров» — рейтинги по категориям.

Теперь вы можете оценить способности моделей в четырёх специализированных областях, а не только в общем зачёте.
Рейтинги обновляются динамически на основе реальных пользовательских запросов, обеспечивая актуальность результатов.

Категории для сравнения:

- Математика — от арифметики до сложных вычислений;
- Программирование — качество и точность генерации кода;
- Креативное письмо — творческий потенциал в создании текстов;
- Наука и технологии — от космонавтики до возобновляемой энергетики.


На данный момент во всех категориях лидерство удерживает Gemini 2.5.

Как найти категории?

1. Перейдите в "Таблицу лидеров".
2. В шапке таблицы найдите раздел "Category".
3. Выберите нужную категорию и рейтинг автоматически обновится

Теперь вы сможете точечно сравнивать модели в тех сферах, которые важны именно вам.

➡️ Попробуйте прямо сейчас: https://llmarena.ru/?leaderboard

А какие категории было бы интересно увидеть ещё? Делитесь идеями в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍82👏2
Forwarded from GK trips (George Korepanov)
Небольшое пост-расследование про LLM-модели 🤖

Немного контекста. Мы с моим другом Каримом часто разгоняем мысль, что мы живём в уникальное время и можем наблюдать беспрецедентное соревнование между компаниями, обучающими LLM-модели. Обычно компании соревнуются неявно, и качество их продуктов никто напрямую не оценивает (например, нет объективных метрик, показывающих, чей поиск лучше — Google, Яндекса или Bing).
А в LLM-мире есть конкретные бенчмарки, и при релизе очередной модели каждая компания публикует результаты по ним. То есть мы буквально наблюдаем за гонкой, как на скачках 🏇 (только ставки в миллионы раз выше).

Среди прочих, есть такой бенчмарк — SWE-bench-verified (https://openai.com/index/introducing-swe-bench-verified/), который проверяет, как модели в агентном режиме способны фиксить баги в реальных больших open-source репозиториях. Разумеется, и Google, и Anthropic, и OpenAI публикуют скоры своих моделей на SWE-bench. На данный момент фигурируют такие числа:
OpenAI GPT-5: 74.9%
Anthropic Opus 4.1: 74.5% 📊

Казалось бы, всё очевидно и понятно — кто лучше, кто хуже. Но твиттер кипит: OpenAI проверяют свою модель не на всех 500 задачах, а на 477! И значит, «реальный» результат GPT-5 — 71%!
Это отчасти правда: OpenAI действительно не проверяли модель на всём наборе. И это действительно обесценивает сравнение, потому что мы сопоставляем тёплое с мягким, ведь мы не знаем, как GPT-5 повела бы себя на 23 непокрытых задачах.

Я решил разобраться в вопросе и копнуть глубже, чтобы понять, какие метрики были бы «справедливыми». К счастью, мне не пришлось прогонять бенчмарк руками: есть компания Epoch.AI, которая независимо прогоняет SWE-bench-verified на всех 500 задачах и публикует скоры для каждой модели. По её замерам GPT-5 набирает 59%, а Opus 4.1 — 63%. Помимо итоговых метрик Epoch.AI выложила логи запусков каждой модели на каждой задаче, и можно глазами отследить, что происходило. Разница с официальными числами некислая, к тому же Opus вырвался вперед. Тут явно что-то нечисто, поэтому я спарсил данные с их сайта и сделал небольшой анализ.
🔥6👍5
Forwarded from GK trips (George Korepanov)
Загибайте пальцы — сколько дичи нашлось 🕵️‍♂️:

1. Лимит в 1M токенов на задачу. Epoch.AI для каждой модели установила порог: как только модель потратила миллион токенов, её останавливают и имеющиеся в коде изменения прогоняют через автотесты. То есть даже если модель двигалась в верном направлении, в какой-то момент у неё забирают работу (как тетрадку на контрольной после звонка 😅) и проверяют то, что она успела сделать. В итоге Opus не успел закончить работу примерно в 80% задач, а GPT-5 — в ~40%.
Пример — задача astropy__astropy-13977: GPT-5 просто не успела внести нужные правки. Почему так? В SWE-bench используются кривоватые инструменты редактирования и чтения кода, которые часто приходится вызывать несколько раз, прежде чем они сработают.

2. Задача astropy__astropy-13033. GPT-5 справилась с требованием задачи и смогла сделать так, чтобы при некорректных действиях пользователя код падал с определённой ошибкой. Но тесты бенчмарка проверяют, что сообщение об ошибке содержит конкретный текст, а GPT-5 использовала другую формулировку. Селяви, задача не засчитана. Аналогично в sympy__sympy-13852: тесты проверяют исправление не только того бага, который описан в исходном issue, но и нескольких других, и в результате модели тоже получают незачёт.

3. Задача sympy__sympy-13091. Opus задачу не решил: посадил новый баг, из-за которого в одном из тестов случилось переполнение стека (бесконечная рекурсия). Но задачка засчиталась 🙂
Другой пример: scikit-learn__scikit-learn-14710 — GPT-5 задачу решил(!), но она не засчиталась, т.к. тест просто завис.

4. django__django-15127. Opus очень грамотно предложил три варианта решения и выбрал первый. Однако тесты проверяли, что решение будет строго определённым. Не угадал — не засчитали. Похоже на преподавателя, который требует от студента доказательство «как на лекции».

5. scikit-learn__scikit-learn-14629. Здесь я уже смеялся вслух. С одной стороны, кейс похож на предыдущий: в этот раз GPT-5 избрала определённый метод решения, а тесты ожидали другой, конкретный способ — такой, какой был у автора багфикса. Мне стало интересно, как же тогда эту задачу решил Opus. Оказалось, он написал код, символ-в-символ совпадающий с тем, который написали люди в 2019 году при закрытии бага (https://github.com/scikit-learn/scikit-learn/issues/14615). Неудивительно: это open-source код, и все LLM-модели на нём обучались. Спекулирую, что Opus существенно «крупнее», чем GPT-5, и просто лучше «помнит» исходный код библиотеки. В целом бенчмарк, в котором все (!) задачи взяты из open-source библиотек, на которых обучались все без исключения модели, — это не очень хорошая идея 😅

6. django__django-16642. Обе модели решили, но GPT-5 использовала современное название MIME-типа — application/brotli, а Opus — устаревшее application/x-brotli. Знаете, кто победил? Конечно, Opus! 🤷‍♂️
🔥4👍1
Forwarded from GK trips (George Korepanov)
Ну вы уже поняли тенденцию, да?

Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.

И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.

Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.

tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже.
🔥15👏4
Добавили 2 модели на LLM Arena:

Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.

Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.

👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.
1👍9🔥1
❗️Добавили отдельный фильтр для российских моделей на лидерборде — теперь можно наглядно сравнивать их между собой и видеть, какая RU-LLM показывает лучшие результаты.

На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.

Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".
1👍13🔥74
Можно ли воспроизвести рейтинг LLM силами краудсорсинга?

Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?

Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.

Мы разработали систему фильтрации аннотаторов и промптов, научились отсекать фрод и «мусор», и теперь можем быстро выдавать предрейтинг новых моделей ещё до массового запуска.

Читайте на Хабре: Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM? В статье — подробности эксперимента, препятствия и находки, метрики, графики и два открытых датасета для исследований.

👏Особую благодарность за помощь в проведении эксперимента и консультировании выражаем Александру Кукушкину @alexkuk!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9🔥4💯2
На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны.

1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.

Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. ⛓️ Канал «Роман с данными»

2. Что можно делать на llmarena.ru

👀Тестировать свои задачи — анонимно для большей объективности. Отправляйте разные промпты и ставьте оценки. Именно из ваших голосов формируется рейтинг LLM для русскоязычных кейсов. ⛓️ Арена (анонимно)

👀Сравнивать передовые LLM. У нас доступны российские и зарубежные решения для A/B-тестирования. Отдельные модели развёрнуты нами эксклюзивно и недоступны на других платформах. ⛓️ Арена (сравнение)

👀Следить за рейтингами и авторскими бенчмарками. Регулярно публикуем рейтинги LLM и t2i-моделей и дополняем их авторскими бенчмарками ⛓️ Таблица лидеров

3. Полезные кейсы и материалы

Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.
Исследование про LLM-бенчмарки — о том, как команды походят к выбору моделей под свои бизнес-сценарии.

4. Чем можем быть полезны и как связаться

Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити

Наш мини-апп
Наш Хабр
Наши услуги
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍7🔥3
📈Рейтинги LLM теряют доверие

Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.

👀 Ключевые данные:

— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.

— 26,7% принципиально не опираются на рейтинги.

— Лишь около 18% обращаются к агрегаторам по типу llmstats

Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой

📄Отдельная ценность исследования — мы постарались отразить мнение участников рынка таким, какое оно есть: с аргументами «за» и «против», со скепсисом и практическими отзывами. Полный отчёт с графиками, аналитикой и комментариями уже доступен на сайте.

P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6👌4
Новый Qwen3-Max и Sentiment control

ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).

Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.

🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.

Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍75🔥3
Добавили Claude Sonnet 4.5 — новая модель от Anthropic. Она лучше справляется с кодом, прикладными задачами, а также заметно прибавила в математике и логике.

📈 На тестах Sonnet 4.5 уверенно обходит прошлые версии: 77% в кодинге (против 74,5% у Opus 4.1), 61% в задачах по работе с компьютером (OSWorld) (+17% к Opus 4.1). Также выросли показатели в reasoning и многоязычных задачах, но главное — модель стала лучше именно в агентных функциях.

💬 Нам нужны ваши голоса на анонимной арене, так модель быстрее попадет в рейтинг.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍52
Forwarded from Роман с данными
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳

Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.

❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.

Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.

Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям.
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.

Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
1👍7🔥4👏2