Text-to-Image Арена — открытая платформа, где каждый может поучаствовать в формировании рейтинга моделей, создающих изображения по тексту.
Рейтинг строится методом краудсорсинга: пользователи оценивают результаты генераций, что делает итоговый лидерборд наиболее объективным и приближённым к реальности.
Какие модели доступны?
Зачем это нужно?❤️ Создать независимый рейтинг генеративных моделей, который отражает реальные предпочтения пользователей.❤️ Внедрить новый подход к img-бенчмаркингу в России — с реальными голосами, открытыми промптами и возможностью оперативно оценивать качество моделей.❤️ Сформировать базу релевантных запросов от российских пользователей, учитывающую культурный и языковой контекст.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👍3
Как на самом деле устроены современные большие языковые модели? 🧐
С момента выхода GPT прошло уже семь лет, и технологии шагнули далеко вперед. Но что именно изменилось в архитектуре моделей, которые мы используем сегодня?
Наша новая статья на Хабре проливает свет на эволюцию LLM — от классических решений до прорывных технологий в DeepSeek V3 и Llama 4.
Из статьи вы узнаете:
➡️ Что такое Mixture-of-Experts (MoE) и почему эта технология так важна для моделей с сотнями миллиардов параметров.
➡️ Какие преимущества даёт Multi-Head Latent Attention (MLA) по сравнению с традиционными подходами.
➡️ Почему открытые модели, как OLMo 2, играют ключевую роль в развитии всей индустрии.
Если вам интересно, что находится “под капотом” современных нейросетей — эта статья для вас.
🔗 Читать тут: https://habr.com/ru/articles/931382/
С момента выхода GPT прошло уже семь лет, и технологии шагнули далеко вперед. Но что именно изменилось в архитектуре моделей, которые мы используем сегодня?
Наша новая статья на Хабре проливает свет на эволюцию LLM — от классических решений до прорывных технологий в DeepSeek V3 и Llama 4.
Из статьи вы узнаете:
Если вам интересно, что находится “под капотом” современных нейросетей — эта статья для вас.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6❤5🔥4
Вы просили — мы сделали! Обновили бенчмарк Pollux от AGI NLP SberAI
Недавно мы запустили на нашей платформе бенчмарк Pollux, разработанный командой AGI NLP SberAI, и он сразу вызвал большой интерес. Напомним, в чём его особенность:
Спасибо за ваш вклад — этот апдейт стал возможен благодаря вам!
🔗 Полный список добавленных моделей и обновлённый лидерборд — по ссылке.
Недавно мы запустили на нашей платформе бенчмарк Pollux, разработанный командой AGI NLP SberAI, и он сразу вызвал большой интерес. Напомним, в чём его особенность:
POLLUX — это не классический тест, а 2100 уникальных творческих задач (от написания сказок до анализа кода), созданных вручную для реалистичной оценки AI. Модели оценивают 4 дообученных судьи (LM-as-a-Judge), которые не просто ставят балл, а объясняют его.Мы внимательно прочитали все ваши предложения и расширили бенчмарк, теперь в нём 40 моделей, включая RuAdapt Qwen, Vikhr и другие!
Спасибо за ваш вклад — этот апдейт стал возможен благодаря вам!
🔗 Полный список добавленных моделей и обновлённый лидерборд — по ссылке.
👍7🔥5👏3
🏆 Подводим итоги битвы этого месяца!
Огромное спасибо всем за участие! Эта битва была по-настоящему напряженной, и мы с огромным интересом ежедневно следили, как меняется наш "Зал славы". Каждый ваш голос был важен и мог изменить исход!
Но правила есть правила, и победители есть победители. Мы готовы объявить счастливчиков, которые получают заветную подписку Telegram Premium!
Вот наши герои месяца:
Мы скоро свяжемся с победителями в личных сообщениях для вручения призов (убедитесь, что у вас не стоит никаких ограничений для личных сообщений) 🎁
Оставайтесь с нами и до новых встреч! ✨
Огромное спасибо всем за участие! Эта битва была по-настоящему напряженной, и мы с огромным интересом ежедневно следили, как меняется наш "Зал славы". Каждый ваш голос был важен и мог изменить исход!
Но правила есть правила, и победители есть победители. Мы готовы объявить счастливчиков, которые получают заветную подписку Telegram Premium!
Вот наши герои месяца:
1. mu********ot
2. an****y
3. Ca****5
4. J***
5. Ele*******a
6. Ana**************ina
7. le*****5
8. usv******e
9. Vya*************1
10. hel******3
Мы скоро свяжемся с победителями в личных сообщениях для вручения призов (убедитесь, что у вас не стоит никаких ограничений для личных сообщений) 🎁
Оставайтесь с нами и до новых встреч! ✨
👍3👏3🔥1
Добавили сразу 4 модели:
• Claude 4.1 — новая версия флагмана от Anthropic.
• Kimi K2 — мощнейшая открытая модель от Moonshot AI (1 трлн параметров!).
• GPT-OSS-120B и GPT-OSS-20B — первые открытые модели OpenAI.
Тестируйте, сравнивайте и делитесь впечатлениями!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6👍5
Следите за обновлениями и будьте первыми, кто попробует инновацию в действии!
➡️llmarena.ru
___
UPD. GPT-5-chat доступен для всех пользователей!
Please open Telegram to view this post
VIEW IN TELEGRAM
2👻8👍6❤3👎1
Что внутри?
- Архитектура RAG: Этапы работы от индексации до генерации, с примерами (например, как ответить на вопрос о победах Аргентины в футболе).
- Инструменты и фреймворки: Векторные БД (Faiss, Milvus, Pinecone и др.), LangChain, LlamaIndex и Haystack.
- Примеры кода на Python: Практические сниппеты с LangChain (FAISS + OpenAI) и LlamaIndex для создания RAG-систем.
- Кейсы применения: Чат-боты, поиск по документам, поддержка клиентов, медицина и юриспруденция.
- Вызовы и лучшие практики: Релевантность поиска, скорость, конфиденциальность, сравнение с fine-tuning LLM.
- Перспективы: Agentic RAG, мультимодальные системы и интеграция с БД.
Статья полна технических деталей, сравнений и выводов — идеально для разработчиков, кто хочет внедрить RAG в свои проекты.
Что думаете о RAG? Делитесь в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤2
Представляем новый функционал «Таблицы лидеров» — рейтинги по категориям.
Теперь вы можете оценить способности моделей в четырёх специализированных областях, а не только в общем зачёте.
Рейтинги обновляются динамически на основе реальных пользовательских запросов, обеспечивая актуальность результатов.
Категории для сравнения:
- Математика — от арифметики до сложных вычислений;
- Программирование — качество и точность генерации кода;
- Креативное письмо — творческий потенциал в создании текстов;
- Наука и технологии — от космонавтики до возобновляемой энергетики.
На данный момент во всех категориях лидерство удерживает Gemini 2.5.
Как найти категории?
1. Перейдите в "Таблицу лидеров".
2. В шапке таблицы найдите раздел "Category".
3. Выберите нужную категорию и рейтинг автоматически обновится
Теперь вы сможете точечно сравнивать модели в тех сферах, которые важны именно вам.
➡️ Попробуйте прямо сейчас: https://llmarena.ru/?leaderboard
А какие категории было бы интересно увидеть ещё? Делитесь идеями в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8❤2👏2
Forwarded from GK trips (George Korepanov)
Небольшое пост-расследование про LLM-модели 🤖
Немного контекста. Мы с моим другом Каримом часто разгоняем мысль, что мы живём в уникальное время и можем наблюдать беспрецедентное соревнование между компаниями, обучающими LLM-модели. Обычно компании соревнуются неявно, и качество их продуктов никто напрямую не оценивает (например, нет объективных метрик, показывающих, чей поиск лучше — Google, Яндекса или Bing).
А в LLM-мире есть конкретные бенчмарки, и при релизе очередной модели каждая компания публикует результаты по ним. То есть мы буквально наблюдаем за гонкой, как на скачках 🏇 (только ставки в миллионы раз выше).
Среди прочих, есть такой бенчмарк — SWE-bench-verified (https://openai.com/index/introducing-swe-bench-verified/), который проверяет, как модели в агентном режиме способны фиксить баги в реальных больших open-source репозиториях. Разумеется, и Google, и Anthropic, и OpenAI публикуют скоры своих моделей на SWE-bench. На данный момент фигурируют такие числа:
OpenAI GPT-5: 74.9%
Anthropic Opus 4.1: 74.5% 📊
Казалось бы, всё очевидно и понятно — кто лучше, кто хуже. Но твиттер кипит: OpenAI проверяют свою модель не на всех 500 задачах, а на 477! И значит, «реальный» результат GPT-5 — 71%!
Это отчасти правда: OpenAI действительно не проверяли модель на всём наборе. И это действительно обесценивает сравнение, потому что мы сопоставляем тёплое с мягким, ведь мы не знаем, как GPT-5 повела бы себя на 23 непокрытых задачах.
Я решил разобраться в вопросе и копнуть глубже, чтобы понять, какие метрики были бы «справедливыми». К счастью, мне не пришлось прогонять бенчмарк руками: есть компания Epoch.AI, которая независимо прогоняет SWE-bench-verified на всех 500 задачах и публикует скоры для каждой модели. По её замерам GPT-5 набирает 59%, а Opus 4.1 — 63%. Помимо итоговых метрик Epoch.AI выложила логи запусков каждой модели на каждой задаче, и можно глазами отследить, что происходило. Разница с официальными числами некислая, к тому же Opus вырвался вперед. Тут явно что-то нечисто, поэтому я спарсил данные с их сайта и сделал небольшой анализ.
Немного контекста. Мы с моим другом Каримом часто разгоняем мысль, что мы живём в уникальное время и можем наблюдать беспрецедентное соревнование между компаниями, обучающими LLM-модели. Обычно компании соревнуются неявно, и качество их продуктов никто напрямую не оценивает (например, нет объективных метрик, показывающих, чей поиск лучше — Google, Яндекса или Bing).
А в LLM-мире есть конкретные бенчмарки, и при релизе очередной модели каждая компания публикует результаты по ним. То есть мы буквально наблюдаем за гонкой, как на скачках 🏇 (только ставки в миллионы раз выше).
Среди прочих, есть такой бенчмарк — SWE-bench-verified (https://openai.com/index/introducing-swe-bench-verified/), который проверяет, как модели в агентном режиме способны фиксить баги в реальных больших open-source репозиториях. Разумеется, и Google, и Anthropic, и OpenAI публикуют скоры своих моделей на SWE-bench. На данный момент фигурируют такие числа:
OpenAI GPT-5: 74.9%
Anthropic Opus 4.1: 74.5% 📊
Казалось бы, всё очевидно и понятно — кто лучше, кто хуже. Но твиттер кипит: OpenAI проверяют свою модель не на всех 500 задачах, а на 477! И значит, «реальный» результат GPT-5 — 71%!
Это отчасти правда: OpenAI действительно не проверяли модель на всём наборе. И это действительно обесценивает сравнение, потому что мы сопоставляем тёплое с мягким, ведь мы не знаем, как GPT-5 повела бы себя на 23 непокрытых задачах.
Я решил разобраться в вопросе и копнуть глубже, чтобы понять, какие метрики были бы «справедливыми». К счастью, мне не пришлось прогонять бенчмарк руками: есть компания Epoch.AI, которая независимо прогоняет SWE-bench-verified на всех 500 задачах и публикует скоры для каждой модели. По её замерам GPT-5 набирает 59%, а Opus 4.1 — 63%. Помимо итоговых метрик Epoch.AI выложила логи запусков каждой модели на каждой задаче, и можно глазами отследить, что происходило. Разница с официальными числами некислая, к тому же Opus вырвался вперед. Тут явно что-то нечисто, поэтому я спарсил данные с их сайта и сделал небольшой анализ.
🔥6👍5
Forwarded from GK trips (George Korepanov)
Загибайте пальцы — сколько дичи нашлось 🕵️♂️:
1. Лимит в 1M токенов на задачу. Epoch.AI для каждой модели установила порог: как только модель потратила миллион токенов, её останавливают и имеющиеся в коде изменения прогоняют через автотесты. То есть даже если модель двигалась в верном направлении, в какой-то момент у неё забирают работу (как тетрадку на контрольной после звонка 😅) и проверяют то, что она успела сделать. В итоге Opus не успел закончить работу примерно в 80% задач, а GPT-5 — в ~40%.
Пример — задача
2. Задача
3. Задача
Другой пример: scikit-learn__scikit-learn-14710 — GPT-5 задачу решил(!), но она не засчиталась, т.к. тест просто завис.
4.
5.
6.
1. Лимит в 1M токенов на задачу. Epoch.AI для каждой модели установила порог: как только модель потратила миллион токенов, её останавливают и имеющиеся в коде изменения прогоняют через автотесты. То есть даже если модель двигалась в верном направлении, в какой-то момент у неё забирают работу (как тетрадку на контрольной после звонка 😅) и проверяют то, что она успела сделать. В итоге Opus не успел закончить работу примерно в 80% задач, а GPT-5 — в ~40%.
Пример — задача
astropy__astropy-13977
: GPT-5 просто не успела внести нужные правки. Почему так? В SWE-bench используются кривоватые инструменты редактирования и чтения кода, которые часто приходится вызывать несколько раз, прежде чем они сработают.2. Задача
astropy__astropy-13033
. GPT-5 справилась с требованием задачи и смогла сделать так, чтобы при некорректных действиях пользователя код падал с определённой ошибкой. Но тесты бенчмарка проверяют, что сообщение об ошибке содержит конкретный текст, а GPT-5 использовала другую формулировку. Селяви, задача не засчитана. Аналогично в sympy__sympy-13852
: тесты проверяют исправление не только того бага, который описан в исходном issue, но и нескольких других, и в результате модели тоже получают незачёт.3. Задача
sympy__sympy-13091
. Opus задачу не решил: посадил новый баг, из-за которого в одном из тестов случилось переполнение стека (бесконечная рекурсия). Но задачка засчиталась 🙂 Другой пример: scikit-learn__scikit-learn-14710 — GPT-5 задачу решил(!), но она не засчиталась, т.к. тест просто завис.
4.
django__django-15127
. Opus очень грамотно предложил три варианта решения и выбрал первый. Однако тесты проверяли, что решение будет строго определённым. Не угадал — не засчитали. Похоже на преподавателя, который требует от студента доказательство «как на лекции».5.
scikit-learn__scikit-learn-14629
. Здесь я уже смеялся вслух. С одной стороны, кейс похож на предыдущий: в этот раз GPT-5 избрала определённый метод решения, а тесты ожидали другой, конкретный способ — такой, какой был у автора багфикса. Мне стало интересно, как же тогда эту задачу решил Opus. Оказалось, он написал код, символ-в-символ совпадающий с тем, который написали люди в 2019 году при закрытии бага (https://github.com/scikit-learn/scikit-learn/issues/14615). Неудивительно: это open-source код, и все LLM-модели на нём обучались. Спекулирую, что Opus существенно «крупнее», чем GPT-5, и просто лучше «помнит» исходный код библиотеки. В целом бенчмарк, в котором все (!) задачи взяты из open-source библиотек, на которых обучались все без исключения модели, — это не очень хорошая идея 😅6.
django__django-16642
. Обе модели решили, но GPT-5 использовала современное название MIME-типа — application/brotli
, а Opus — устаревшее application/x-brotli
. Знаете, кто победил? Конечно, Opus! 🤷♂️🔥4👍1
Forwarded from GK trips (George Korepanov)
Ну вы уже поняли тенденцию, да?
Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.
И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.
Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.
tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже. ✅❌
Я изучил ещё десяток задач, где Opus зачли решение, а GPT-5 — нет. Они почти все сводятся к одной вещи: Opus заранее пишет тесты к своим правкам, а GPT-5 — нет. В результате Opus вносит правки до посинения, пока все тесты не пройдут (иногда упираясь в лимит, настрочив сотни строк кода). GPT-5 же идёт, засучивает рукава, сразу делает фикс и сабмитит ответ. То есть на всех этих задачах банальная инструкция в промпте — «сначала напиши хороший тест, который покрывает разные случаи, убедись, что он запускается и ловит все ошибки из issue; затем вноси правки в код до тех пор, пока твои тесты и все существующие не проходят» — перетасовала бы результаты с ног на голову.
И теперь на десерт: знаете, сколько среди 500 задач таких, на которых результаты Opus и GPT-5 отличаются, и при этом GPT-5 не упёрся в лимит по токенам? 36. Тридцать шесть, Карл! Вся «точность» датасета, которая определяет, какая модель лучше, а какая хуже, оказалась заперта внутри 36 задач — это 7% набора. Все остальные задачи либо настолько простые, что их решают обе модели, либо настолько корявые/специфичные, что их не решает никто.
Какие выводы? Проверять знания — крайне сложная задача. Точно так же, как ЕГЭ не измеряет глубину понимания, как собеседование не гарантирует успешность в работе, как Канеман в израильской армии не смог по психотестам определять пригодность к службе, так и бенчмарки являются сомнительным способом измерять «интеллект» модели. Те, кто хоть раз обучал сложные ML-модели, это знают. Но то, что бенчмарк, на который опираются крупные компании, продавая модели пользователям и инвесторам, окажется настолько мусорным, — такого я не ожидал 🤯. Честно, я не уверен, что встретил в нём хотя бы одну задачу, где реально видно качественное превосходство одной модели над другой.
tl;dr
Не смотрите на SWE-bench-verified. Он ничего не проверяет и не говорит, какая модель лучше, а какая хуже. ✅❌
🔥15👏4
Добавили 2 модели на LLM Arena:
Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.
Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.
👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.
Deepseek V3.1 — модель с поддержкой контекста до 128K токенов и оптимизированным инференсом. Разработчик заявляет, что достигает уровня DeepSeek-R1 при более высокой скорости ответа.
Также доступна T-pro 2.0 — модель на базе Qwen3 32B с более плотной токенизацией для русского языка. Поддерживает гибридный reasoning и может формировать рассуждения перед ответом.
👉 Развернули их для вас через Polza.ai, где доступен единый API к 250+ моделям. Будем рады вашей обратной связи о скорости и качестве ответа моделей.
1👍9🔥1
❗️Добавили отдельный фильтр для российских моделей на лидерборде — теперь можно наглядно сравнивать их между собой и видеть, какая RU-LLM показывает лучшие результаты.
На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.
Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".
На данный момент в лидерах — GigaChat 2 Max, который с незначительным отрывом опережает GigaChat 2 Pro.
Для отображения в разделе "Лидерборд" необходимо установить флаг на фильтре "только RU-модели".
1👍13🔥7❤4
Можно ли воспроизвести рейтинг LLM силами краудсорсинга?
Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?
Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.
✅ Мы разработали систему фильтрации аннотаторов и промптов, научились отсекать фрод и «мусор», и теперь можем быстро выдавать предрейтинг новых моделей ещё до массового запуска.
⛓ Читайте на Хабре: Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM? В статье — подробности эксперимента, препятствия и находки, метрики, графики и два открытых датасета для исследований.
👏 Особую благодарность за помощь в проведении эксперимента и консультировании выражаем Александру Кукушкину @alexkuk!
Мы в LLM Arena проверили гипотезу: получится ли воспроизвести рейтинг LLM не силами тысяч реальных пользователей, а через отобранных аннотаторов с крауд-платформ?
Результат превзошел ожидания: за 3 дня удалось получить рейтинг с точностью до 90% к продакшен-данным.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч...
1👍9🔥4💯2
На связи команда LLM Arena. Видим как за последнее время активно растет число подписчиков и пользователей платформы, поэтому самое время рассказать, кто мы и чем можем быть полезны.
1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.
Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. ⛓️ Канал «Роман с данными»
2. Что можно делать на llmarena.ru
👀 Тестировать свои задачи — анонимно для большей объективности. Отправляйте разные промпты и ставьте оценки. Именно из ваших голосов формируется рейтинг LLM для русскоязычных кейсов. ⛓️ Арена (анонимно)
👀 Сравнивать передовые LLM. У нас доступны российские и зарубежные решения для A/B-тестирования. Отдельные модели развёрнуты нами эксклюзивно и недоступны на других платформах. ⛓️ Арена (сравнение)
👀 Следить за рейтингами и авторскими бенчмарками. Регулярно публикуем рейтинги LLM и t2i-моделей и дополняем их авторскими бенчмарками ⛓️ Таблица лидеров
3. Полезные кейсы и материалы
Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.
Исследование про LLM-бенчмарки — о том, как команды походят к выбору моделей под свои бизнес-сценарии.
4. Чем можем быть полезны и как связаться
Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити
Наш мини-апп
Наш Хабр
Наши услуги
1. LLM Arena — открытая краудсорсинговая платформа для сравнения и тестирования LLM и text-to-image-моделей. С июля 2024 года мы публикуем объективный рейтинг российских и зарубежных языковых моделей.
Кто стоит за ru-Ареной: Роман Куцев — Founder LLM Arena, Founder TrainingData, выпускник ВМК МГУ, 8 лет в сборе и разметке данных. ⛓️ Канал «Роман с данными»
2. Что можно делать на llmarena.ru
3. Полезные кейсы и материалы
Arena Explorer — интерактивное исследование тем и сценариев пользовательских запросов + статья
POLLUX — уникальный бенчмарк и демо-сервис, который можно попробовать на llmarena.ru
Text-to-image арена 1.0 — первая в РФ t2i арена с российскими моделями
Кейс LLMArena — можно ли воспроизвести рейтинг LLM силами краудсорсинга? Спойлер: мы — можем.
Исследование про LLM-бенчмарки — о том, как команды походят к выбору моделей под свои бизнес-сценарии.
4. Чем можем быть полезны и как связаться
Для партнёрств: @roman_kucev
Для официальных запросов: info@llmarena.ru
Для идей, предложений и вопросов: комьюнити
Наш мини-апп
Наш Хабр
Наши услуги
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Роман с данными
Все о данных, ML, AI
Founder LLM Arena. Ex-Founder TrainingData.Pro
Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
Founder LLM Arena. Ex-Founder TrainingData.Pro
Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
1❤8👍7🔥3
Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.
— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.
— 26,7% принципиально не опираются на рейтинги.
— Лишь около 18% обращаются к агрегаторам по типу llmstats
Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой
P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6👌4
Новый Qwen3-Max и Sentiment control
ℹ️ Продолжая тему объективности рейтингов, о которой мы писали в исследовании, отметим: летом мы доработали методику построения нашего ЛБ. Если раньше применялся только style control (снижение влияния оформления ответов), то теперь добавлен и sentiment control (снижение влияния тона ответа).
Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.
🚪 Чтобы рейтинг оставался актуальным, нам необходимы ваши оценки на анонимной арене. В частности, сегодня добавлена новая модель — Qwen3-Max (фактически модель вышла из стадии preview), уже доступная для тестирования.
Такая связка позволяет уменьшить субъективные предпочтения при голосовании и сместить акцент на содержательную корректность — то, что в итоге определяет лучше ценность модели для практического применения.
Qwen3-Max — новая флагманская модель семейства Qwen с архитектурой MoE и масштабом более 1 трлн параметров. В практическом применении модель особенно сильна в программировании, сложных рассуждениях и работе с длинным контекстом (до 1 млн токенов).
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍7❤5🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍5❤2
Forwarded from Роман с данными
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
SPECIALGIFT
на баланс первым пользователям.Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
vsellm.ru
VseLLM — единый API для LLM
Доступ к ChatGPT, Гигачату и другим моделям через один API. Оплата в рублях, закрывающие документы.
1👍7🔥4👏2