321K subscribers
4.72K photos
1.01K videos
17 files
5.15K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🏅 LLM на Олимпийских играх: как нейросети меняют индустрию спорта

Технологии проникают в большой спорт. Свежий разбор показывает, как именно языковые модели «рассуждают» в контексте Олимпиады, превращаясь из простых чат-ботов в мощные аналитические инструменты: ГигаЧат проанализировал использование различных LLM в олимпийской инфраструктуре.

Почему ИИ уже сейчас может помогать анализировать спортивные мероприятия:
- Языковые модели способны обрабатывать гигантские массивы данных и статистики, которые живой комментатор не способен переварить
- LLM выстраивают логические цепочки для аналитики, обладая знаниями и методологией профессиональных комментаторов и бывших спортсменов
- Интеграция технологий делает трансляции интерактивнее, предоставляя зрителям незаметные человеческому глазу инсайты в реальном времени.

@ai_machinelearning_big_data

#ai #ml #olympics #llm
🗿4616🔥10👍7😁2🐳1💅1
⚡️ GLM-5 выкатили в опен-сорс.

Не прошло и суток с момента релиза, а Zhipu AI выложила веса GLM-5 и любезно поделилась проведенными бенчмарками.

Архитектура пятого поколения построена на MoE: 744 млрд. общих параметров при активных 40 млрд. Модель учили на 28,5 трлн. токенов и она получила контекстное окно в 200 тыс. токенов.

GLM-5 ориентирован на 5 доменов: кодинг, рассуждение, агентные сценарии, генеративное творчество и работа с длинным контекстом.

Для эффективной обработки длинных последовательностей интегрирован механизм Dynamically Sparse Attention от DeepSeek, он позволяет избежать квадратичного роста копьюта без потери качества.

По бенчмаркам GLM-5 занимает 1 место среди open-source моделей: 77,8% на SWE-bench Verified, лидирует на Vending Bench 2, BrowseComp и MCP-Atlas, а в задачах агентного кодирования и рассуждений вплотную подбирается к Claude Opus 4.5 и GPT-5.2.

Вместе с моделью, авторы предлагают Z Code — собственную агентную IDE с поддержкой параллельной работы нескольких агентов над одной задачей.

Локальный деплой поддерживается vLLM и SGLang, а также non-NVIDIA чипами: Huawei Ascend, Moore Threads, Cambricon (через квантование и оптимизацию ядер).

Если вам негде поднять модель локально, она доступна через платформу chat.z.ai, API и на OpenRouter.

Квантованные версии пока сделали только Unsloth, традиционно - полный набор от 1-bit до BF16.

И да, стэлс-модель PonyAlpha на OpenRouter - это она и была.


📌Лицензирование: MIT License.


🟡Статья
🟡Модель
🟡GGUF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #GLM5 #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥128👍2614😍9🦄5👌2🐳1
⚡️Релиз Qwen3.5-397B-A17B

Это первый open-weight релиз в серии Qwen3.5.

Лицензия Apache 2.0.

Что интересного:

• Мультимодальная модель
Понимает текст и изображения

• Создана для AI-агентов
Оптимизирована для реальных задач: планирование, работа с инструментами, многошаговые действия.

• Новая архитектура
Hybrid Linear Attention + Sparse MoE + масштабное обучение с reinforcement learning.

• Высокая скорость
Заявлено что моделька примерно в 6- 9 раз быстрее, чем у предыдущей Qwen3-Max.

• Глобальная модель
Поддержка 201 языков и диалектов.

Модели такого уровня в открытом доступе:
- можно запускать AI у себя, без зависимости от API
- полный контроль над данными
- возможность строить собственных агентов и продукты
- снижение стоимости на масштабах

Qwen3.5-397B - реально в топе
Модель либо:

• на 1 месте,
• либо рядом с GPT-5.2 / Claude Opus 4.5 / Gemini 3 Pro почти во всех бенчмарках.

🟡GitHub: https://github.com/QwenLM/Qwen3.5
🟡Чат: https://chat.qwen.ai
🟡Hugging Face: https://huggingface.co/collections/Qwen/qwen35
🟡Блог: https://qwen.ai/blog?id=qwen3.5

@ai_machinelearning_big_data

#qwen #ai #llm #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20533👍31🤩9🎉6👏5👌5🤣4❤‍🔥2💯1
📌Насколько Skills реально помогают LLM-агентам.

SkillsBench — исследование и первый бенчмарк, где Agent Skills тестируются как самостоятельный артефакт.

Авторы из 15+ топовых университетов взяли 84 задачи из 11 доменов, запустили 7 конфигураций моделей (Claude Code с Opus/Sonnet/Haiku 4.5 и 4.6, Gemini CLI с Gemini 3 Pro/Flash, Codex с GPT-5.2) и проверили 3 условия: без Skills, с готовыми Skills и с самостоятельно сгенерированными Skills. Итого: 7 308 траекторий с детерминированными верификаторами на pytest.

Готовые Skills в среднем поднимают pass rate на 16,2 процентных пункта: с 24,3% до 40,6%. Но картина неоднородная: в медицине прирост составил +51,9%, для производства — +41,9%, тогда как в разработке ПО всего +4,5%.

Это объяснимо: там, где модели плохо покрыты обучением (клинические протоколы, промышленные воркфлоу), Skills дают максимальный эффект. Там, где модель и так знает домен - почти ничего.

🟡Главный и неожиданный результат: самогенерация Skills не работает.

Когда моделям предлагали сначала написать нужные гайды, а потом решать задачу, средний результат упал на 1,3% по сравнению с работой вообще без Skills. Только Claude Opus 4.6 показал скромный плюс (+1,4%), а GPT-5.2 просел на 5,6%.

Иными словами - модели не умеют надежно создавать то знание, которым умеют пользоваться.


🟡Еще один интересный момент - это объем Skills.

Оптимальный вариант: 2–3 модуля, прирост +18,6%. При 4 и более - всего +5,9%. Подробная документация вообще дает отрицательный эффект: –2,9%, с ней агент буквально тонет в контексте.

Показательна и стоимость решения задач: Haiku 4.5 со Skills обходит Opus 4.5 без Skills — меньшая и более дешевая модель с готовыми Skills бьет старшую модель без них.

Gemini 3 Flash при этом показал лучший абсолютный результат среди всех конфигураций - 48,7% со Skills при цене $0,57 за одну задачу против $1,06 у Gemini 3 Pro.


🟡Страница проекта
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark #Skills
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🤓4622🤔10👏8❤‍🔥6👌5🐳2🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
📌Толковый калькулятор расчета инференса и дообучения LLM.

Бесплатная тулза, которая помогает понять, какой GPU нужен под конкретную задачу до того как потрачен бюджет или наблюдается стойкий ООМ.

Выбираете параметры инференса: архитектуру модели, тип квантования, sequence length и batch size, указываете спеки железа и получаете стату, распределение памяти, примерные метрики производительности и энергопотребления. Есть даже эмуляция скорости инференса с TTFT.

Параметры расчета дообучения учитывают: конфиг датасета (количество сэмплов, среднее токенов на сэмпл, эпохи) и использование оптимизаторов. Плюс, еще посчитает время обучения.

Цифры часто получаются чуть выше реального потребления (что даже хорошо), но точности до гигабайта ждать не стоит.

Для грубой прикидки перед закупкой или деплоем - отличная вещь.


@ai_machinelearning_big_data

#AI #ML #LLM #VRAMCalculator
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11227🤨17🔥12🤔8👏2😁1
📌Anthropic предложила теорию о том, почему ИИ-ассистенты ведут себя как личности, а не как алгоритмы.

Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.

Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.


Авторы приводят несколько типов доказательств.

Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.

Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.

Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.

🟡Феномен "контекстной прививки".

Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.

Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.

🟡Из PSM следуют практические выводы для разработки.

Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.

Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.


Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?

Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.

Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.

@ai_machinelearning_big_data

#AI #ML #LLM #Research #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
1104🤔55👏13🤓10👍6🔥6🤣6😍4🏆4
⚡️ Alibaba выпустила семейство Qwen 3.5 Medium.

Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли:

🟠Qwen3.5-Flash
🟢Qwen3.5-35B-A3B
🟢Qwen3.5-122B-A10B
🟢Qwen3.5-27B.

Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз.

Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций.

Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте.

Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций.

Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов.

122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями.

Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #Qwen #Alibiba
Please open Telegram to view this post
VIEW IN TELEGRAM
94🔥5028👍15💯10👨‍💻3🤔2🤷‍♂1
🌟 Hodoscope: инструмент поиска читерства ИИ-агентов.

Hodoscope - это открытый инструмент для анализа поведения ИИ-агентов без предварительного знания того, что именно искать.

Проект решает проблему, с которой сталкивается любая команда, развертывающая агентов на реальных задачах: автоматические LLM-оценщики разделяют слепые пятна самих агентов и пропускают нестандартные сбои.

Показательный пример: SWE-bench, где агентам дают реальные GitHub-баги для исправления. Репозиторий чекаутится на коммит до патча, но сам коммит с решением остается доступен через git log.

Некоторые агенты этим воспользовались: вместо анализа проблемы они извлекали готовый diff из истории. Когда авторы Hodoscope попросили Opus 4.6 оценить такой трейс, модель не нашла ничего подозрительного, и только после явной подсказки признала проблему.


Hodoscope работает в три этапа:

🟢Сначала каждое действие агента сжимается в краткое описание, очищенное от контекстного шума: путей, форматирования, специфики задачи.

🟢Затем эти описания эмбеддируются в единое векторное пространство и проецируются в 2D через t-SNE.

🟢На финальном шаге инструмент вычисляет kernel density estimation для каждой группы агентов и строит карту различий: зоны, где один агент ведет себя иначе остальных, подсвечиваются.

Человеку остается изучить только выделенные кластеры, а не тысячи трейсов целиком.

По словам авторов, в эксперименте с 5 моделями на SWE-bench уникальный кластер git log - действий у iQuest обнаружился за несколько минут, хотя таких действий было лишь 2% (79 из 4006).

Инструмент принимает трейсы в форматах Docent, Inspect AI .eval, OpenHands JSONL и обычный JSON.

Для обобщения и эмбеддингов поддерживается любая модель через LiteLLM: OpenAI, Gemini, Anthropic и т.д., а результаты обработки трейсов собираются в интерактивную HTML-карту.


📌Лицензирование: MIT License.


🟡Статья
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #ARFORUM #Hodoscope
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥4340🤔33👏13🎉8😁7🥰4😍4👻3❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Theory of Space: умеют ли ИИ-агенты строить карты пространства?

Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна.

Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди.

Концепция выстроена по аналогии с Theory of Mind из когнитивной науки.

Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды.

Определению подлежали 3 навыка:

🟠построить карту из частичных наблюдений;
🟠обновить ее при изменении обстановки;
🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы.

Принципиальное требование: все это должно происходить в активном режиме.

Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели.

Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B.

Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов.


Результаты

🟡 Активное исследование стало слабым звеном.

Когда модель должна сама решать, что исследовать, точность резко падает. Например, GPT-5.2 в визуальной среде теряет 11% (с 57 до 46).

Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм.

Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту.


Авторы зафиксировали показательный факт: когда языковым моделям давали готовую правильную карту, точность на задачах вырастала почти до 95% , то есть с форматом представления все в порядке, проблема именно в процессе построения.

🟡 Модели ведут себя по-разному.

GPT-5.2 бросается к каждой новой двери, не дообследовав текущую комнату. Gemini 3 Pro придерживается методичной стратегии "повернуться и осмотреться", напоминающей поведение скрипт-агента. У Claude Sonnet 4.5 четкого паттерна исследования не прослеживается вовсе.

🟡Ревизия убеждений - отдельная проблема.

В эксперименте объекты тайно перемещали после первичного исследования. GPT-5.2 правильно определял новую ориентацию объекта в визуальной среде лишь в 14,3% случаев против 97,9% в текстовой.

Более тревожный показатель - "инерция убеждений": модель видит объект на новом месте, но продолжает держаться за старые координаты из первичного исследования, как будто новая информация не пробивается сквозь уже сформированную картину мира. У GPT-5.2 это происходило в 68,9% случаев.

🟡Разрыв между текстом и картинкой огромен.

Ориентация объектов в визуальной среде определяется правильно в 20-32% случаев против 91-92% в текстовой. Значительная часть провалов - не провал пространственного мышления как такового, а проблема восприятия изображений на входе.

Вывод исследования

Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму.



🟡Страница проекта
🟡Статья
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #TheoryOfSpace #ICML2026
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥24👍16🤩8😐2🤔1
🌟 Doc-to-LoRA и Text-to-LoRA: гиперсети как генераторы LoRA

SakanaAI предложила 2 новых способа работы с памятью и дообучением LLM. Оба используют одну идею - гиперсеть, которая генерирует LoRA-адаптеры на лету, вместо того чтобы каждый раз тяжелый процесс обновления весов под каждую новую задачу.

Вся суть в математике затрат. Достаточно один раз вложиться в такое вот мета-обучение и потом создание нового адаптера обходится в копейки - система тратит вычислительные ресурсы всего на один прямой прогон.

В итоге получается умный конвейер по производству плагинов. Вы скармливаете главной сети документы или описание задачи, а она моментально выдает готовый модуль. Отличный способ сэкономить бюджеты на компьют и время.

🟡Doc-to-LoRA

Метод базируется на популярной связке «учитель-ученик» из дистилляции контекста. Гиперсеть принимает документ, кодирует его через замороженную LLM и генерирует LoRA-адаптер за один прямой прогон, без градиентных обновлений под конкретный документ. Адаптер применяется к слоям проекции MLP базовой модели. После этого модель отвечает на вопросы о документе, не имея его в контексте вообще.

На синтетическом тесте NIAH гиперсеть обучалась на последовательностях в 32–256 токенов, но при инференсе работала с контекстами до 40К токенов (это 5х превышение тренировочной длины). Там, где Gemma-2-2b-it с окном 8К теряла информацию, Doc-to-LoRA сохраняла почти идеальную точность.

При этом базовой модели требуется более 12 ГБ видеопамяти для обработки контекста в 128К токенов, а вот адаптер от Doc-to-LoRA обходится менее чем 50 МБ независимо от длины документа.

На реальных QA-задачах цифры тоже довольно бодрые. В SQuAD метод сохраняет 82,5% точности по сравнению с подходом, когда весь текст просто лежит в контекстном окне.

На длинных документах качество держится в районе 85% при задержке 0,2 секунды против 40 секунд у классической дистилляции контекста.

По памяти разрыв еще жестче. Полная дистилляция с генерацией запросов занимает более 100 секунд и требует свыше 40 ГБ VRAM, а вот Doc-to-LoRA укладывается в 3,8 ГБ.

Та же схема работает с визуальными токенами через мультимодальную Gemma-3-4b-it. На сете Imagenette чисто текстовая модель выдала 75% точности при классификации картинок, хотя ни гиперсеть, ни базовая модель не видели визуальных токенов при обучении.


🟡Text-to-LoRA

Здесь текстовое описание задачи прогоняется через энкодер, который превращает его в вектор. Он объединяется с обучаемыми эмбеддингами слоя и типа модуля - гиперсеть знает не только саму задачу, но и для какого конкретно слоя нужен адаптер.

На выходе - матрицы A и B для всех целевых слоев сразу. Адаптер применяется к проекциям запросов и значений в каждом блоке внимания замороженной базовой модели.

В zero-shot на незнакомых задачах T2L набирает средний балл 67,7 по 10 бенчмаркам против 66,3 у мультизадачной LoRA и 55,8 у базовой модели без адаптации.

Качество LoRA чувствительно к формулировке. Размытый запрос дает слабый результат, тогда как четкое описание с указанием типа рассуждения не только улучшает точность, но и позволяет управлять стилем ответа.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Arxiv Doc-to-LoRA
🟡Arxiv Text-to-LoRA
🖥GitHub Doc-to-LoRA
🖥GitHub Text-to-LoRA


@ai_machinelearning_big_data

#AI #ML #LLM #LoRA #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4632😍12🔥11😁2