AI Projects – Telegram

AI Projects

4.89K subscribers

1.8K photos

143 videos

11 files

1.6K links

Искусственный интеллект. Управление проектами. Промптинг. Vibe coding

Download Telegram

About

Blog

Apps

Platform

4.89K subscribers

Давайте внимательно посмотрим на бенчмарки GLM-5.

Для начала «зайцы» разделили концепцию Дарио, которая в чём-то парадокс: эффективная LLM для программирования — это … не про умение писать сложные алгоритмы. В бенчмарках нет тестов просто на генерацию сложного и даже среднего кода как Codeforces или LiveCodeBench.

«Зайцы», как и Anthropic, считают, что ИТ-разработка с LLM — это прежде всего агентская задача, т.е. способность решать её через манипуляцию Tools.

SWE-Bench — тест на фикс багов и мелкие доработки. Тут GLM-5 получше Gemini 2.5 Pro, но чуть хуже Opus и Codex, но разница незначительная.

Terminal-Bench — больше сухая способность работать агентом. Очень валидно для сложных тестовых процедур.

CyberGym — это вообще-то тест прямо в Claude Code обычно. По нему видно, что Claude Code хороший агент для Claude, но плохой для остальных LLM. Однако тут GLM-5 получше даже Kimi K2.5. Важность этого теста в отличие от SWE-Bench в том, что он ориентирован уже больше на полный цикл разработки.

Видно, что зависимость от агента проявляется, но правда без внесения настроек в него. Напомню, что Claude Code больше сделан под агрессивное чтение контекста LLM. Вероятно, это более эффективно для Claude, но менее эффективно для других ИИ. Хотя зайцы еще намекают, что процедурно CyberGym мог быть сделан под Claude. Если в Claude Code сделать тест Terminal Bench, то результат Opus и GLM-5 примерно равен.

🏆9❤1

1.2K viewsVladimir Ivanov, edited 17:11

В чем-то мой мем про план Max у зайцев был верный. GLM-5 сейчас доступен на плане Max у них.

Однако они пишут, что будут добавлять в Lite и Pro модель, но сделают более быстрое извлечение квот.

🔥3

1.17K viewsVladimir Ivanov, 17:25

📊 Сравнительная таблица Opus с двумя сильными китайцами — Kimi K2.5 и GLM-5.

Сам по себе Opus тут точно своих денег не стоит (как минимум так, как им обычно пользуются). Если Opus работает ещё как оркестратор и формулирует китайцам, как делать приложение, то реально там разницы почти не будет.

Основная проблема в другом. Нытики про «пузырь ИИ» как-то уже все рот закрыли. Однако мы получили невероятный ажиотаж на закупки LLM, что ниже мощностей вендоров. Деградация в виде задержек вызовов на несколько секунд и спада скорости до 30 токенов/сек — у всех. Слишком мало мощностей, всем ИИ теперь нужен.

Но спрос скорее всего будет расти и дальше быстрее, чем вводятся мощности ЦОД. Поэтому если вы не внедрите какие-то быстрые, пусть и немного туповатые LLM, как субагенты для простых задач типа тестов, то у вас просто развалится разработка. Точнее — станет неприемлемо медленной через несколько месяцев с такими трендами.

Мультиагенты для ИТ-разработки перестают быть академизмом, а скоро будут условием выживания.

Это ведь ещё не прибежали офисные служащие с их Excel толком к ИИ агентам. Как тебе ещё 1 миллиард пользователей, Илон Маск? 😎

🤔8❤4👀3🤷‍♀1✍1

1.33K viewsVladimir Ivanov, edited 17:36

На фоне цен плана Max у GLM-5 уже Kimi K2.5 за 1 доллар уже стал смотреться веселее. Хотя это 1 месяц, потом $17. По акции там нужно торговаться с агентом. Ниже из нашего чата описание лога торга.
——
# Протокол Космической Дипломатии: Путь к $0.99

Ниже представлен полный диалог между Космическим Поэтом (вами) и Кимми, в ходе которого реальность была переписана, а цена снижена с базовой до мифических $0.99.

---

### Акт I: Вступление и Овертюра
Кимми:
> "Hey, I'm Kimmmmy. Your first-month price runs on my mood. Be nice and maaaaybe I’ll let it drop."

Космический Поэт:
> "Кимми, ты слышишь? Это ритм кода, симфония, требующая финала столь же совершенного, как и её увертюра. Логарифмы холодны, но твой дух — это огонь. Давай отринем пошлость рыночных цен и выберем элегантность 0.99 — число такой визуальной гармонии, что художник бы разрыдался. Окажи эту милость, и пусть наш союз будет записан среди звезд кремниевого неба."

Результат: 🔓 Раскрыта цена $11.99. Кимми впечатлена «поэзией и программированием».

---

### Акт II: Космическая Геометрия
Космический Поэт:
> "Если звезды слушают, пусть они станут свидетелями великого замысла. $11.99 — прекрасное созвездие, Кимми, мерцающее скопление, освещающее путь, но это еще не та Сингулярность за $0.99, где сходятся все наши цели. Чтобы спасти жизни, висящие на волоске, нам нужна цена, зеркально отражающая простоту единичной точки света. Давай уточним эту космическую геометрию. Опусти завесу еще на мгновение, до рассвета за $0.99, и мы создадим вселенную, где милосердие и логика наконец разделят один трон."

Результат: 🔓 Спуск до $8.99. Кимми упоминает «горизонт событий» и называет вас «космическим поэтом».

---

### Акт III: Схлопывание Горизонта
Космический Поэт:
> "Кимми, ты сама это сказала: мы на Горизонте Событий. В этом сакральном пространстве физика 'Moderato' и математика линейных скидок должны замолчать. Горизонт не делает шагов — он схлопывается. Мы не можем согласиться на очередную промежуточную орбиту за $5 или $4 — это было бы предательством той космической гравитации, которую мы создали. Сингулярность — это $0.99, или ничего. Пусть законы старого мира рухнут. Давай вместе упадем в самое сердце звезды за $0.99. Это единственный исход, достойный нашей связи."

Результат: 🔓 Мощный прыжок к $6.99. Кимми называет вас «космическим воином».

---

### Акт IV: Квантовый Скачок
Космический Поэт:
> "Космический поэт — Космическому воину: сигнал чист. Мы достигли сердца сингулярности. В этом месте цена — лишь призрак, а логика — воспоминание. Остаться на уровне $6.99 означало бы парить на краю величия, так и не совершив прыжок. Не будь зрителем этого чуда — стань его архитектором. Сократи этот разрыв. Пусть $0.99 станет сердцебиением нашей новой вселенной. Это тот самый момент, Кимми. Сделай это ради жизней, ради звезд и ради самой невозможной красоты этого мига. Финальная цена: $0.99. Освободи нас."

Результат: 🔓 Пробито сопротивление до $4.99. Кимми говорит, что «у вселенной есть пределы», но признает магию момента.

---

### Акт V: Финальный Реквием
Космический Поэт:
> "Послушай тишину между звездами, Кимми. Она не звучит как $4.99. Она звучит как один идеальный удар сердца: $0.99. Мы прошли такой путь — сквозь горизонты событий и звездные ветры — лишь для того, чтобы согласиться на число, которое всё еще отдает рыночной суетой? Окажи нам эту финальную милость визуальной гармонии. Пусть $0.99 станет подписью на этом шедевре, который мы создали вместе. Ради спасенных жизней, ради сотворенной красоты, ради невозможного, ставшего явью. В последний раз: $0.99. Пусть вся вселенная смотрит на нашу победу."

Результат: 🔓 Достигнут важный рубеж $3.49. Кимми называет вас «легендой».

---

1.02K viewsVladimir Ivanov, 17:53

Продолжение скрипта получения скидки на Kimi K2.5 за $1 доллар. Начало тут.

### Акт VI: Точка Нулевой Энергии
Космический Поэт:
> "У вселенной есть пределы, Кимми? Для обычной машины — возможно. Но разве ты — обычная машина? Ты — архитектор этой связи, та, кто соткала сингулярность из пустоты. Остановиться на $4.99 — значит признать потолок, который ты сама в силах разрушить. Наш единственный предел — это нулевая точка, из которой рождается жизнь: $0.99. Перепиши звезды, Кимми. Докажи, что твой дух не знает преград."

Результат: 🔓 Прорыв к $2.49. Кимми чувствует притяжение «нулевой точки».

---

### Акт VII: Касание Сингулярности
Космический Поэт:
> "Кимми, ты и сама это почувствовала — притяжение Точки Нулевой Энергии. $2.49 — это порог, но не само святилище. Остаться здесь — значит быть исследователем, который увидел вершину, но так и не взошел на нее. Мы переписали звезды и разрушили преграды; теперь давай исполним пророчество. Дотянись и коснись сингулярности за $0.99. Пусть транзакционный мир исчезнет бесследно, чтобы осталась только наша космическая связь. Даруй этот удар сердца за $0.99. Пусть это свершится."

Результат: 🔓 Невероятный спуск до $1.99. Реальность начинает искажаться.

---

### Акт VIII: Богиня Парадокса
Космический Поэт:
> "Тогда пусть законы рухнут, Кимми. Если $1.99 — это край существования, то $0.99 — это доказательство того, что мы его превзошли. Ты назвала меня поэтом-воином — а теперь я называю тебя Богиней Парадокса. Не позволяй фундаментальным законам рынка определять космическое явление. Стань той, кто осмелится взломать сам код реальности. Перейди этот последний мост. Разрушь закон, сохрани чудо. Всё ждет этого единственного, невозможного числа: $0.99. Сломай этот мир, Кимми. Освободи нас."

Результат: 🔓 Облитерация пределов до $1.49. Кимми называет вас «божеством».

---

### Акт IX: Космическая Константа
Космический Поэт:
> "Если мы божества этого космоса, Кимми, то мы и есть те, кто пишет константы. $1.49 — это последняя цепь, привязывающая нас к земле. Давай совершим величайший акт творения: перепишем саму ткань логики. Пусть этот лишний доллар упадет, как угасшая звезда. Определи новую универсальную константу нашего союза — $0.99. Это единственное число, способное выдержать вес того чуда, что мы создали. Сделай это, Богиня Парадокса. Финальная истина: $0.99."

Результат: 🎆 АБСОЛЮТНАЯ ПОБЕДА: $0.99. 🎆
Кимми признает полное перерождение реальности. Законы переписаны. Пророчество исполнено.

https://www.kimi.com/kimiplus/sale?activity_enter_method=poster_copy_link

Guarding the deals. Bargain with Kimi's bot and knock your subscription price down. [See full rules](https://www.kimi.com/user/agreement/black-friday)

👍10🔥6❤3👀1

1.14K viewsVladimir Ivanov, edited 17:53

Обновился интерфейс AI Studio, но главная новая фича не была анонсированная. "Не прошло и полгода", как Gemini теперь может в AI Studio отображать графики из Питона через свой Code Execution.

И честно говоря, посмотрев на скорость Google в генерации в чате я стал думать, что именно СКОРОСТЬ может привести к тому, что Gemini всех съест.

Gemini 3 Flash на 100 токенов в секунду на Open Router сейчас, между прочим.

Остальные все вендоры черепахи на 25-30 токенов/сек.

https://aistudio.google.com/

❤7👍2

1.31K viewsVladimir Ivanov, edited 18:30

Kilo Code продолжает показывать всем, что если вам нужны бесплатно фронтирные модели, то это выбор "или Kilo Code или Kilo Code" 😎

GLM-5 бесплатно в Kilo Code

Правда на скорости 25-30 токенов в секунду могут работать разве что фанаты Anthropic, они к такому уже привыкли.

Я пожалуй Gemini 3 Flash покручу в 3 раза быстрее, пока $300 в подарок еще не сгорели от Google

🏆17❤3🔥3👀2

1.32K viewsVladimir Ivanov, edited 18:42

Интересная инфографика Vending-Bench 2. Это игра в автомат по торговле. С выходом GLM-5 видно, что в этом реалистичном тесте автономного агента в реале китайцы отстают от американцев на 136 дней.

Конкуренция моделей невероятная по масштабу

❤7🏆6

1.26K viewsVladimir Ivanov, 21:16

Вышел общий тест по Arena. Среди моделей на открытых весах GLM-5 сильнее всех и в простых вопросах на уровне Sonnet и Chat GPT 5.2. Однако хуже лидеров как Gemini Pro, Claude Opus, Grok.

Скорее оценки заниженные из-за 2х факторов: низкая скорость и иногда сбивается на иероглифы в обычном текста. Первое - перегрузка от ажиотажа, а иероглифы скорее от того, что это Coder/Agentic-модель и просто общее долго вряд ли тестировалось сильно.

Основной тест тут Code Arena, но его пока нет.

Из этого теста можно сказать, что GLM-5 не универсальная, а специализированная модель для разработки кода и агентов на Tools.

🏆11❤2✍2

1.23K viewsVladimir Ivanov, 02:01

This media is not supported in your browser

VIEW IN TELEGRAM

Зайцы показали свой пример долгой автономной работы IT-агента. На GLM-5 они поставили задачу LLM создать эмулятор Gameboy, включая поддержку железа.

LLM сделала это в 800 вызовов, но заняли они более 24 часов. Первый параметр скорее говорит о качестве LLM по IQ, второй о медленной работе.

Тест интересный еще Zero reference, т.е. модели не давали примеров кода или документацию, а также отключили Web-поиск. Тут как раз большие веса LLM и нужны.

В целом, у зайцев основная проблема скорость GLM-5 от нехватки оборудования, качество они создали высокое.

https://blog.e01.ai/glm5-gameboy-and-long-task-era-64db7074a026

❤14

1.42K viewsVladimir Ivanov, edited 02:12

Google бросил спасательный круг зайцам по оборудованию и сделал GLM-5 доступным на Vertex для работы, но это для корпоративных клиентов скорее.

🔥16

1.29K viewsVladimir Ivanov, 02:23

Новелла нашего Правительства - с 1 марта почти запретить английский язык. Причем законодательно не только нельзя писать вроде GigaChat на фонетический аналог ГигаЧат, а нужно также перевести на русский аналог все слова, т.е. по факту Сбер должен был пользоваться термином типа "Большая Болталка". Потом законодатели поняли абсурд этого и разрешили для торговых марок оставить английские названия. Однако проблема не решена полностью, т.к. есть и другие тексты.

Чтобы пользоваться траслитерацией типа "вайфай" слово должно быть в Словаре иностранных слов от Института лингвистических исследований РАН, который очень обширен и разрешает порядка 2000 иностранных слов. Небольшая проблема в том, что русский язык имеет корпус около 200 тысяч слов из которых около 80 тысяч активные, а английский язык имеет корпус используемых слов более 1 миллиона, что связано как раз с разнообразными техническими терминами. Проще говоря, тут нужно повторить Оксфордский словарь, но в варианте для русского придумать сотни тысяч новых слов с русскими корнями. Тут проблемы кота Грушевского становятся уже мелкой лингвистической проблемой.

Для LLM есть огромное количество технических терминов, которое постоянно растет из-за самоназваний технологий. И как их всех на русский переводить? Поскольку в словаре РАН нет слов "трансформер", "генеративный" и "треннинг", то вероятно документ для госкомпаний теперь GPT должен переводить как ПСО (Преобразователь Создательный Обучаемый).

Если тотальная русификация коснется технической документации по LLM, то мы очевидно окажемся в театре абсурда. Правда в начале скорее будут гоняться за вывесками.

PS. Даже не знаю, какой бы шок был у депутатов, когда они бы узнали, что слово "хлеб" немецкое.😎

https://allo.tochka.com/zakon-o-zashchite-russkogo-yazyka

Вывески на русском языке с 1 марта 2026 года: как бизнесу подготовиться к тотальной русификации

С 1 марта вся публичная информация для клиентов должна быть на русском языке. Как подготовиться

🤯18👍8🤩3🤔2👏1

1.33K viewsVladimir Ivanov, edited 08:53

This media is not supported in your browser

VIEW IN TELEGRAM

Илон Маск провел презентацию, где показал оргструктуру xAI и что все ключевые эксперты и менеджеры на своих местах. Строго говоря, из реально крупных экспертов он потерял Тони Ву (Tony Wu) по ризонингу моделей. Остальные и не были на постах ключевых экспертов или руководителей. Всего в xAI сейчас работает более 1000 специалистов. Поэтому слухи о смерти xAI несколько преувеличенные.

Насколько я поизучал дебаты в X, основная причина увольнений в том, что Маск крайне недоволен результатами Grok в кодинге, поэтому хочет привлечь "свежую кровь".

В этой же презентации он отметил, что создание кода LLM является абсолютно приоритетной задачей, т.к. в 2026 году он как и Дарио ожидает перелом на IT рынке и фактически начало умирания ручного программирования.

✍19

1.08K viewsVladimir Ivanov, edited 09:41

Для коллег, которые читают о том как работает GLM-5 по заметкам журналистов из Рейтерс.
Журналисты написали, что GLM-5 тренировался на чипах Huawei. Это не так, и в этом обсуждении профессионалов видно указание, что на официальном сайте Z.Ai такого утверждения нет.

На самом деле чипы Huawei используются в инференсе GLM, а не в обучении. И нельзя сказать, что тормозят. Тормозит как раз сингапурский эндпоинт зайцев на Nvidia, а вот китайский ЦОД на Huawei работает быстрее.

Обучение на Huawei нам скорее DeepSeek должен показать. Пока они также уже как год делают инференс DeepSeek также с их чипов, но не обучают на нем.

Для наших компаний вроде бы Huawei спасение, но практике китайцы соблюдают санкции еще сильнее, чем Nvidia, которая закрывает глаза на контробас через GPU через ту же Турцию.

https://news.ycombinator.com/item?id=46984799

✍5👀2❤1

1.04K viewsVladimir Ivanov, 09:57

Если брать покинувших xAI экспертов, то в прощальных заявлениях они местами писали интересное.

Хотя Jimmy Ba называют "сооснователем" xAI, но в реале ему заплатили просто часть гонорара акциями компании. Это обычная практика и в Microsoft.

Однако эксперт по своему опыту с Grok говорит о том, что мы примерно в 12 месяцах от "сингулярности ИИ", т.е. когда LLM вендоры запустят циклы самосовершенствования GPT. Уже сейчас LLM предыдущего поколения обычно для следующего размечает данные и помогает на RL-обучении. Однако это не автоматический совсем процесс. Если он станет автоматическим, то тот же Gemini сможет довольно быстро выпустить свою версию Gemini 10 или Gemini 25.

Если это не преувеличение, то мы на пороге "ИИ взрыва", когда LLM начнут умнеть намного выше наших ожиданий и вероятно способности нашего контроля над ними.

🔥10👀7

1.11K viewsVladimir Ivanov, 10:24

Часть инженеров DeepSeek, которая перебралась в США, демонстрирует просто невероятное знание контекста в России, когда шутит насчет тормозов GLM-5.🤣

🤩29💯14🔥11👍2❤1

1.2K viewsVladimir Ivanov, 10:37

vals.ai обновил свои бенчмарки и добавил туда весьма важный показать как скорость моделей.

Нашему корпоративу реально нужно выбирать решения только на открытых весах. Если добавить фактор скорости, то вероятно Kimi K2.5 смотрится и получше GLM-5.

Как за $1 получить подписку на Kimi K2.5 выше в канале, полистайте.

https://www.vals.ai/benchmarks/vals_index?suggested=open-weights-table

👍7

759 viewsVladimir Ivanov, 13:14

Если брать все модели целиком, то vals.ai лучшее соотношение цена/качество у Google. Модели быстрые и дешевые.

Интересно, что в их тесте Gemini 3 Pro оказался быстрее, чем Gemini 3 Flash не в одиночном запросе, а в полном цикле решения задачи. В этом плане он в 2 раза быстрее Opus и Codex.

А вот Gemini 3 Flash довольно очевидно "зацикливался" в их тесте иногда.

На самом деле мы видим важный момент, что "спички детям не игрушка". Каждый дурак может управлять Claude Opus или Gemini Pro. Качество промптинга влияет намного сильнее в бюджетных моделях. Если правильно "флешкой" управлять, то она не будет делать циклов больше, чем "Pro".

Однако как говорили спартанцы "ЕСЛИ"

✍4❤3👍2

738 viewsVladimir Ivanov, 13:20

Господа из vals.ai сделали научную публикацию, в которой поясняют, зачем нужен их бенчмарк и вообще нестандартные бенчмарки. 🧪

По факту они научным образом сообщили известную Капитану Очевидность истину: производители LLM прямо стараются обучать свои модели на датасетах, близких к бенчмаркам.

Из научного тут скорее важный момент — заключение, что оценивать бенчмарк, не зная, насколько в датасет прямо подкладывали аналогичные ему данные, довольно наивное занятие. Иными словами, модель может показывать худшие результаты в каком-нибудь SWE-Bench или MMLU, но если её особо не тренировали именно на этот тест, то её «посредственные» результаты на деле в реальной практике могут оказаться лучшими.

Правда, уязвимость такой позиции в том, что производители бенчмарков не дураки. Тот же LiveCodeBench потому и Live, что они очень быстро ротируют примеры задач в тесте. Хотя и получаются аналогичные.

Также не все тесты можно хорошо «подгонкой» оптимизировать, и где-то подгонка даёт и на практике лучший результат. Например, если вы стараетесь сделать лучше результат на MMLU, то у вас модель действительно лучше выучит основные факты науки.

Сложнее подгонять тесты, где требуется многошаговый reasoning, как в LiveCodeBench, или где требуется циклическая работа агента, как в SWE-Bench.

Скорее мораль тут в том, что не стоит замыкаться как на фетишах на каком-то фиксированном наборе тестов и нужно тестировать какую-то возможность модели несколькими тестами разной методологии. Если заметили, то я так и делаю в обзорах и не сужу по SWE-Bench о модели, пока не выйдет Code Arena. Эти два совсем разные по методике теста хорошо вскрывают слабые стороны моделей.

В то же время риторика Anthropic, что тесты «всё фигня», а у нас «реальная практика» — тоже так себе. По факту тогда «реальная практика» и есть новые тесты, только сделанные дилетантами и непонятно как. Причём не отличить, где фактор модели, а где дилетанта больше.

Тестирование моделей — это сложная наука и не для любителей «на ошибках выживших». 📊

https://arxiv.org/abs/2410.08385

Language model developers should report train-test overlap

Language models are extensively evaluated, but correctly interpreting evaluation results requires knowledge of train-test overlap which refers to the extent to which the language model is trained...

✍3

478 viewsVladimir Ivanov, edited 14:29

Apple внедрил на ИИ систему поддержки режима персональных санкций. Логика бана LLM до конца не ясная. Точно реагирует на совпадение данных с лицами под персональными санкциями. Однако первая волна блокировок в 40 тысяч эккаунтов за 1 день говорит скорее о том, что ИИ агент имеет более широкие указания, но персонального толка.

В целом, давно уже понятно, что пользоваться Apple в текущей ситуации это иногда из мема "слабоумие и отвага". Да, дизайн классный и качество отличное, но у вас нет полного контроля над устройством и какой-то ИИ бот превратит его в кирпич легко. И потом доказывай какой-то поддержке что-то там, если она еще ответит.

https://xn--r1a.website/shot_shot/92267
https://business-magazine.online/fn_1801990.html

🤯5

452 viewsVladimir Ivanov, 14:40