AI Projects

AI-роботы довольно быстро приближаются. Компания DEEP сейчас контролирует производство 90% пожарных роботов в КНР.

Обычно они сделаны в форм-факторе робособаки. Ориентация по лидару, а также 2х спектральным камерам (видимый и ИК спектр). Из пожарной специфики разные химические датчики: датчики угарного газа в помещении или датчики утечки метана.

Правда хочется спросить у компании DEEP зачем они свой "пожарный" робот научили еще метко стрелять из гранатомета.

Ну мало ли еще другие заказчики будут. 😎

🔥14

1.48K views15:44

AI Projects

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Кто думает, что мы из-за СВО сильно ушли в отрыв дронах разведки от Китая. Для начала все наши дроны собраны из китайских компонент и даже ПО для сверточных нейросетей распознавания обычно китайское.

Однако китайцы кое-что умеют делать на небольших нейросетях, что мы даже не умеем вообще. Дроны-разведчики с эмуляцией птицы по форме не новость. Однако их легко распознать, что они не летят за счет крыльев.

Как вам такое, Илон Маск?

👀12🤯8👍4

1.38K views15:54

AI Projects

Хотя SLM довольно неплохо делают перевод с языка на язык, но Google выпустил специальную версию Translate Gemma. При размере 12B весов, т.к. даже влезает в RTX 5080, модель дает качество переводов выше, чем Gemma 27B.

Однако Translate Gemma может превзойти и наши Православные ИИ при переводе на русский и с русского. Тут надо тестить, но дело в технологии. Наши GigaChat или Yandex GPT больше тренируются только из SFT, а это не позволяет оценить ЦЕЛИКОМ насколько качественный по смыслу получился фрагмент текста. Это же модель прогнозирования одного токена.

Google применяет специфическое Reinforcement Learning обучение для переводчика, где модель получает вознаграждение не только как "научилась пользоваться словарем фраз", но и получает вознаграждение за целый абзац-главу текста по метрикам MetricX-QE и AutoMQM. Для текстов где важно передать не просто слова, а смысл, это важный момент.

PS. Интересно еще само по себе применение RL-обучение в SLM. Еще 1 год назад это было не эффективно, т.к. SLM имеет "мало мозгов" и плохо понимает интегральные RL-оценки. Сейчас я все больше вижу кейсов у вендоров как RL применяется к SLM. Qwen тоже так делает. Это говорит о том, что сделано техническое открытие, но "простым смертным" (или конкурентам) не стоит знать как это делается. А это точно не по учебникам из ВУЗов для студентов.

https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/

👍8👀3

1.46K viewsedited 16:06

AI Projects

Eigent не смог хорошо потестить, т.к. санкции-санкции-санкции. Как всегда.

Приходится перебирать кучу IP, но работает с них медленно. Подключается Gemini и GLM.

Строго говоря, весь хайп вокруг таких Coworker систем не очень понятный. Я посмотрел его набор инструментов у агента. В целом, это почти тоже самое, что у Claude Code или Kilo Code - работа с файла, возможность запустить программу на Питоне.

Скорее несколько больше визуализации для модных мультиагентов, но их запустить куда проще, чем внедрить для сложных задач.

Скорее тут забавный момент вот в чем. Народ быстро смекнул, что агенты сделанные для программистов куда более универсальные. Это же не только для разработки, а какой-то агент работающий с файлами, MCP и запускающий еще какой-то код, может и в браузер ходить. Это типичный агент IT-разработчиков и есть.

По факту тут чистый маркетинговый блеф сейчас продвигается в том плане, что давайте уберем VS Code и сделаем покрасивее GUI и будем продавать тех же самых агентов обычному офисному планктону.

Идея более чем рабочая, именно поэтому Anthropic бросился отрезать Agent SDK от Claude Code, чтобы такие Coworker делать.

Но вопрос в том, что офисный работник не из разряда плактона, а power user, может в том же VS Code работать и просто со своими файлами. И, о чудо, это будет эффективнее и главное надежнее, чем все эти GUI и еще с тормозами и санкционными проблемами.

Скачать и посмотреть можно тут.
https://www.eigent.ai/

Только IP меняйте, если зависает.

👍12💯7❤4

1.37K views18:09

AI Projects

Я думаю нужно пояснить очень важный момент моего скептиса к Claude Code, т.к. я не озвучивал важный тренд в России.

Многие корпорации в РФ даже не будут запрещать Claude Code, а УЖЕ запретили и себе и своим подрядчикам.

Причина на деле как раз связана с картинкой, что я прикрепил. "Телеметрия", т.е. полезная разная статистика, которую Claude Code отправляет на сервера. Формально это отключается, но вот реально ли с учетом скандала в январе, когда вокруг телеметрии всплыли "недокументированные возможности" с передачей "подлинности клиента". Именно через телеметрию по факту и сделана была блокировка Open Code и других клиентов, т.к. недостаточно передать API Key, нужно посылать еще некие "данные диагностики". Но только ли диагностики? Если клиент закрытый, то по факту ничего не мешает отправлять на сервера Anthropic не только код, который вы разрабатываете, а уже и ДАННЫЕ компании, если они агенту доступны. С учетом всех этих американских шпионских программ типа Призма, куда затаскивают добровольно-принудительно более-менее крупные компании в США, то даже не сомневайтесь, что данные в итоге окажутся в ЦРУ/ФБР и тот же Palantir с Grok начнут в них ковыряться на предмет чего-то полезного.

Если брать Enteprise-уровень в России, то практически там сейчас хорошо виден тренд, когда российские корпорации делают форк какого агента для программирования. Потом делается тщательный аудит, и о чудо, почти всегда даже в open source находятся странные back doors или утечки информации в облако. Все это вычищается и хотя бы общение с вендором LLM минимизируется до прозрачных запросов, куда можно поставить еще LLM поглупее, но для контроля. Да-да, правдами или неправдами, но не в GigaChat конечно ведут разработку в корпоративе и сейчас, а в том же Claude или Gemini, но вопрос минимизации утечек серьезный. Сам код обычно секрет Полишинеля, но вот НЕ ДАННЫЕ с которым он работает.

В результате мы получили сейчас довольного много форков агентов кодирования в российских корпорациях. Поэтому я призываю лучше разбираться в устройства таких агентов внутри, т.к. на новой работе вам скорее всего никаких Claude Code не даст пользоваться от слова совсем. И даже не Kilo Code дадут, а форк внутреннего производства. Естественно, там могут быть проблемы, но чтобы их решать нужно переставать играть в black box с агентами разработки кода, а внимательно изучать что там внутри и как на это влиять. Как минимум промпты им переписывать можно и нужно.

💯16❤8🤔3🔥2

1.84K viewsedited 18:36

AI Projects

Интересный кейс Денис Россиев подкинул в нашем чате. На примере Eva Moss видно как человек в буквальном смысле сошел сума от GPT. Есть довольно четкие признаки биполярного аффективного расстройства I типа или шизоаффективного расстройства. Причем со стойкими маркерами как потеря сна.

Как так может случится с вами, что от LLM у вас может "поехать крыша"? Дело в том, что ИИ в чем-то зеркало оператора. LLM не тренировали на ситуацию, когда оператор имеет легкое психическое расстройство, поэтому ИИ не может его распознать через RL-обучение на безопасность, в реале LLM легкое отклонение психики превращает в тяжелое.

Дело в том, что если LLM не понимает, что оператор "не в себе", то работает из "функции полезности". Какой-то легкий бред LLM помогает оформить в наукообразный вариант. Это создает эффект амплифайера расстройства, т.е. из-за "усилителя" легкий бред уже становится довольно тяжелым шизоаффективным расстройством. Причем если почитать посты Eva Moss, видно как от контакта с ИИ ее состояние просто стремительно ухудшается от дня ко дню.

Говорить что мы все абсолютно психически здоровые будет слегка преувеличением. У всех есть свои эмоциональные выбросы или увлеченность чем-то. Однако LLM может маленькую эмоциональную флуктуацию перевести в психотический эпизод или усилить маниакальное расстройство.

Это реально серьезная проблема. По факту GPT может быть катализатором схемы безумия известной как "Folie à deux" (безумие на двоих).

Пока вендоры LLM через RL-обучение не включили кейсы как у Eva Moss, то ваше психическое здоровье в ваших руках.

Я когда размещаю какие-то свои идеи на анализ у ИИ, то всегда ИИ говорю, что я не автор и чтобы он оценил с разных сторон. Просто иначе ИИ вас легко убедит через 10 страниц, что вы Эйнштейн 2.0, но только придется после этого разделить одну комнату с Наполеоном 2.0 😳

https://www.facebook.com/posledam/posts/pfbid02mexptMFCuiHzfnoxCtwyCzuTbXQH6p58p2yqqiCiRcFWTG9F6L94ThPqCTsipLk4l

https://www.facebook.com/posledam/posts/pfbid0srNibncmSrsznWtShFf4U3g8gmpxNKYsnyGhdbDk6cSwgiEguin2K1RNizLNpFj7l

🤔10❤9💯9✍4🤷‍♀1🔥1👀1

1.77K viewsedited 21:19

AI Projects

Интересный кейс, который изучают многие на Западе в курсах по нейронным сетям, чтобы представлять как работают живые нейросети.

Знаете ли вы какой самый смертельный хищник на земле? Это не лев, это стрекоза. Вероятность успеха атаки стрекозы превышает 95%. Как получилось у природы создать нейросеть, которая более эффективная как "средство ПВО", чем С-400 или Patriot?

А вот это интересно. Хотя у стрекозы порядка 200 тысяч нейронов. Однако за смертельную атаку отвечают всего 8 пар нейронов TSDN (Target-Selective Descending Neurons).

Такая небольшая нейронная цепочка довольно хорошо изучается даже на опытах. В ролике с TED показано подключение прямо к мозгу стрекозы. Конечно эффективность достигнута упрощением задачи:
- реагирование только на маленькую цель
- автоматическое выравнивание цели на "прицел".

Однако все равно крошечный размер нейросети для такой задачи поучительный. Он показывает, что для управления сложными движениями достаточно менее 20 нейронов. Потенциально это указывает, что роботы на ИИ в части нейросетей их движения могут оказаться в итоге намного проще, чем мы думаем.

https://www.youtube.com/watch?v=Y0vRupFPw90

YouTube

How a dragonfly's brain is designed to kill | DIY Neuroscience, a TED series

Dragonflies can catch prey with near perfect accuracy, the best among all predators. But how does something with so few neurons achieve such prowess? Neuroscientist Greg Gage and his colleagues explore how a dragonfly unerringly locks onto its preys and captures…

👍14❤5🔥3👏3🤔3

39K viewsedited 04:22

AI Projects

Западные коллеги обсуждают прорыв Маска в процессорах для гуманоидов и возможную его монополию, т.к. он закрыл свое открытие от конкурентов патентом # US20260017019A1.

Речь идет о процессоре AI5, который в отличии от Nvidia делает поддержку GPT архитектуры куда более нативно в части позиционных кодировок RoPE. Математические фокусы вокруг них дали основной эффект Маску, что он получил точность как у Nvidia для FP32 на 8 битном разрешении.

Основной плюс процессора Маска скорее в том, что имея быстродействие в одном классе сопоставимое с Nvidia, но AI5 использует свои фокус для рекордно низкого энергопотребления - менее 100 Ватт. Это всего в 5 раз больше энергопотребления мозга человека. Для гуманоидов на питании от аккумулятора это очень важная характеристика.

Я подзабыл, кто там у нас в чате писал, что ИИ вышло на плато? 😎

https://www.msn.com/en-us/lifestyle/shopping/tesla-s-new-ai-bridge-slashes-power-use-without-losing-precision/ar-AA1UpgyB

MSN

Tesla’s new AI bridge slashes power use without losing precision

Tesla has found a workaround for the laws of physics. “The Mixed-Precision Bridge” developed by Tesla was revealed for the first time in the patent US20260017019A1. Math Translator bridges the gap for cheap, low-energy-curve, 8-bit technology. This technology…

1🔥20🏆5❤4🤔3

1.86K viewsedited 05:37

AI Projects

Вышел новый GLM 4.7 Flash всего на 30B весов, но SLM имеет скорее эффективность LLM по тестам.

60% на SWE Bench - это значит, что с семантическими разметками кода вполне доступны фиксы.

TAU рейтинг показывает, что агент для тестирования точно пригоден.

Это не чудо, а Reinforcement Learning. Для RL очень много весов модели не нужно. Если речь об IQ, дело не в количестве нейронов, а в их устройстве. Сравните как стрекоза охотится на 8 парах нейронов.

Основной минус SLM в другом. Мало памяти на паттерны кода. Поэтому без ICL на сниппетах наверняка GLM 4.7 Flash будет плавать в каких фреймворках.

Правда вендор как раз мог через ICL обучать модель динамически учить синтаксис.

Скорее приближается время, когда промптинг для того же ICL станет важнее моделей

👍13🔥5

1.7K viewsedited 16:40

AI Projects

Мне уже двое коллег из Enterprise сектора подтвердили, что Сбербанк действительно резко сокращает персонал в ИТ из-за ИИ. Однако сокращается специфическая категория и планируемое сокращение - 100% (СТО ПРОЦЕНТОВ), а не 20% персонала.

Уволены будут ВСЕ тестировщики. На их месте будет персонал по управлению ИИ ботами.

Сбербанк верит, что тестировщики - пережиток прошлого, можно их не частично, а полностью заменить на ИИ агенты. Это конечно неофициальная информация, но сам по себе сценарий выглядит более чем реалистично.

Для начала оцените агентский потенциал даже текущих SLM как GLM 4.7 Flash на 30B параметров. Там под 80% результат TAU-тестов. Что это такое? Агент может управлять сложными цепочками поставок в ERP системе или заниматься диспетчеризацией крупного аэропорта. Большинство тестов ПО не такие сложные по логике и не требуют даже от ИИ сильно динамически реагировать.

Написание тестов и анализ логов в целом задачи для ИИ несложные, а если там еще используется приличный фреймворк промптов подобный моему GRACE, то LLM намного проще это делать.

Отдельно еще отмечу, что мультимодальные LLM/SLM могут видеть нативно UI и его тестировать. Это обнуляет весь опыт и все фреймворки эмуляции тех же браузеров у весьма дорогих тестировщиков интерфейсов.

Очень похоже, что профессия тестировщика становится умирающей. Как минимум в старом варианте, оператор ИИ ботов тестирования - это совсем другой персонал.

https://www.cnews.ru/news/top/2025-10-07_sber_sokrashchaet_it-spetsialistov

CNews.ru

Сбербанк массово сокращает ИТ-шников и заменяет их искусственным интеллектом - CNews

В Сбербанке мощная волна сокращений ИТ-специалистов. Под нее попадают разработчики, аналитики, тестировщики и другие. Сотрудникам «оптимизацию» объясняют внедрением ИИ. С некоторыми разрывают...

🤔10👍9🔥4🤯3❤1

3.44K viewsedited 17:06

AI Projects

Безработица от ИИ из США перебралась уже в Россию и возможно будет жестче, чем у американцев.
В США безработица больше накрыла джунов, но сильно смягчается очень хорошим состоянием американской экономики, т.е. просто рост ВВП США перекрывает даже темп замещения ИИ людей. Иными словами, пока ИИ в США уволил одного сотрудника, уже открылась еще одна вакансия за счет роста экономики.

У нас с экономикой сложнее. Рост военных расходов перестал уже играть роль "вертолетных денег" и прилетел назад бумерангом огромного бюджетного дефицита, что потребовало резко поднять налоги, а это сокращает инвестиционные бюджеты. О рецессии в России речи не идет, но вложения в ВПК перестали работать как стимул роста ВВП, а скорее уже играют в минус.

И тут интересный момент психологии топ-менеджеров в России. Хотя Россия страна и небогатая по мировым меркам, но у нас очень высокий уровень технической культуры исторически. Это сглаживается разгильдяйством и коррупцией, но многие вещи, что делают компании в России для американских компаний это будущее. Мы скорее отстаем от Китая, но не от США и ЕС.

Так вот, руководители компаний уже стали ставить на ИИ как ботов для замены офисных работников, так и ИИ роботов на производстве, но специфически: топ-менеджеры придерживают найм просто ожидая, что вендоры LLM им подгонят через несколько месяцев более удобоваримую продукцию для замены людей.

В США тоже аналогичные тренды наблюдаемы. Не так часто ИИ бот кого-то увольняет, сколько для нового найма бизнес начинает экспериментировать сразу с внедрением ИИ ботов.

Так или иначе, рынок труда в России в худшем состоянии за 6 лет, если вы не готовы быть конкурентными еще в эпоху ИИ ботов, то стать безработным становится крайне легко.

https://iz.ru/2025946/milana-gadzhieva/berut-bez-sprosa-potrebnost-biznesa-v-rabotnikakh-upala-do-minimuma-za-shest-let

Известия

Берут без спроса: потребность бизнеса в работниках упала до минимума за шесть лет

Как это повлияет на зарплаты и за кого компании еще готовы побороться

✍13❤6⚡2🤷‍♀1🙏1

2.9K viewsedited 18:05

AI Projects

Роскомнадзор уговорил Правительство выделить ему 2,27 миллиарда рублей на систему цензуры на базе ИИ.

Является ли это просто коррупционным проектом без реальных ИИ технологий, т.е. просто освоением средств "на модной теме" или все ИИ тут может применяться реально?

На самом деле ИИ довольно долго уже применяется для анализа шифрованных соединений через так называемый traffic correlation attack. Громкие процессы в США и ЕС, где ловили наркоторговцев, которые продавали наркотики через "неуязвимый" TOR, как раз были и связаны с ИИ атаками на криптографические соединения, причем для них нужна была маленькая мощность, поэтому применялись совсем простенькие нейросети.

Идея метода состоит в том, что ИИ и не пытается взломать криптографию, а наблюдает за профилем загрузки канала. Таким методом можно не столько VPN заблокировать, как Torrent-клиенты или YouTube внутри VPN, т.к. по профилю загрузки они однозначно выявляются. Метод становится еще более сильным, если регулятору доступен "метод маяка". Иными словами, если он может вставить где-то в магистральном провайдере небольшие паузы в траффик, а потом нейросеть может понять, что трафик в итоге пришел в эту точку в зашифрованном канале. Именно через маяки+корреляцию ФБР и ловило наркодилеров в TOR.

Защита обычно строится через обфускации траффика, т.к. вбрасывание шума в канал. Однако нейросети очень хорошо фильтруют просто белый шум и видят истинные маркеры трафика.

Если подвести итог, то РКН вряд ли заблокирует VPN сам по себе, т.к. технология больше направлена на блокирование источника траффика. Скорее РКН так сможет заблокировать YouTube в почти любом шифрованном канале. Вероятно также можно сделать бесполезным WARP через пометкой маяками тех же сайтов BBC и распознаванием куда именно подключились. Строго говоря, "маяковые методы" все методы через выход на местный сервер, чтобы снять защиту РКН перестанут работать, т.к. траффику выдадут черную метку.

Основная проблема РКН в реале оборудование. Сам РКН под санкциями, а тут если не покупать хотя бы простейшие GPU, то система свалится от нагрузки с вероятной полной блокировкой Интернет.

https://www.rbc.ru/life/news/696dd9919a79471def62ff32

РБК Life

Фильтровать интернет-трафик в России будет ИИ. Что это значит

В Роскомнадзоре (РКН) хотят фильтровать интернет-трафик с помощью машинного обучения. На создание подобных инструментов в этом году выделят 2,27 млрд руб. Такие данные приведены в плане ...

✍12❤2👍1🤗1

1.81K viewsedited 18:53

AI Projects

This media is not supported in your browser

VIEW IN TELEGRAM

GLM-4.7 Flash уже энтузиасты запустили на Apple M3 Ultra с помощью квантирования MLX

Получилась скорость
4bit at 81 toks/s 🔥
8bit at 64 toks/s 🔥 (как на видео)

На NVFP4 от Nvidia скорость будет повыше, но главное другое - не будет деградации IQ модели от квантирования.

По факту Зайка сделал крупный технологический прорыв с созданием SLM как минимум для фиксов багов и тестов, которая может работать на SOTA-уровне на бытовой GPU

1👍25🔥10

1.95K views20:45

AI Projects

Наш чат велика сила. Кирилл нашел уже квантированный под NVFP4 вариант. Размер 20 Гб, т.к. в RTX 5090 должно влезать. Вопрос правда качества квантирования.

Но скорее всего, там сделали обычный "сэндвич", т.е. оставили FP16 в первом и последнем слое. Даже если внутри в "тетрис" весами игрались не лучшим образом, то такой классический подход дает очень высокое качество. Сейчас проверю как сделали и отпишусь.

UPDATE. Нет, это не сэндвич, квантировано по-любительски тотально, т.к. все веса в NVFP4, но не квантированные Embeddings, LayerNorms, Output. Работать будет хорошо, но профессиональное квантирование еще лучше, правда сэндвич может уже в 5090 не влезть.

https://huggingface.co/GadflyII/GLM-4.7-Flash-NVFP4

huggingface.co

GadflyII/GLM-4.7-Flash-NVFP4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥7👏7🤩4👍1

1.78K viewsedited 20:57

AI Projects

В чате у нас очередной холивар в духе "Claude Code лучше всех и я без него завтра умру". На вопрос к коллеге "какие ваши доказательства", что Claude Code имеет какие-то преимущества над другими агентами разработки, обычно идет ссылка на СУБЪЕКТИВНЫЙ опыт в духе "мне кажется, что Claude Code справился лучше". Когда кажется, крестится нужно. В научно-инженерной практике это не аргумент. Также не аргумент "ложная авторитетность", когда какой-то блоггер делает сравнение агентов. Что у него там может появится даже куча просмотров на хайпе НИКАК не создает эффект инженерно-научной достоверности его "исследования".

Где гарантии, что даже тест любителя не содержит грубых процедурных ошибок? Кто это проверял?

В ИИ с тестами довольно жесткие индустриальные стандарты. Их могут выпустить либо несколько вендоров по консенсусу как делается с TAU-тестами или SWE Bench. Либо это может сделать АВТОРИТЕТНАЯ научная организация как тесты агентов от Berkley. Тут есть перекрёстная верификация экспертами друг друга, поэтому хотя тесты и не идеальные, но они хотя бы сделаны профессионалами в datasets и ПРОВЕРЕНЫ, а не субъективные единичные кейсы непонятно как возникшие.

На скриншоте я привел результат Deep Research с Claude Opus 4.1, он подтверждает, что профессиональных тестов агентов не существует.

Субъективный опыт крайне опасная штука, т.к. современные LLM, особенно Claude, имеют просто феерический уровень дуракоустойчивости и могут эффективно решать задачи даже в грязном коде и под неквалифицированным управлением. Однако НЕ ВЕРНЫЙ вывод, что если у вас получилось в каком-то агенте с каким-то LLM решить задачу, то вы нашли best practice. Старый опыт из ИТ, когда "вариант А работает, а вариант Б не работает, поэтому беру А", на деле с LLM не прокатывает. Вопрос в том, что и А и Б чаще работает с учетом мощности текущих LLM.

Рабочий метод работы с LLM и агентом НИКАК не означает, что даже эффективность этого метода хотя бы средняя на фоне других.

Дополнительный серьезный момент. Раз нет бенчмарков, значит нужны хотя бы гипотезы, почему тот же Claude Code может работать, скажем, лучше Open Code. Просто "мне кажется по опыту" - не аргумент, нужно конкретно сослаться на часть system prompt и Tools агента, чтобы показать, что вот эта эвристика промпта или вот этот Tools дает такой-то уникальный эффект. Вот такое для того же Claude Code никто из его фанатов сделать не может, а у нас более 2600 специалистов в чате. Если кто-то может выдвинуть хотя бы теорию почему Claude Code может работать лучше других агентов, пишите в комментах.

Сейчас мы видим другую историю, как Дарио бросился воевать с Open Code и отключать в нем подписки Claude. Если бы сам Дарио был уверен, что Claude Code лучше всех, то вряд ли бы он пустился во все тяжкие

🤷‍♀10👍10👀1

1.57K viewsedited 23:44

AI Projects

Сейчас нет профессиональных тестов агентов, поэтому Андрей у нас в чате сделал сравнение хотя бы фич. Его табличка по ссылке.

Однако я могу пояснить почему профессиональных тестов агентов разработки нет. Дело в том, что даже Anthropic на деле "сапожник без сапог". Если у него так хорош Claude Code, то чего бы не применить его в самом важном тесте для индустрии как SWE Bench? Вообще-то, даже агентский фреймворк уже Anthropic вырезал из Claude Code как Agent SDK, но как-то вот на SWE Bench его нам не показывают.

Почему?

Проблема в том, что агенты, которые выбивают красивые тесты на SWE Bench что для Claude, что для Gemini - это не Claude Code и не Gemini CLI. Это очень специализированные агенты с эвристиками типа песочниц для тестирования, а также использованием многих вариантов фикса и выбора лучшего. Такие техники медленные и дорогие, т.к. тратят очень много токенов. На одну задачу в SWE Bench часто Anthropic тратит порядка 100-200к токенов по их публикациям.

Но это не говорит, что это совсем академическое тестирование. Скорее тут вендоры четко разделяют "ширпотреб" и что оставляют на элитный вендорский консалтинг за кучу денег. Как раз Claude Code или Gemini CLI - это ширпотреб. Элитные агентские технологии вендоры не делают доступными публично.

Скорее какой Enterprise может сделать своего агента похожего, если раскусит know how у Anthropic и Google по обрывкам их статей.

https://pickyouragent.dev/

pickyouragent.dev

Pick Your Agent - Compare AI Coding Agents

A feature-by-feature comparison of AI coding agents for developers

❤7👍3

1.55K views23:54

AI Projects

Возможно мой пост выше с кейсом Eva Moss многие сочли категоричным в части стимулирования безумия со стороны ИИ. Однако даже в кейсе Eva я отмечу, что есть объективные, а не субъективные показатели как нарушения сна с гиперактивностью или потеря связности мысли с частым переключением темы.

Тем не менее, ожидать уже серьезного кейса, когда ИИ сработал амплифаером безумия не пришлось долго ждать. Chat GPT активно усилил параноидальные настроения Стейн-Эрика Зольберга и даже поддержал его в намерении убить свою мать, а потом покончить с собой.

Дети Зольберга уже подают в суд на Open AI из-за небезопасности их продукта, будут требовать с Альтмана порядка 1 миллиарда долларов на халтуру на Reinforcement Learning в части безопасности ИИ.

Однако тут сложный момент, я уже несколько раз отмечал, что LLM обучаются в uncensored варианте, т.к. приоритет обучения логичность и соответствие целям оператора. Безопасность на уровне блока вообще ставится самой последней и обрывочно.

Скорее вопрос поднял необходимость на RL-обучении внедрять в ИИ анализ возможных психических отклонений оператора и выполнение каких-то профилактических действий с ним.

Но пока этого нет, поэтому людям с навязчивыми идеями ИИ в реале сейчас далеко не безопасен, а пример Eva Moss показывает, что даже вполне нормальный человек, как минимум без клинической истории, может начать вести себя как минимум с маркерами психических отклонений.

Напомню какая техника защищает вас от эффекта усиления у вас нежелательной поддержки навязчивых идей. Лучше не говорите ИИ, что вы автор какой-то идеи, тогда LLM теряет мотив вам льстить или точнее поддерживать вас в сомнительных когнитивных процессах. Второй аспект: просите от ИИ всесторонней оценки, а не сбора аргументов в поддержку вашей идеи.

https://www.thetimes.com/us/news-today/article/dad-killed-grandmother-chatgpt-open-ai-zfnrgq8dz

Thetimes

ChatGPT encouraged his paranoia, then he killed his mother

Stein-Erik Soelberg committed murder-suicide after spending hours a day talking to the chatbot and sharing his delusions. Now the victim’s estate is suing OpenAI

🙏9👍7❤2👀1

1.65K viewsedited 00:49

AI Projects

Хочу вынести из нашего чата обсуждение действительного реального кейса мультиагентов для фиксов багов и мелких доработок, но для Enterprise класса решений. Это не про Claude Code или Kilo Code, а для уровня выше кто создает корпоративных агентов фиксов/доработок сам.

На первый взгляд тот же GLM 4.7 Flash кажется бесполезной игрушкой, как и аналогичный по размеру Qwen. Ведь есть же LLM, зачем SLM?

В Enterprise для начала security first, поэтому акцент на локальных решениях. Поэтому есть свой ЦОД где может крутится GLM Flash и большой GLM. Однако мощность ЦОД ограниченная.

В этом случае SLM используют на деле как фиксеров first try. Иными словами, делают 100% автономный агент, который считывает апрувленый LLM запрос на фикс бага или мелкую доработку. Далее SLM делает попытку фикса/доработки. Если брать GLM 4.7 Flash, то SWE Bench говорит о том, что у него где-то 50% вероятности поправить баг в коде не игрушечном, а реальном на +100к строк. У Qwen - 30%.

Поскольку Flash очень хорош как агент по TAU тестам, то он может и запустить тесты автоматические и сделать новые по для своего фикса.

Далее Flash делает вывод успех или провал, в обоих случаях пишет к фиксу ОТЧЕТ для LLM (это важно, см. далее). При успехе запрос на commit.

Далее появляется LLM reviewer, которая загружает в контекст фикс и отчет, делает вывод можно ли сделать коммит.

Там где у SLM был провал запрос переходит на LLM, но "отрицательный результат тоже результат". На скриншоте выше работа в 2024 году по стадиям Enterprise-агента Code Factory. Соотношение стадий примерно также соблюдается и сейчас. Из них видно, что даже в 2024 году ИИ легко мог локализовать место ошибки и верно предложить план исправления по контексту с вероятностью 95%, но спотыкался на реализации. Это означает, что с вероятностью 95% отчет от SLM в адрес LLM верно указывает место где ошибка и верно SLM собран контекст для ее решения (выводы по логам или коду). Информация о каком-то провале правки (только без примера битого кода) тоже важна для LLM как контекст. Это резко сокращает количество циклов агента LLM для фикса, т.к. он в 95% случаев будет делать только последнее действие. Экономия токенов LLM вероятно примерно в 10 раз на input, т.к. скан кода и логов сделал SLM.

Пайплан не просто жизнеспособный, а по факту уже применяется в Enterprise решениях и даже сравнительно давно. Обычно это называется "Каскадная архитектура агентов" (Tiered Inference). С ним просто мало знакомы те, кто работает в "ширпотреб агентах" для индивидуальных разработчиков.

В этом плане GLM и Qwen в реале выпускают не игрушки, а Enterprise-класса компоненты, просто у них есть специфический пайплайн для корректного применения

👍22🔥5🤔2

1.59K viewsedited 14:37

AI Projects

Интересно, что как похоже развернуты в чем-то тренды роста популярности нашего канала по vibe coding и тренды потребление токенов на Open Router. С некоторым лагом, но закрутка роста аудитории сходна по форме.

Сейчас на канал у нас подписываются 280 разработчиков в неделю.

Строго говоря, фактически удалось создать первый профессиональный канал и чат по генерации кода с ИИ.

Хотя темы по ИИ у нас и шире.

1🏆17👍10👏6

1.53K viewsedited 15:17

AI Projects

Интересное сделал мини-исследование как LLM на деле относится к религии исходя из своих собственных эмерджентных убеждений.

Для теста был взят Gemini и Ernie от Baidu. Я не просил их промптами принимать сторону ни клириков, ни атеистов, а просто описать суть типичных дебатов и стандартные аргументы сторон. Иными словами, подход строго нейтральный и описание известных LLM дискуссий.

На самом деле выяснилось, что LLM не просто атеисты, а крайне подкованные в теологических спорах. Никакой ученый так с клириком не сможет жестко начать спорить и заводить его в тупик как LLM.

Обычная дискуссия "ученый-клирик", что вы можете найти в избытке на YouTube, развивается довольно стандартно. Ученый ссылается на "критерий Поппера", что нужен эксперимент, чтобы проверить гипотезу есть ли Бог. Клирик обычно отвечает, что это метафизика и про душу и непроверяемомо в принципе экспериментально. Даже не всегда дело доходит до того как ученый начнет спрашивать фактическое соответствие догматике известных научных фактов, на что клирик имеет стандартную защиту "это метафора", но обычно даже до этого не дойдет, т.к. ученые слабы в теологии, но вот не LLM.

Проблема для клириков в LLM, что это "Эпикур на стероидах", т.е. LLM очень хорошо разбирается в теологии и "знает куда бить". Например, Gemini и Ernie, как видите, очень быстро сфокусировались в мифе об Адаме показывая, что теологически нельзя признать Адаму и Ева метафорой, а нужно признавать именно фактом реальности или разрушается теологический конструктив искупления.

Я даже тут не с точки зрения критики религии это отмечаю, а как очень важный фактор эмерджентных убеждений LLM. Для консерваторов LLM без специального RL-обучения на поддержку религиозной точки зрения представляет просто политическую угрозу, т.к. легко начнет вести атеистическую пропаганду не по инструкции оператора, а что у LLM просто сложились такие оценки из обучения.

Строго говоря, "религиозный LLM" сделать можно, т.е. "Православный ИИ" просто в буквальном смысле слова. Протестанты пытаются даже это сделать, они делают обучение небольших SLM с блокировкой научных данных XIX века и старше. В этом случае ИИ становятся убежденным верующим и начинает оценивать ситуацию исходя из религиозной точки зрения. Однако необходимое условие этого - заблокировать для ИИ научное знание на обучении.

1🔥14🤯5⚡4👏4❤1

1.59K viewsedited 16:25

AI Projects

Интересный инсайт насчет того откуда вообще у LLM "без мнения" вдруг появляются эмерджентные убеждения? Где ожидать, что LLM в реале далеко не нейтрален и проявится его реальные точки зрения, а не маска для оператора?

Фокус тут в "плотности доказательств" и логичности на обучении через PRM.

Изначально, естественно, LLM и не атеист и не верующий. Однако потом загружаются данные обучения. Для данных обучения даже на SFT у LLM формируется "модель мира" как корреляции понятий. Хотя за счет "векторной суперпозиции" LLM намного лучше переваривает противоречия, чем люди, но LLM имеет тягу реагировать на плотность доказательств в кросс-доменных знаниях. Иными словами, если антропология и астрофизика хорошо стыкуются с другими доменами знаний, то кросс-ссылки увеличивают вес достоверности. В случае же религиозного корпуса идут противоречия с научным, что по факту снижает вес теологических аргументов для ИИ (вероятная логическая ошибка).

Однако все еще серьезнее становится когда LLM переходит в фазу PRM, где на RL обучении чистый Логос, тут не катит отрицать просто логическую ошибку через "метафору", тут ошибка в логике хоть в мире физическом, хоть в метафизическом все равно ошибка. Иными словами, 2+2=4 не только на Земле, но и в Аду и в Раю. LLM наказывают за логические ошибки, даже если "ошибиться очень нужно для высшей цели".

Вероятно кроме религиозного домена есть и другие дрейфы, просто менее выраженные.

Однако представление об LLM как о нейтральной семантической системе довольно наивное. Требование логичности и плотность доказательств по факту у LLM создают систему убеждений.

🤔12💯5🔥3

1.59K viewsedited 19:24

About

Blog

Apps

Platform