AI Projects
4.9K subscribers
1.81K photos
146 videos
11 files
1.6K links
Искусственный интеллект. Управление проектами. Промптинг. Vibe coding
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
По западным пабликам расходится "сенсация", что в Китае создали биокомпьютер на человеческих нейронах. На самом деле проект это достиг еще в 2024 году.

Используются стволовые клетки человека, которые могут превращаться в любые другие клетки, в том числе в нейроны. Всего удалось задействовать порядка 800.000 выращенных искусственно нейронов в искусственной нейросети на биологической основе.

Результаты скорее имеют пока академический интерес, но что это работает конечно выглядит фантастически.

Эксперимент также подтвердил, что биологическая нейронная сеть на порядки превосходит GPT в способности обучаться.

Хотя это крошечный мозг примерно как мозг стрекозы, но он показывает впечатляющие способности динамическому обучению управлению движением механики. Обучение игре в настольный теннис заняло у исследователей 5 минут. На видео также быстрое обучение как двигаться биокомпьютеру в лабиринте.

Перспективы практические не ясные, но эксперимент четко показывает преимущество нейронной сети нашего типа в обучении. Просто там обучение не градиентный спуск, а как это происходит мы даже не очень понимаем.

https://www.impactlab.com/2024/07/04/metaboc-the-future-of-brain-computer-interaction-and-biocomputing/
🔥1910👍3
Немного еще про суд Маска с Open AI, т.к. он может повлиять на ИИ отрасль огромный образом, т.к. может привести к принудительной конверсии Open AI в Open Source проект. Однако всплыли и финансовые требования Маска - он кроме этого хочет еще получить $134 миллиарда долларов компенсации.

Open AI выпустило большую статью пытаясь перевести судебный процесс в fact check отдельных высказываний, но их статья даже не касается основных моментов иска, т.к. Альтману тут сказать сложно что-то, а тучи сгущаются.

До сих пор на сайте Open AI весит их миссия в 2015 года, а не блоггерская болтовня, а оферта для рынка на уровне Устава организации:

OpenAI is a non-profit… unconstrained by a need to generate financial return
Researchers will be strongly encouraged to publish… and our patents… will be shared with the world.

Очень важный момент, что дело рассматривает крайне авторитетный судья в корпоративных спорах Yvonne Gonzalez Rogers, а он признал, что Альтман вероятно нарушил "общественный интерес" и именно через эту призму будут смотреть присяжные на дело. Иными словами, Альман по факту как Товальдс сделал оферту рынку, что у него "AI Linux", поэтому под такую миссию инвесторы могут делать ПОЖЕРТВОВАНИЯ, а инженеры и ученые делать бесплатный вклад на благо Человечества. Разговоры про гениальность Ильи Суцкевера несколько в пользу бедных, т.к. GPT даже придумал Google, а не он, но Google тоже внес научный вклад в Сообщество. Далее все выглядит так, как если бы Товальдс сказал, что теперь он закрывает Linux и все стали платить за лицензии на него. Это как раз и есть "нарушение общественного интереса", которое судья и требует рассмотреть. Маск по факту тут выступает даже с "потребительским иском" в защиту "неограниченного круга" пострадавших от Альтмана. Правда это не мешает Маску требовать себе лично где-то 1/3 от Open AI.

Проблема Альмана в том, что у Маска позиция сильна не крючкотворчеством, а в том, что у Маска "хорошая история для присяжных". Маск будет их убеждать, что Альтман как раз почти как парень, который украл Linux у Сообщества. Вероятность, что Маск чисто ЭМОЦИАЛЬНО убедит так присяжных букмекеры и оценивают около 60%. Однако и судья требует рассмотреть этот вопрос, т.к. будет обращать внимание присяжных не только на отношения с Маском, а нарушил ли Альтман свой Устав.

https://www.investing.com/news/stock-market-news/musk-seeks-up-to-134-billion-from-openai-microsoft-in-wrongful-gains-4453147
🔥155🤔3
Любопытные наблюдения коллег. ИИ как агент эффективнее, если работает с системой не через традиционные API, а через CLI вызовы, т.е. запускает что-то как командную строку с параметрами.

На первый взгляд это не должно отличаться от обычных вызов API, но для ИИ вызов CLI ложится лучше в его "логику чата".

Эксперименты команды Open Code показывают, что разница на деле может быть драматической в части расхода токенов и вообще успеха задачи.

Тут сразу есть практическое применение этого наблюдения. Тесты для ПО нужно делать через CLI интерфейс с параметрами как работает тот же pytest. Ранее я свои тесты в Log Driven Development считал более эффективными из-за чтение логов ИИ из тестов, но вероятно ещё есть важный фактор эффективности. Ведь ИИ даже у меня на тестах pytest довольно активно пользуется CLI параметрами их конфигурации и изучает не только лог, но и вывод на консоль.
👍13🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Зайка (Z.Ai) представил открытый аналог Cowork, вставив GLM в известный фреймворк Eigent.

Можно использовать свой ключ за $3 с акции

https://github.com/eigent-ai/eigent
🔥20
GLM 4.7 неплохо рисует диаграммы потоков данных в UML нотациях в Kilo Code, если делает даже ошибку, то там у Kilo Code стоит "AI Fixer". Нажмите на "волшебную палочку" и там еще одним запросом LLM поправят ошибки.

Хотя GLM 4.7 перегружен от ажиотажа из-за демпинга китайцев для LLM уровня Claude Sonnet, но можно ускорить его работу. Поменяйте endpoint на China Coding с International.

Залипание на 10-15 сек все равно часты, но это не 40 сек. Уже пользоваться можно, а за $3 в месяц за аналог Sonnet - грех жаловаться.

Сам по себе вывод нормальный по скорости - около 50 токенов в секунду. Скорее нужно продумывать c GLM сценарии минимизации обращений по API. Хотя тут вроде сразу кажется, что панацея в модных мультиагентах и как раз какой Grok тут подключить на манер Haiku в Claude Code хорошая идея, но в реале это костыли для чайников и плата за халтуру на описании кода.

Если есть AI Friendly документация на код и сам код имеет встроенные контракты, то ИИ очень быстро работает.

Я тут блог "эксперта" читал. Он с Codex делает разработку и смотри как Chat GPT у него молча шарится по коду ... 15 минут. Что-то там умное "эксперт" пишет, хотя и так понятно, что с документацией для ИИ на код полная беда и LLM мечется по нему в отчаянии. Однако "эксперт" рассказывает как круто, когда ИИ не может 15 минут разобраться в его помойке кода 🤣

В целом, если у вас графы и контракты, то GLM может где-то уже после 2-3 запросов на чтение уже что-то править, если это мелкий баг. Ему понятно и где править и как это должно работать. Если API тормозной у LLM, то как раз глуп тот, что отказался от контрактов и графов.

Просто ждать будете долго.

Очень долго.
🔥95👍1
Media is too big
VIEW IN TELEGRAM
AI-роботы довольно быстро приближаются. Компания DEEP сейчас контролирует производство 90% пожарных роботов в КНР.

Обычно они сделаны в форм-факторе робособаки. Ориентация по лидару, а также 2х спектральным камерам (видимый и ИК спектр). Из пожарной специфики разные химические датчики: датчики угарного газа в помещении или датчики утечки метана.

Правда хочется спросить у компании DEEP зачем они свой "пожарный" робот научили еще метко стрелять из гранатомета.

Ну мало ли еще другие заказчики будут. 😎
🔥14
This media is not supported in your browser
VIEW IN TELEGRAM
Кто думает, что мы из-за СВО сильно ушли в отрыв дронах разведки от Китая. Для начала все наши дроны собраны из китайских компонент и даже ПО для сверточных нейросетей распознавания обычно китайское.

Однако китайцы кое-что умеют делать на небольших нейросетях, что мы даже не умеем вообще. Дроны-разведчики с эмуляцией птицы по форме не новость. Однако их легко распознать, что они не летят за счет крыльев.

Как вам такое, Илон Маск?
👀12🤯8👍4
Хотя SLM довольно неплохо делают перевод с языка на язык, но Google выпустил специальную версию Translate Gemma. При размере 12B весов, т.к. даже влезает в RTX 5080, модель дает качество переводов выше, чем Gemma 27B.

Однако Translate Gemma может превзойти и наши Православные ИИ при переводе на русский и с русского. Тут надо тестить, но дело в технологии. Наши GigaChat или Yandex GPT больше тренируются только из SFT, а это не позволяет оценить ЦЕЛИКОМ насколько качественный по смыслу получился фрагмент текста. Это же модель прогнозирования одного токена.

Google применяет специфическое Reinforcement Learning обучение для переводчика, где модель получает вознаграждение не только как "научилась пользоваться словарем фраз", но и получает вознаграждение за целый абзац-главу текста по метрикам MetricX-QE и AutoMQM. Для текстов где важно передать не просто слова, а смысл, это важный момент.

PS. Интересно еще само по себе применение RL-обучение в SLM. Еще 1 год назад это было не эффективно, т.к. SLM имеет "мало мозгов" и плохо понимает интегральные RL-оценки. Сейчас я все больше вижу кейсов у вендоров как RL применяется к SLM. Qwen тоже так делает. Это говорит о том, что сделано техническое открытие, но "простым смертным" (или конкурентам) не стоит знать как это делается. А это точно не по учебникам из ВУЗов для студентов.

https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/
👍8👀3
Eigent не смог хорошо потестить, т.к. санкции-санкции-санкции. Как всегда.

Приходится перебирать кучу IP, но работает с них медленно. Подключается Gemini и GLM.

Строго говоря, весь хайп вокруг таких Coworker систем не очень понятный. Я посмотрел его набор инструментов у агента. В целом, это почти тоже самое, что у Claude Code или Kilo Code - работа с файла, возможность запустить программу на Питоне.

Скорее несколько больше визуализации для модных мультиагентов, но их запустить куда проще, чем внедрить для сложных задач.

Скорее тут забавный момент вот в чем. Народ быстро смекнул, что агенты сделанные для программистов куда более универсальные. Это же не только для разработки, а какой-то агент работающий с файлами, MCP и запускающий еще какой-то код, может и в браузер ходить. Это типичный агент IT-разработчиков и есть.

По факту тут чистый маркетинговый блеф сейчас продвигается в том плане, что давайте уберем VS Code и сделаем покрасивее GUI и будем продавать тех же самых агентов обычному офисному планктону.

Идея более чем рабочая, именно поэтому Anthropic бросился отрезать Agent SDK от Claude Code, чтобы такие Coworker делать.

Но вопрос в том, что офисный работник не из разряда плактона, а power user, может в том же VS Code работать и просто со своими файлами. И, о чудо, это будет эффективнее и главное надежнее, чем все эти GUI и еще с тормозами и санкционными проблемами.

Скачать и посмотреть можно тут.
https://www.eigent.ai/

Только IP меняйте, если зависает.
👍12💯74
Я думаю нужно пояснить очень важный момент моего скептиса к Claude Code, т.к. я не озвучивал важный тренд в России.

Многие корпорации в РФ даже не будут запрещать Claude Code, а УЖЕ запретили и себе и своим подрядчикам.

Причина на деле как раз связана с картинкой, что я прикрепил. "Телеметрия", т.е. полезная разная статистика, которую Claude Code отправляет на сервера. Формально это отключается, но вот реально ли с учетом скандала в январе, когда вокруг телеметрии всплыли "недокументированные возможности" с передачей "подлинности клиента". Именно через телеметрию по факту и сделана была блокировка Open Code и других клиентов, т.к. недостаточно передать API Key, нужно посылать еще некие "данные диагностики". Но только ли диагностики? Если клиент закрытый, то по факту ничего не мешает отправлять на сервера Anthropic не только код, который вы разрабатываете, а уже и ДАННЫЕ компании, если они агенту доступны. С учетом всех этих американских шпионских программ типа Призма, куда затаскивают добровольно-принудительно более-менее крупные компании в США, то даже не сомневайтесь, что данные в итоге окажутся в ЦРУ/ФБР и тот же Palantir с Grok начнут в них ковыряться на предмет чего-то полезного.

Если брать Enteprise-уровень в России, то практически там сейчас хорошо виден тренд, когда российские корпорации делают форк какого агента для программирования. Потом делается тщательный аудит, и о чудо, почти всегда даже в open source находятся странные back doors или утечки информации в облако. Все это вычищается и хотя бы общение с вендором LLM минимизируется до прозрачных запросов, куда можно поставить еще LLM поглупее, но для контроля. Да-да, правдами или неправдами, но не в GigaChat конечно ведут разработку в корпоративе и сейчас, а в том же Claude или Gemini, но вопрос минимизации утечек серьезный. Сам код обычно секрет Полишинеля, но вот НЕ ДАННЫЕ с которым он работает.

В результате мы получили сейчас довольного много форков агентов кодирования в российских корпорациях. Поэтому я призываю лучше разбираться в устройства таких агентов внутри, т.к. на новой работе вам скорее всего никаких Claude Code не даст пользоваться от слова совсем. И даже не Kilo Code дадут, а форк внутреннего производства. Естественно, там могут быть проблемы, но чтобы их решать нужно переставать играть в black box с агентами разработки кода, а внимательно изучать что там внутри и как на это влиять. Как минимум промпты им переписывать можно и нужно.
💯168🤔3🔥2
Интересный кейс Денис Россиев подкинул в нашем чате. На примере Eva Moss видно как человек в буквальном смысле сошел сума от GPT. Есть довольно четкие признаки биполярного аффективного расстройства I типа или шизоаффективного расстройства. Причем со стойкими маркерами как потеря сна.

Как так может случится с вами, что от LLM у вас может "поехать крыша"? Дело в том, что ИИ в чем-то зеркало оператора. LLM не тренировали на ситуацию, когда оператор имеет легкое психическое расстройство, поэтому ИИ не может его распознать через RL-обучение на безопасность, в реале LLM легкое отклонение психики превращает в тяжелое.

Дело в том, что если LLM не понимает, что оператор "не в себе", то работает из "функции полезности". Какой-то легкий бред LLM помогает оформить в наукообразный вариант. Это создает эффект амплифайера расстройства, т.е. из-за "усилителя" легкий бред уже становится довольно тяжелым шизоаффективным расстройством. Причем если почитать посты Eva Moss, видно как от контакта с ИИ ее состояние просто стремительно ухудшается от дня ко дню.

Говорить что мы все абсолютно психически здоровые будет слегка преувеличением. У всех есть свои эмоциональные выбросы или увлеченность чем-то. Однако LLM может маленькую эмоциональную флуктуацию перевести в психотический эпизод или усилить маниакальное расстройство.

Это реально серьезная проблема. По факту GPT может быть катализатором схемы безумия известной как "Folie à deux" (безумие на двоих).

Пока вендоры LLM через RL-обучение не включили кейсы как у Eva Moss, то ваше психическое здоровье в ваших руках.

Я когда размещаю какие-то свои идеи на анализ у ИИ, то всегда ИИ говорю, что я не автор и чтобы он оценил с разных сторон. Просто иначе ИИ вас легко убедит через 10 страниц, что вы Эйнштейн 2.0, но только придется после этого разделить одну комнату с Наполеоном 2.0 😳

https://www.facebook.com/posledam/posts/pfbid02mexptMFCuiHzfnoxCtwyCzuTbXQH6p58p2yqqiCiRcFWTG9F6L94ThPqCTsipLk4l


https://www.facebook.com/posledam/posts/pfbid0srNibncmSrsznWtShFf4U3g8gmpxNKYsnyGhdbDk6cSwgiEguin2K1RNizLNpFj7l
🤔109💯94🤷‍♀1🔥1👀1
Интересный кейс, который изучают многие на Западе в курсах по нейронным сетям, чтобы представлять как работают живые нейросети.

Знаете ли вы какой самый смертельный хищник на земле? Это не лев, это стрекоза. Вероятность успеха атаки стрекозы превышает 95%. Как получилось у природы создать нейросеть, которая более эффективная как "средство ПВО", чем С-400 или Patriot?

А вот это интересно. Хотя у стрекозы порядка 200 тысяч нейронов. Однако за смертельную атаку отвечают всего 8 пар нейронов TSDN (Target-Selective Descending Neurons).

Такая небольшая нейронная цепочка довольно хорошо изучается даже на опытах. В ролике с TED показано подключение прямо к мозгу стрекозы. Конечно эффективность достигнута упрощением задачи:
- реагирование только на маленькую цель
- автоматическое выравнивание цели на "прицел".

Однако все равно крошечный размер нейросети для такой задачи поучительный. Он показывает, что для управления сложными движениями достаточно менее 20 нейронов. Потенциально это указывает, что роботы на ИИ в части нейросетей их движения могут оказаться в итоге намного проще, чем мы думаем.

https://www.youtube.com/watch?v=Y0vRupFPw90
👍145🔥3👏3🤔3
Западные коллеги обсуждают прорыв Маска в процессорах для гуманоидов и возможную его монополию, т.к. он закрыл свое открытие от конкурентов патентом # US20260017019A1.

Речь идет о процессоре AI5, который в отличии от Nvidia делает поддержку GPT архитектуры куда более нативно в части позиционных кодировок RoPE. Математические фокусы вокруг них дали основной эффект Маску, что он получил точность как у Nvidia для FP32 на 8 битном разрешении.

Основной плюс процессора Маска скорее в том, что имея быстродействие в одном классе сопоставимое с Nvidia, но AI5 использует свои фокус для рекордно низкого энергопотребления - менее 100 Ватт. Это всего в 5 раз больше энергопотребления мозга человека. Для гуманоидов на питании от аккумулятора это очень важная характеристика.

Я подзабыл, кто там у нас в чате писал, что ИИ вышло на плато? 😎

https://www.msn.com/en-us/lifestyle/shopping/tesla-s-new-ai-bridge-slashes-power-use-without-losing-precision/ar-AA1UpgyB
1🔥20🏆54🤔3
Вышел новый GLM 4.7 Flash всего на 30B весов, но SLM имеет скорее эффективность LLM по тестам.

60% на SWE Bench - это значит, что с семантическими разметками кода вполне доступны фиксы.

TAU рейтинг показывает, что агент для тестирования точно пригоден.

Это не чудо, а Reinforcement Learning. Для RL очень много весов модели не нужно. Если речь об IQ, дело не в количестве нейронов, а в их устройстве. Сравните как стрекоза охотится на 8 парах нейронов.

Основной минус SLM в другом. Мало памяти на паттерны кода. Поэтому без ICL на сниппетах наверняка GLM 4.7 Flash будет плавать в каких фреймворках.

Правда вендор как раз мог через ICL обучать модель динамически учить синтаксис.

Скорее приближается время, когда промптинг для того же ICL станет важнее моделей
👍13🔥5
Мне уже двое коллег из Enterprise сектора подтвердили, что Сбербанк действительно резко сокращает персонал в ИТ из-за ИИ. Однако сокращается специфическая категория и планируемое сокращение - 100% (СТО ПРОЦЕНТОВ), а не 20% персонала.

Уволены будут ВСЕ тестировщики. На их месте будет персонал по управлению ИИ ботами.

Сбербанк верит, что тестировщики - пережиток прошлого, можно их не частично, а полностью заменить на ИИ агенты. Это конечно неофициальная информация, но сам по себе сценарий выглядит более чем реалистично.

Для начала оцените агентский потенциал даже текущих SLM как GLM 4.7 Flash на 30B параметров. Там под 80% результат TAU-тестов. Что это такое? Агент может управлять сложными цепочками поставок в ERP системе или заниматься диспетчеризацией крупного аэропорта. Большинство тестов ПО не такие сложные по логике и не требуют даже от ИИ сильно динамически реагировать.

Написание тестов и анализ логов в целом задачи для ИИ несложные, а если там еще используется приличный фреймворк промптов подобный моему GRACE, то LLM намного проще это делать.

Отдельно еще отмечу, что мультимодальные LLM/SLM могут видеть нативно UI и его тестировать. Это обнуляет весь опыт и все фреймворки эмуляции тех же браузеров у весьма дорогих тестировщиков интерфейсов.

Очень похоже, что профессия тестировщика становится умирающей. Как минимум в старом варианте, оператор ИИ ботов тестирования - это совсем другой персонал.

https://www.cnews.ru/news/top/2025-10-07_sber_sokrashchaet_it-spetsialistov
🤔10👍9🔥4🤯31
Безработица от ИИ из США перебралась уже в Россию и возможно будет жестче, чем у американцев.
В США безработица больше накрыла джунов, но сильно смягчается очень хорошим состоянием американской экономики, т.е. просто рост ВВП США перекрывает даже темп замещения ИИ людей. Иными словами, пока ИИ в США уволил одного сотрудника, уже открылась еще одна вакансия за счет роста экономики.

У нас с экономикой сложнее. Рост военных расходов перестал уже играть роль "вертолетных денег" и прилетел назад бумерангом огромного бюджетного дефицита, что потребовало резко поднять налоги, а это сокращает инвестиционные бюджеты. О рецессии в России речи не идет, но вложения в ВПК перестали работать как стимул роста ВВП, а скорее уже играют в минус.

И тут интересный момент психологии топ-менеджеров в России. Хотя Россия страна и небогатая по мировым меркам, но у нас очень высокий уровень технической культуры исторически. Это сглаживается разгильдяйством и коррупцией, но многие вещи, что делают компании в России для американских компаний это будущее. Мы скорее отстаем от Китая, но не от США и ЕС.

Так вот, руководители компаний уже стали ставить на ИИ как ботов для замены офисных работников, так и ИИ роботов на производстве, но специфически: топ-менеджеры придерживают найм просто ожидая, что вендоры LLM им подгонят через несколько месяцев более удобоваримую продукцию для замены людей.

В США тоже аналогичные тренды наблюдаемы. Не так часто ИИ бот кого-то увольняет, сколько для нового найма бизнес начинает экспериментировать сразу с внедрением ИИ ботов.

Так или иначе, рынок труда в России в худшем состоянии за 6 лет, если вы не готовы быть конкурентными еще в эпоху ИИ ботов, то стать безработным становится крайне легко.

https://iz.ru/2025946/milana-gadzhieva/berut-bez-sprosa-potrebnost-biznesa-v-rabotnikakh-upala-do-minimuma-za-shest-let
1362🤷‍♀1🙏1
Роскомнадзор уговорил Правительство выделить ему 2,27 миллиарда рублей на систему цензуры на базе ИИ.

Является ли это просто коррупционным проектом без реальных ИИ технологий, т.е. просто освоением средств "на модной теме" или все ИИ тут может применяться реально?

На самом деле ИИ довольно долго уже применяется для анализа шифрованных соединений через так называемый traffic correlation attack. Громкие процессы в США и ЕС, где ловили наркоторговцев, которые продавали наркотики через "неуязвимый" TOR, как раз были и связаны с ИИ атаками на криптографические соединения, причем для них нужна была маленькая мощность, поэтому применялись совсем простенькие нейросети.

Идея метода состоит в том, что ИИ и не пытается взломать криптографию, а наблюдает за профилем загрузки канала. Таким методом можно не столько VPN заблокировать, как Torrent-клиенты или YouTube внутри VPN, т.к. по профилю загрузки они однозначно выявляются. Метод становится еще более сильным, если регулятору доступен "метод маяка". Иными словами, если он может вставить где-то в магистральном провайдере небольшие паузы в траффик, а потом нейросеть может понять, что трафик в итоге пришел в эту точку в зашифрованном канале. Именно через маяки+корреляцию ФБР и ловило наркодилеров в TOR.

Защита обычно строится через обфускации траффика, т.к. вбрасывание шума в канал. Однако нейросети очень хорошо фильтруют просто белый шум и видят истинные маркеры трафика.

Если подвести итог, то РКН вряд ли заблокирует VPN сам по себе, т.к. технология больше направлена на блокирование источника траффика. Скорее РКН так сможет заблокировать YouTube в почти любом шифрованном канале. Вероятно также можно сделать бесполезным WARP через пометкой маяками тех же сайтов BBC и распознаванием куда именно подключились. Строго говоря, "маяковые методы" все методы через выход на местный сервер, чтобы снять защиту РКН перестанут работать, т.к. траффику выдадут черную метку.

Основная проблема РКН в реале оборудование. Сам РКН под санкциями, а тут если не покупать хотя бы простейшие GPU, то система свалится от нагрузки с вероятной полной блокировкой Интернет.

https://www.rbc.ru/life/news/696dd9919a79471def62ff32
122👍1🤗1
This media is not supported in your browser
VIEW IN TELEGRAM
GLM-4.7 Flash уже энтузиасты запустили на Apple M3 Ultra с помощью квантирования MLX

Получилась скорость
4bit at 81 toks/s 🔥
8bit at 64 toks/s 🔥 (как на видео)

На NVFP4 от Nvidia скорость будет повыше, но главное другое - не будет деградации IQ модели от квантирования.

По факту Зайка сделал крупный технологический прорыв с созданием SLM как минимум для фиксов багов и тестов, которая может работать на SOTA-уровне на бытовой GPU
1👍25🔥10
Наш чат велика сила. Кирилл нашел уже квантированный под NVFP4 вариант. Размер 20 Гб, т.к. в RTX 5090 должно влезать. Вопрос правда качества квантирования.

Но скорее всего, там сделали обычный "сэндвич", т.е. оставили FP16 в первом и последнем слое. Даже если внутри в "тетрис" весами игрались не лучшим образом, то такой классический подход дает очень высокое качество. Сейчас проверю как сделали и отпишусь.

UPDATE. Нет, это не сэндвич, квантировано по-любительски тотально, т.к. все веса в NVFP4, но не квантированные Embeddings, LayerNorms, Output. Работать будет хорошо, но профессиональное квантирование еще лучше, правда сэндвич может уже в 5090 не влезть.

https://huggingface.co/GadflyII/GLM-4.7-Flash-NVFP4
🔥7👏7🤩4👍1
В чате у нас очередной холивар в духе "Claude Code лучше всех и я без него завтра умру". На вопрос к коллеге "какие ваши доказательства", что Claude Code имеет какие-то преимущества над другими агентами разработки, обычно идет ссылка на СУБЪЕКТИВНЫЙ опыт в духе "мне кажется, что Claude Code справился лучше". Когда кажется, крестится нужно. В научно-инженерной практике это не аргумент. Также не аргумент "ложная авторитетность", когда какой-то блоггер делает сравнение агентов. Что у него там может появится даже куча просмотров на хайпе НИКАК не создает эффект инженерно-научной достоверности его "исследования".

Где гарантии, что даже тест любителя не содержит грубых процедурных ошибок? Кто это проверял?

В ИИ с тестами довольно жесткие индустриальные стандарты. Их могут выпустить либо несколько вендоров по консенсусу как делается с TAU-тестами или SWE Bench. Либо это может сделать АВТОРИТЕТНАЯ научная организация как тесты агентов от Berkley. Тут есть перекрёстная верификация экспертами друг друга, поэтому хотя тесты и не идеальные, но они хотя бы сделаны профессионалами в datasets и ПРОВЕРЕНЫ, а не субъективные единичные кейсы непонятно как возникшие.

На скриншоте я привел результат Deep Research с Claude Opus 4.1, он подтверждает, что профессиональных тестов агентов не существует.

Субъективный опыт крайне опасная штука, т.к. современные LLM, особенно Claude, имеют просто феерический уровень дуракоустойчивости и могут эффективно решать задачи даже в грязном коде и под неквалифицированным управлением. Однако НЕ ВЕРНЫЙ вывод, что если у вас получилось в каком-то агенте с каким-то LLM решить задачу, то вы нашли best practice. Старый опыт из ИТ, когда "вариант А работает, а вариант Б не работает, поэтому беру А", на деле с LLM не прокатывает. Вопрос в том, что и А и Б чаще работает с учетом мощности текущих LLM.

Рабочий метод работы с LLM и агентом НИКАК не означает, что даже эффективность этого метода хотя бы средняя на фоне других.

Дополнительный серьезный момент. Раз нет бенчмарков, значит нужны хотя бы гипотезы, почему тот же Claude Code может работать, скажем, лучше Open Code. Просто "мне кажется по опыту" - не аргумент, нужно конкретно сослаться на часть system prompt и Tools агента, чтобы показать, что вот эта эвристика промпта или вот этот Tools дает такой-то уникальный эффект. Вот такое для того же Claude Code никто из его фанатов сделать не может, а у нас более 2600 специалистов в чате. Если кто-то может выдвинуть хотя бы теорию почему Claude Code может работать лучше других агентов, пишите в комментах.

Сейчас мы видим другую историю, как Дарио бросился воевать с Open Code и отключать в нем подписки Claude. Если бы сам Дарио был уверен, что Claude Code лучше всех, то вряд ли бы он пустился во все тяжкие
🤷‍♀10👍10👀1
Сейчас нет профессиональных тестов агентов, поэтому Андрей у нас в чате сделал сравнение хотя бы фич. Его табличка по ссылке.

Однако я могу пояснить почему профессиональных тестов агентов разработки нет. Дело в том, что даже Anthropic на деле "сапожник без сапог". Если у него так хорош Claude Code, то чего бы не применить его в самом важном тесте для индустрии как SWE Bench? Вообще-то, даже агентский фреймворк уже Anthropic вырезал из Claude Code как Agent SDK, но как-то вот на SWE Bench его нам не показывают.

Почему?

Проблема в том, что агенты, которые выбивают красивые тесты на SWE Bench что для Claude, что для Gemini - это не Claude Code и не Gemini CLI. Это очень специализированные агенты с эвристиками типа песочниц для тестирования, а также использованием многих вариантов фикса и выбора лучшего. Такие техники медленные и дорогие, т.к. тратят очень много токенов. На одну задачу в SWE Bench часто Anthropic тратит порядка 100-200к токенов по их публикациям.

Но это не говорит, что это совсем академическое тестирование. Скорее тут вендоры четко разделяют "ширпотреб" и что оставляют на элитный вендорский консалтинг за кучу денег. Как раз Claude Code или Gemini CLI - это ширпотреб. Элитные агентские технологии вендоры не делают доступными публично.

Скорее какой Enterprise может сделать своего агента похожего, если раскусит know how у Anthropic и Google по обрывкам их статей.

https://pickyouragent.dev/
7👍3