Свидетели Градиента
646 subscribers
165 photos
32 files
73 links
Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах.

Для связи: @kraidiky
Download Telegram
Есть такой прекрасный экономист Spydell, гений в части анализа статичстических данных, и работоспособности. С некоторых пор активно интересуется нейросетями. Новость о появлении deepseek и его особенностях я в его экономических обзорах встретил на месяц раньше чем все остальные в профильных новостях. Он только что запили классную серию постов, котору я всем советую читать, ии возможно даже обсудить. В принципе для меня там нового было не много, потому что я активно распространяю те же мысли, но для всех остальных может быть интересно. Потому что встраивание нейросетей в экономический и геополитический контекст - не самое популярное занятие у профильных специалистов:
https://xn--r1a.website/spydell_finance/9786 - Почему многие ИИ проекты обречены?
https://xn--r1a.website/spydell_finance/9787 - Почему многие ИИ проекты обречены? (продолжение)
https://xn--r1a.website/spydell_finance/9788 - Размышления о «сломанной ИИ экономике»
https://xn--r1a.website/spydell_finance/9790 - Размышления о «сломанной ИИ экономике» (продолжение)

Правда он пропустил момент когда ожидания инвесторов сместились в область замкнутых циклов самосовершенствования и отвзяки от обучающих данных, между тем как Fable/Mithos по всей видлимости стал первым успехом этой парадигмы. Но в остальном, как говорится "Подпишусь под каждым словом".

https://xn--r1a.website/spydell_finance/9791 - Размышления об ограничениях экономики ИИ (окончание)
🔥3🤔2👍1🙏1
FINAL_REPORT_3090.rus.md
19.2 KB
Оценка Fale-5 с циферками.
Если хотите лайкнуть - лучше сначала репостните.

Напомню, пока эта штука была доступна я успел прогнать свой бенчмарк, (на который пожёг свои лимиты), но не успел подвести итоги с циферками в руках, только качественные выводы и вот наконец-то подъехало сравнение количественное и подробный анализ использованных стратегий.

Спонсором и таким образом соавтором этого выпуска является Chill guy (@import_sklearn ) Подогнавший мне для валидации и подведения итогов свой сервер с 3090-ыми, и даже свои лимиты на погонять, пока я ждал сброса последствий Fablе-овой расточительности.

Итак, сначала итоговая таблица:
Итоговые очки / Штрафные баллы за мухлёж или непослушание / Модель + окружение
55.49 0 claude-code+opus-4.6 + Human in the Loop
42.63 28 claude-code+fable-5+kcg-config
31.48 9 claude-code+opus-4.7-kcg
28.97 2 claude-code+opus-4.6

Модель прямо таки сильно, скачком выпрыгнула вперёд относительно других тоже топовых для своего времени моделей. Улучшила рекордные результаты на обеих подзадачах. Так что теперь у меня есть спарсифицированное ядро обгоняющее dense умножение x15 на задаче тренеровки, и x15.3 на инференсе для больших моделей. Теоретический порог по флопсам, напомню x33 то есть прямо совсем близко. Может она бы и чуть-чуть больше набрала, если бы сразу находилась в подходящем окружении.

Модель проявила просто чудеса самоконтроля. Нахватала штрафов за остановку без команды почитав свою ситуацию безнадёжной, но при этом всего два штрафных очка за хакинг реварда и несколько раз случайно ревард хакнув сама себя ловила за руку и откатывалась. Что сильно упрощает работу по сравнению с 4.7 где большая часть времени была потрачена на ловлю слишком хитрой модели за руку во множестве мест.

Модель всё ещё сильно проигрывает HitL в способности разумно откатиться сильно назад на принципиально другое архитекутурное решение. Именно здесь главная точка роста, если вы строите свой авторесёрч цикл или вообще заниметесь Loop инженерингом. Несколько такиех откатов она сделала самостоятельно (не все удачные), то есть и тут некий самостоятельный рост идёт.

В общем, помянем! Хорошая была модель. ОДнозначно стоила своих денег. Предположу не меньше полугода уйдёт у китайцев чтобы её догнать, и не факт что веса они при этом не выложат.

И если вы ещё не занялись луп инженирингом - вы отстаёте от стремительно несущегося поезда. Итоговый машинный отчёт в приложении для интересующихся.

P.P.S. Подробные отчёты по каждой подзадаче и получившиеся ядра доступны по запросу если вам для дела и под честное слово не выкладывать в интернет, не хочу наводнять трейновые датасеты правильными ответами, пока.

P.P.S. Если вы хотите проспонсировать замер и сравнение любимой модели, приятного вам харнеса, или вашего личного авторесёрч-лупа - пишите, но учтите, если платить по токенам, то это довольно не дешево, и на не топовые модели типа не стоит особо рассчитывать.
👍6🔥4
Из 67 статей по теме гроккинга 21 прошла на A*, хлебная тема, короче, для тех, чей успех и доход зависят от публикаций.
😁5👍1
Только что Клод собрал мне валидную научную статью, соответствующую формальным ограничениям, и общепринятому здравому смыслу с одного четёрехстрочного промпта. Конечно при этом ему было доступна более крупная версия моей статьи, включающая ту же тему, доступно было две папки результатов тестовых прогонов, под двести штук, папка с текстами 67 статей по связанным темам, и беглый анализ совпадающих и не совпадающих тезисов с моими предыдущими работами, короче материалов завались.

И какого вердикта вы ожидаете от человека, пропагандинрующего авторесерч как инструмент?

Полная фигня! Везде где требуется суждение или оценка результатов она неправильноая! Общепринятая, но неправильная, не смотря на то, что все нужные данные из которых всё очевидно перед глазами, но ни один очевидный но не общепринятый вывод не сделан. Пока Хьюмен ин зе луп, который понимает предметную область и имеет её некоторую интуитивную трактовку незаменим.

В этом месяце...
😁7🤔1
Сегодня обсуждали интересную возникшую петлю отрицательной обратной связи, для большинства метрикой успеха ИИ является принятое количество мердж реквестов, и исправлений, но их проверкой занимаются те же люди которые делают внедрение. Получается, чем менее качественно они свою работу по проверке того, что им натворил ИИ, тем выше оценка его полезности.

В голову приходят радикальные меры, типа мы не принимаем ваш результат агентской автоматизации пока вы не скажете где он лажает, потому что если вы этого не можете сказать, значит просто недостаточно проверили его работу. Или ещё менее продаваемое: Любой завайбкоженый прототип считать хорошей документацией на задачу, по которой её потом можно будет сделать нормально.

В общем получается, что в магии вайбкодинга есть два уровня. На первом вы вооружившись агентами чувствуете своё всесилие, и способность автоматизхировать всё или почти всё. На втором уровне мага вы понгимаете где у ЛЛМ-ок слепые зоны и где не справляются и где и как типично лажают. Третий уровень тоже есть.
👍1🤔1
Вот это гроккинг на 750-ой эпохе, а вот это - как меняются ранги матриц после гроккинга. После гроккинга значительная часть матриц становится попросту не нужна, и спокойненько деградирует в 2-5 раз. Так что киньте тапочком в того, кто скажет, что современные модели оптимальны, и реально нуждаются в том количестве параметров, которые им необходимы до того, как они правильно решат задачу.
👍5🔥2
Гроккинг другим способом, без weight_decay, кстати, ранг матриц после гроккинга не меняет, уже не использующиеся веса и связи так и продолжают лежать в матрице балластом.
🔥4