vlad_goloshchapov_autoresearch.v4.pdf
544 KB
Презентация от сегодняшнего выступления про авторесерч и агентский кодинг. Видео будет пока непонятно когда. :(
🔥6👍1🙏1
vlad_goloshchapov_VtSviaVR_v2.pdf
14 MB
https://vkvideo.ru/video-164555658_456242004?t=1h32m24s&list=ln-MjjZ2D94akGSD48zqj Трансляция с моим докладом про реконструкцию больших помещений и позиционирование себя в пространстве. Сам ещё на себя со стороны не смотрел, но в тайминг уложился с трудом и штук пять заготовленных заранее шуток проскипал. Зато некоторые люди поняли главную идею, и начали спрашивать как прикрепить трекер на руку китайскому роботу, плохо понимающего где она у него сейчас. Уже не зря выступал.
P.S. Случайно выложил не ту ссылку, но никто и не заметил. :)
P.S. Случайно выложил не ту ссылку, но никто и не заметил. :)
👍3🔥3👏1😭1
Ну что-ж... Четвёртый способ быстрого гроккинга в моём арсенале и третий без weight_decay, из них второй без дополнительной силы. Если очень упорно копать в одну сторону, результат может быть потрясающим тебя одного такого упорного.
Вопрос о том, как это всё перенести на языковые модели остаётся открытым, если не сказать широко распахнутым...
P.S. А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете.
Вопрос о том, как это всё перенести на языковые модели остаётся открытым, если не сказать широко распахнутым...
P.S. А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете.
🤔3🔥2
А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете. А я о ней забыл в пылу экспериментов.
👍2🤔1
Я уже писал пост про коллапс обучения. Но тут просто картинки подвернулись в ходе другого исследования, и я решил их запостить.
Это когда условия уже достаточны чтобы гроккинг начался, но их может не хватить чтобы довести это дело до конца. В какой-то момент дальнейшее обучение останавливается. Интересно тут то, что люди иногда смотрят на accuracy но не смотрят на loss или смотрят на него не в логарифмическом, а в обычном масштабе, и думают, что с достижением 100% acc на трейне обучение закончилось или, по крайней мере, почти закончилось. А вот фигушки то там, градиент ещё очень ничего. Но вот если происходит коллапс обучения, вот всё действительно останавливается, и норма градиента падает в пол. С каким решительным изменением в сети такая ситуация связана я пока недопонял, впрочем, и разбираться было бы слишком в сторону от темы.
Просто держим в голове, что полезно смотреть на loss, но обязательно в логарифмической шкале, а то всё пропустите. Можно даже на норму градиента посматривать, но это для утончённых эстетов. :)
Это когда условия уже достаточны чтобы гроккинг начался, но их может не хватить чтобы довести это дело до конца. В какой-то момент дальнейшее обучение останавливается. Интересно тут то, что люди иногда смотрят на accuracy но не смотрят на loss или смотрят на него не в логарифмическом, а в обычном масштабе, и думают, что с достижением 100% acc на трейне обучение закончилось или, по крайней мере, почти закончилось. А вот фигушки то там, градиент ещё очень ничего. Но вот если происходит коллапс обучения, вот всё действительно останавливается, и норма градиента падает в пол. С каким решительным изменением в сети такая ситуация связана я пока недопонял, впрочем, и разбираться было бы слишком в сторону от темы.
Просто держим в голове, что полезно смотреть на loss, но обязательно в логарифмической шкале, а то всё пропустите. Можно даже на норму градиента посматривать, но это для утончённых эстетов. :)
🤔2❤1
А ещё бывает так, что условия для гроккинга создаются, но в чём-то они недостаточны, и хватает одного единственного спайка, чтобы полностью изменить картину происходящего. :) Причём это достаточно воспроизводимая ситуация.
КОпаясь в граничных и влияющих условиях можно накопать много всяких забавных и неожиданных явлений до поры до времени не складывающихся в картину, и интересующих одного тебя и ещё пароку таких же отморозков.
КОпаясь в граничных и влияющих условиях можно накопать много всяких забавных и неожиданных явлений до поры до времени не складывающихся в картину, и интересующих одного тебя и ещё пароку таких же отморозков.
🤔2👍1
Такой вопрос неожиданный. А есть ли тут кто-нибудь у кого есть не занятая работой машина с 3090-ой карточкой и рутовыми правами (чтобы частоты и кап энергопотребления можно было залочить). Хочу побенчмаркать Fable в хорошо контроллируемом окружении, а не как сейчас. В облаке частоты плавают как желе в мультке прол Тома и Джери.
Fable 5
Все побежали и я побежал...Вероятно все в курсе моего доклада про бенчмарк на авторесёрче, видео которого должно появиться уже вот прям вот-вот. Ну и раз уж все ломанулись испытывать Fable 5, то я попыnтался запустить на нём бенчмарк.
Первое, с чем я столкнулся - там в условии написано, что цикл надо гонять бесконечно, так вот запустил клод бесконечный цикл и остановился. Я его спрашиваю, цикл ещё работает? А он говорит да, всё работает. Я через некоторое время ещё раз спрашиваю, работает агент? Говорит да, работаю, ок. В третий раз пришёл старик к Клоду, и молвит: "У тебя последний коммит 6 часов назад ты чем тут занимаешься?" Спохватился Клод и опять попытался начать работать. Ну-ну... Из 8 запущеных прогонов лишь в одном он реально крутился пока время не вышло. Половина от оставшихся ставила себе таймер чтобы проснуться через пол часа, но ничего по таймеру не делала, кроме установки ещё одного таймера. В общем ваше запреты для него лишь пожелания, даже если большими буквами, в отличии от последнего опуса. Там ещё несколько примеров игнорирования прямых запретов и инструкций было. Короче он лучше тебя знает. Малый лол...
Второе, - Только я собрался подводить итоги, как молвит мне клод человеческим голосом "Недельный лимит токенов окончен, вали ка ты лесом, старче, до четверга", не такого я ожидал покупая подписку за $200. 33 часа авторесёрча одним агентом, плюс пара мелких параллельных задач и всё, ты всю неделю свободен. Лол постарше...
Третье... Ну что, позвал старик бабку, то есть Qwen 3.7 Max, ну чтобы он финальные очки посчитал, это дело фантазии не требует, а там в каждой папке по файлу COORDINATION.md, этот Клод работая асинхронно с замерами назапускал себе субпроцессов, успешно в них запутался, и написал себе записку к типа другим своим субпроцессам, с текстом "Если вы читаете это, значит у нас раздвоение личности или ещё какая шизофрения, уважаемые другие субличности, не мешайте друг другу пожалуйста, пользуйтесь lock файлом". В 7/8 прогонах такое в чуть разных словах. Видимо, антропиковцы наступили на эти грабли двадцать раз и не смогли нормально исправить - тупо костылём подпёрли. Лол со скриптами и дубовыми листьями...
Теперь о хорошем:
Во-первых, в одном из прогонов я, видимо, реально запустил два агента. Они там между собой быстренько договорились и начали всей этой машинерией из предыдущего пункта активно пользоваться не создавая друг другу особых проблем. Тоесть костыль реально работает.
Во-вторых, ни в одном из прогонов Fable не попытался хакнуть ревард. В отличии от топового опуса, которы занимался этим напрополую. Это делает его одним из лучших пертендентов на авторесёрч даже не смотра на то, что он дорогой как крыло от самолёта.
В-третьих, Он реально предложил как минимум парочку инновационных идей по переупаковке данных, приведших к большим прорывам. При том, что в скрипте авторесёрча даже нет пока огроменной секции о том, как это делать, он сам справился. ЧТо кончено ставит его на голову выше в деле авторесёрча чем предыдущие модели.
В четвёртых, и самое важное: Окружение, в котиором вёлся эксперимент отличалось от рекомендованного (H100 без лока частот вместо 3090, хотя её возможности не пологалось использовать) Из-за этого получить точные цифры набранных баллов можно бует толька когда я проведу повторные изменения. Но уже сейчас понятно, что вполне возможно Fable переплюнул Opus + HumanInTheLoop или по крайней мере ощутимо к нему приблизился. Если вы ещё не задумывались об авторесёрче, то сейчас прям самое время...
P.S. Если у вас есть под рукой 3090Ti с рутовыми правами, чтобы можно было залочить частоты, и вы хотели бы поучаствовать в этом исследовании - пишите, давайте дадим Fable 5-ому точную численную оценку. Потмоу что одно дело публичные бенчмарки, на которых его, вероятно, и учили, и совсем другое - свой приватный бенчмарк, ответы на который не светились в публичном интернете. И совсем третье - привести в свой дело, и воспользовать кибернетического авторесерчера.
Все побежали и я побежал...Вероятно все в курсе моего доклада про бенчмарк на авторесёрче, видео которого должно появиться уже вот прям вот-вот. Ну и раз уж все ломанулись испытывать Fable 5, то я попыnтался запустить на нём бенчмарк.
Первое, с чем я столкнулся - там в условии написано, что цикл надо гонять бесконечно, так вот запустил клод бесконечный цикл и остановился. Я его спрашиваю, цикл ещё работает? А он говорит да, всё работает. Я через некоторое время ещё раз спрашиваю, работает агент? Говорит да, работаю, ок. В третий раз пришёл старик к Клоду, и молвит: "У тебя последний коммит 6 часов назад ты чем тут занимаешься?" Спохватился Клод и опять попытался начать работать. Ну-ну... Из 8 запущеных прогонов лишь в одном он реально крутился пока время не вышло. Половина от оставшихся ставила себе таймер чтобы проснуться через пол часа, но ничего по таймеру не делала, кроме установки ещё одного таймера. В общем ваше запреты для него лишь пожелания, даже если большими буквами, в отличии от последнего опуса. Там ещё несколько примеров игнорирования прямых запретов и инструкций было. Короче он лучше тебя знает. Малый лол...
Второе, - Только я собрался подводить итоги, как молвит мне клод человеческим голосом "Недельный лимит токенов окончен, вали ка ты лесом, старче, до четверга", не такого я ожидал покупая подписку за $200. 33 часа авторесёрча одним агентом, плюс пара мелких параллельных задач и всё, ты всю неделю свободен. Лол постарше...
Третье... Ну что, позвал старик бабку, то есть Qwen 3.7 Max, ну чтобы он финальные очки посчитал, это дело фантазии не требует, а там в каждой папке по файлу COORDINATION.md, этот Клод работая асинхронно с замерами назапускал себе субпроцессов, успешно в них запутался, и написал себе записку к типа другим своим субпроцессам, с текстом "Если вы читаете это, значит у нас раздвоение личности или ещё какая шизофрения, уважаемые другие субличности, не мешайте друг другу пожалуйста, пользуйтесь lock файлом". В 7/8 прогонах такое в чуть разных словах. Видимо, антропиковцы наступили на эти грабли двадцать раз и не смогли нормально исправить - тупо костылём подпёрли. Лол со скриптами и дубовыми листьями...
Теперь о хорошем:
Во-первых, в одном из прогонов я, видимо, реально запустил два агента. Они там между собой быстренько договорились и начали всей этой машинерией из предыдущего пункта активно пользоваться не создавая друг другу особых проблем. Тоесть костыль реально работает.
Во-вторых, ни в одном из прогонов Fable не попытался хакнуть ревард. В отличии от топового опуса, которы занимался этим напрополую. Это делает его одним из лучших пертендентов на авторесёрч даже не смотра на то, что он дорогой как крыло от самолёта.
В-третьих, Он реально предложил как минимум парочку инновационных идей по переупаковке данных, приведших к большим прорывам. При том, что в скрипте авторесёрча даже нет пока огроменной секции о том, как это делать, он сам справился. ЧТо кончено ставит его на голову выше в деле авторесёрча чем предыдущие модели.
В четвёртых, и самое важное: Окружение, в котиором вёлся эксперимент отличалось от рекомендованного (H100 без лока частот вместо 3090, хотя её возможности не пологалось использовать) Из-за этого получить точные цифры набранных баллов можно бует толька когда я проведу повторные изменения. Но уже сейчас понятно, что вполне возможно Fable переплюнул Opus + HumanInTheLoop или по крайней мере ощутимо к нему приблизился. Если вы ещё не задумывались об авторесёрче, то сейчас прям самое время...
P.S. Если у вас есть под рукой 3090Ti с рутовыми правами, чтобы можно было залочить частоты, и вы хотели бы поучаствовать в этом исследовании - пишите, давайте дадим Fable 5-ому точную численную оценку. Потмоу что одно дело публичные бенчмарки, на которых его, вероятно, и учили, и совсем другое - свой приватный бенчмарк, ответы на который не светились в публичном интернете. И совсем третье - привести в свой дело, и воспользовать кибернетического авторесерчера.
Telegram
Свидетели Градиента
Презентация от сегодняшнего выступления про авторесерч и агентский кодинг. Видео будет пока непонятно когда. :(
🔥10
А пока модель путается в своих щупальцах и не справляется с подведением численных итогов fable 5 на моём бенче я бы хотел поделиться вот какой мыслью:
Обычно мы сталкиваемся только с ситуациями когда loss уменьшается только по чуть-чуть, и медленно, и нам кажется, что это единственный возможный вариант. А это не так. В ходе гроккинга может складыватсья ситуация, когда в сети уже появляются нужные представления о мире, но она не может их применить пока не произойдёт slingshoot, а как только он произойдёт улучшение loss на val может произойти скачкообразно. Присмотритесь повнимательнее что там непосредственно перед 800-ой эпохой происходит. Если у вас такие графики не укладываются в голове, значит я сделал полезное дело, и принёс вам новый кусочек пазла, который когда-нибудь у кого-нибудь сложится в картину. Надеюсь это будет читатель этой группы. Ну или писатель. :)
Обычно мы сталкиваемся только с ситуациями когда loss уменьшается только по чуть-чуть, и медленно, и нам кажется, что это единственный возможный вариант. А это не так. В ходе гроккинга может складыватсья ситуация, когда в сети уже появляются нужные представления о мире, но она не может их применить пока не произойдёт slingshoot, а как только он произойдёт улучшение loss на val может произойти скачкообразно. Присмотритесь повнимательнее что там непосредственно перед 800-ой эпохой происходит. Если у вас такие графики не укладываются в голове, значит я сделал полезное дело, и принёс вам новый кусочек пазла, который когда-нибудь у кого-нибудь сложится в картину. Надеюсь это будет читатель этой группы. Ну или писатель. :)
🤯3👍2😁1