Forwarded from КПД
Character.ai 🧍♂ (стартап небезывестного Ноама Шазира) выпустили небольшой блогпост про оптимизацию обучения LLM.
В блоге рассказывается про следующие трюки:
1️⃣ Сжатие градиентов в 6 бит при помощи техники Squinch. (квантизуют элементы группами по 8 элементов в 5 бит, 4 бита на значения, 1 знаковый, и 8-битный скейл)
2⃣️️ Z-регуляризация на логиты, применямая к логитам внимания и роутера, предтовращающая их рост.
3️⃣ Динамическая обрезка значений в ffn в QAT, предтовращающая схлопывание акитваций в ноль.
4️⃣ Эффективный аттеншен в случае древесных зависимостей. Не считаем внимание там, где его нет.
5️⃣ Для knolwedge дистилляции предпосчитывают и сохраняют логиты, но не все, а только topk, которые сэмплируют через Gumbel-Softmax.
В блоге рассказывается про следующие трюки:
1️⃣ Сжатие градиентов в 6 бит при помощи техники Squinch. (квантизуют элементы группами по 8 элементов в 5 бит, 4 бита на значения, 1 знаковый, и 8-битный скейл)
2⃣️️ Z-регуляризация на логиты, применямая к логитам внимания и роутера, предтовращающая их рост.
3️⃣ Динамическая обрезка значений в ffn в QAT, предтовращающая схлопывание акитваций в ноль.
4️⃣ Эффективный аттеншен в случае древесных зависимостей. Не считаем внимание там, где его нет.
5️⃣ Для knolwedge дистилляции предпосчитывают и сохраняют логиты, но не все, а только topk, которые сэмплируют через Gumbel-Softmax.
Forwarded from Just links
IMProofBench Informal Mathematical Proof Benchmark https://improofbench.math.ethz.ch/
This media is not supported in your browser
VIEW IN TELEGRAM
Идея для рассказа: телеоператору робота убийцы дают задание убить другого телеоператора и по итогу он убивает сам себя.
😁153🔥9🤪3👍2💋1
This media is not supported in your browser
VIEW IN TELEGRAM
😁297👍23❤🔥15🔥5👏3💯3😭3💩1💋1
doom на микроволновке? а как насчет llm на z80 процессоре?
Типа прикиньте, это процессор из 1976 на котором запускается 40kb бинарник с моделью на несколько тысяч параметров, обученная отвечать только "OK, WHY, R U?, MAYBE, AM I"
А еще вся арифметика целочисленная + веса квантуются в 2бит. А еще эту модель можно запустить на железе которое на момент событий 1 сезона "Stranger Things" было устаревшим
code
Типа прикиньте, это процессор из 1976 на котором запускается 40kb бинарник с моделью на несколько тысяч параметров, обученная отвечать только "OK, WHY, R U?, MAYBE, AM I"
А еще вся арифметика целочисленная + веса квантуются в 2бит. А еще эту модель можно запустить на железе которое на момент событий 1 сезона "Stranger Things" было устаревшим
code
😭62👍15🔥11🍓4🫡4😁3💋2💊1 1 1
Love. Death. Transformers.
Nemotron 3 Nano Вообще у сообщества довольно сформулированное отношение к nvidia opensource - ну по метрикам хорошо, но вообще хуйня какая то. С новым нанотрон ситуация схожая: moe 30bA3, гибрид как qwen next, kimi linear, но не с gated attn а с мамбой2,…
я... э
😁117😭17🔥3🍓1💋1 1
Forwarded from Запрети мне псевдолейблить
Однажды я убил два месяца, пытаясь понять, как писать из Spark, который управляется Airflow в Redis Cluster (101) и в итоге справился. Смешно, но я видимо был первым и последним человеком, который столкнулся с этой проблемой на всем stack overflow.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать. @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать. @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.