Департамент безопасности Бер Банка прошу обратить внимание, сотрудники "да не болото у нас".ии сливают NDA по секретным агентам
😁63😨3❤🔥1👍1
Love. Death. Transformers.
Photo
ищем русскоговорящих ребят из компаний: openai, deepmind, anthropic, sakana, nvidia, meta, bytedance, deepseek, qwen либо работающие сейчас либо ушедшие не более 5 лет назад с опытом работы 2+ года. ижненеры, рисерчеры, саентисты. Нужно быть готовым работать в Шоколаднице на Чертаново
😁314 70🔥16💊3💩2👍1🌚1
Forwarded from whargarbl
Фури-дискорд каналы - есть острие ресёча диффузионных моделей // В.И. Ленин
Love. Death. Transformers.
Авторы arc agi опять расскажут всем что "мы не это имели ввиду" и "ваш аги не настоящий"
This media is not supported in your browser
VIEW IN TELEGRAM
😁27👍10 7
Forwarded from КПД
Character.ai 🧍♂ (стартап небезывестного Ноама Шазира) выпустили небольшой блогпост про оптимизацию обучения LLM.
В блоге рассказывается про следующие трюки:
1️⃣ Сжатие градиентов в 6 бит при помощи техники Squinch. (квантизуют элементы группами по 8 элементов в 5 бит, 4 бита на значения, 1 знаковый, и 8-битный скейл)
2⃣️️ Z-регуляризация на логиты, применямая к логитам внимания и роутера, предтовращающая их рост.
3️⃣ Динамическая обрезка значений в ffn в QAT, предтовращающая схлопывание акитваций в ноль.
4️⃣ Эффективный аттеншен в случае древесных зависимостей. Не считаем внимание там, где его нет.
5️⃣ Для knolwedge дистилляции предпосчитывают и сохраняют логиты, но не все, а только topk, которые сэмплируют через Gumbel-Softmax.
В блоге рассказывается про следующие трюки:
1️⃣ Сжатие градиентов в 6 бит при помощи техники Squinch. (квантизуют элементы группами по 8 элементов в 5 бит, 4 бита на значения, 1 знаковый, и 8-битный скейл)
2⃣️️ Z-регуляризация на логиты, применямая к логитам внимания и роутера, предтовращающая их рост.
3️⃣ Динамическая обрезка значений в ffn в QAT, предтовращающая схлопывание акитваций в ноль.
4️⃣ Эффективный аттеншен в случае древесных зависимостей. Не считаем внимание там, где его нет.
5️⃣ Для knolwedge дистилляции предпосчитывают и сохраняют логиты, но не все, а только topk, которые сэмплируют через Gumbel-Softmax.
Forwarded from Just links
IMProofBench Informal Mathematical Proof Benchmark https://improofbench.math.ethz.ch/
This media is not supported in your browser
VIEW IN TELEGRAM
Идея для рассказа: телеоператору робота убийцы дают задание убить другого телеоператора и по итогу он убивает сам себя.
😁153🔥9🤪3👍2💋1
This media is not supported in your browser
VIEW IN TELEGRAM
😁295👍23❤🔥15🔥5👏3😭3💯2💩1💋1
doom на микроволновке? а как насчет llm на z80 процессоре?
Типа прикиньте, это процессор из 1976 на котором запускается 40kb бинарник с моделью на несколько тысяч параметров, обученная отвечать только "OK, WHY, R U?, MAYBE, AM I"
А еще вся арифметика целочисленная + веса квантуются в 2бит. А еще эту модель можно запустить на железе которое на момент событий 1 сезона "Stranger Things" было устаревшим
code
Типа прикиньте, это процессор из 1976 на котором запускается 40kb бинарник с моделью на несколько тысяч параметров, обученная отвечать только "OK, WHY, R U?, MAYBE, AM I"
А еще вся арифметика целочисленная + веса квантуются в 2бит. А еще эту модель можно запустить на железе которое на момент событий 1 сезона "Stranger Things" было устаревшим
code
😭60👍14🔥10🍓4🫡4😁3💋2💊1 1 1
Love. Death. Transformers.
Nemotron 3 Nano Вообще у сообщества довольно сформулированное отношение к nvidia opensource - ну по метрикам хорошо, но вообще хуйня какая то. С новым нанотрон ситуация схожая: moe 30bA3, гибрид как qwen next, kimi linear, но не с gated attn а с мамбой2,…
я... э
😁110😭16🔥2🍓1💋1 1
Пьёте кофе с белис перед нг?
А пока вы пьёте — агенты не пьют. Агенты устраивают: кладут прод, слушаются prompt-инъекций и некоторые даже сливают данные в даркнет
Друзья из White Circle — возможно единственный в мире прибыльный стартап по AI safety — ищут тех, кто хочет это чинить и строить прод на 50rps + RLить + иногда думать (но это не точно)
Важно: работать надо много. Зато платят 130–250k USD.
Вакансии:
1. FullStack Engineer
TypeScript, React, Next.js, Node.js, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio/images), Megatron, distributed training, Triton
3. AI Engineer
Inference, trt, vllm, sglang, делать инференс имени быстрого гонзалеса
-----
📨 CV сюда → https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904
А пока вы пьёте — агенты не пьют. Агенты устраивают: кладут прод, слушаются prompt-инъекций и некоторые даже сливают данные в даркнет
Друзья из White Circle — возможно единственный в мире прибыльный стартап по AI safety — ищут тех, кто хочет это чинить и строить прод на 50rps + RLить + иногда думать (но это не точно)
Важно: работать надо много. Зато платят 130–250k USD.
Вакансии:
1. FullStack Engineer
TypeScript, React, Next.js, Node.js, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio/images), Megatron, distributed training, Triton
3. AI Engineer
Inference, trt, vllm, sglang, делать инференс имени быстрого гонзалеса
-----
📨 CV сюда → https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904
Ashbyhq
AI Engineer
AI Engineer • White Circle
😁49💩33🍓7👾6😍4💋2