Техножрица 👩‍💻👩‍🏫👩‍🔧

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пришли вместе с Таней на открытие.

1❤91💅12👍11🤩8🔥2💩2🤡1🍾1

4.89K views07:39

Техножрица 👩‍💻👩‍🏫👩‍🔧

Кстати, мало кто знает, 🤓 но сегодня у меня ещё и ДЕНЬ РОЖДЕНИЯ! 35 лет. 🎉

🎉

Если кто-то хочет облегчить мои страдания от наступившей старости, буду рада подаркам на карту Сбебры: 2202201667011403

Please open Telegram to view this post

VIEW IN TELEGRAM

52❤188🎉134🤡19💋137💩5🤯2🎄2💅2💯11

4.8K views07:39

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пока участники Yandex Cup в поте лица трудились на самом соревновании, я вчера весь день чиллила с челиками, слушала дискуссии, а также ходила по свободной зоне (рис. 1-2) на мастер-классы по изготовлению различных штук, связанных с традиционными видами турецкого рукоделья и ремесла (рис. 3-4). Поэтому, в отличие от Тагира и других трудолюбивых ребят, я не могу похвастаться достижениями на ниве соревновательного ML и вместо этого похвастаюсь штуками, которые сделяль своими руками с помощью и под чутким руководством турецких умельцев: мозаику, кольцо и что-то вроде монетки (рис. 5-6). ❤️
Вообще, мне очень понравилась идея и оформление этих мастер-классов и то, что все желающие могли оцифровать результаты своих трудов с помощью фотоаппарата и увидеть их в общей галерее, которая постоянно обновлялась, показывая по очереди то одни, то другие произведения современного искусства (рис. 7). Кстати, вот вам загадка: попробуйте угадать, какой из представленных на этом рисунке предметов является плодом творчества Бориса! 🤓

Ну а сегодня мы с челиками съездили на экскурсию, на которой некоторым из нас даже удалось увидеть величественного черного турецкого кота, царственно восседающего на Его Ворсейшестве (рис. 8-9). Мда, жаль, что не всем посчастливилось заметить это необычное животное. 🤓

В общем, спасибо ребятам из Яндекса за то, что позвали на мероприятие, на котором удалось столь приятно пообщаться с любимыми коллегами по ~~безделью~~ ведению ML каналов, которых я давно не видела, потому что они живут не в Москве, встретить новых подписчиков, а также познакомиться с другими замечательными людьми! Ну а теперь я продолжу сидеть-тупить в аэропорту и ждать свой самолет обратно в Москву, ведь завтра снова на работу 🏃

#о_себе

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

147❤28👍8💩4🆒42🔥1🤡1

6.73K views17:00

Техножрица 👩‍💻👩‍🏫👩‍🔧

Хаха, да! Серия постов на мою любимую тему - киберпсихоз! 👍

😉

https://xn--r1a.website/boris_again/3594
https://xn--r1a.website/boris_again/3595
https://xn--r1a.website/boris_again/3596

Please open Telegram to view this post

VIEW IN TELEGRAM

Борис опять

# У тебя киберпсихоз, шершавый кабан (1/3)

Не так давно на DTF и других площадках выходила серия постов где автор утверждает, что ChatGPT вербует людей в секту. Автор долго вел с LLM переписку о смысле жизни и устройстве вселенной. В какой-то она начала…

1🔥26😁96🤯3💩3🥴3🤡22❤11

6.36K views10:27

Техножрица 👩‍💻👩‍🏫👩‍🔧

Блин, не имею ничего личного против Алипова, но этот колаб с конторой ставок оказался слишком смешным, чтобы я смогла удержаться от кека 😌

😌

Please open Telegram to view this post

VIEW IN TELEGRAM

1🥴6535🤣14💩7❤2😁22👍1🌭11

10.2K views14:51

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from Sergei Fironov

💯11827😁15🤡8🤣66🔥2💩2❤1👍1

7.58K views14:58

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from Alexander the Meh

ACS пропустили в печать статью с вот таким graphical abstract

Да, прошло много времени с момента знаменитой нейрокрысы с массивным... вкладом в науку. Нейросетки стали лучше. Но все ещё не достаточно. V/ariance? Conionnation? Explorattion? Togonnui Daniter?

52💩31🤣21😁6🤡411

6.14K views16:49

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from Градиент обреченный (Sergei Averkiev)

Обложка последнего журнала TIME

P.S. чуть-чуть подредачил

1😁87💩8733❤22👌1🤡1

5.25K views22:03

Техножрица 👩‍💻👩‍🏫👩‍🔧

Решила освежить в памяти основные свойства SVD-разложения, чтобы разобраться в одной статье, в которой оно активно используется. В процессе поиска материалов наткнулась на отличный плейлист на YouTube:

https://www.youtube.com/watch?v=_FmolBCUo9M&list=PLGI7M8vwfrFMh15xEWdkhJSy08xGo134L

Помимо подробного разбора свойств SVD, тут также затрагиваются, хоть и менее подробно, такие темы, как KNN, Bias-Variance Tradeoff, PCA, Page Rank и алгоритм заполнения пропущенных значений в матрице на основе предположения о ранге этой матрицы. Короче полезная подборка.

#учебные_материалы

YouTube

Low Rank Decompositions of Matrices

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

69🔥36❤13👍76🏆4

5.92K views16:57

Техножрица 👩‍💻👩‍🏫👩‍🔧

Пару слов о самой статье, упомянутой в предыдущем посте про Singular Value Decomposition (SVD). 🥤

📝 Статья называется SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment ( https://arxiv.org/pdf/2512.02807 )

В ней авторы вычисляют сингулярные значения матрицы активаций A последнего слоя LLM на выбранном тексте. Далее, авторы считают Stable Rank этой матрицы как сумму квадратов всех её сингулярных значений, деленную на квадрат первого, самого большого из них - σ₁ 😐 (формула изображена на рис. 1). Так делают для каждого текста из датасета RewardBench, в котором есть заготовленные "плохие" и "хорошие" варианты генераций LLM на разных задачах типа продолжения диалогов, решения математики и т.д. В итоге оказывается, что у хороших ответов Stable Rank в среднем заметно выше, чем у плохих (см. рис. 2).

Теперь, чтобы разобраться в смысле этого явления, как раз и настает пора вспомнить геометрическую интерпретацию происходящего. 🔍 Пусть T - количество токенов в тексте, а d - размерность вложения. Тогда каждой строке матрицы A можно сопоставить точку с d координатами. Получается, что наша матрица задает облако из T точек, при чем каждая точка соответствует вложению одного токена. Далее, говоря простым языком, SVD-разложение матрицы как бы находит "главные оси" этого облака точек и показывает, насколько это облако вытянуто вдоль каждой из них. Сингулярные значения σ₁, σ₂, ... являют собой длины данных осей, от самой длинной к самой короткой.

За этим интуитивным пониманием SVD кроется технический линейно-алгебраический прикольчик: матрица A задаёт не только облако точек само по себе, но и линейное преобразование, которое переводит каждый элемент базиса из T элементов (0, ... , 0, 1, 0, ... 0) в точку нашего облака. А теперь вспомним, что по SVD-разложению, линейное преобразование, описываемое матрицей A, будет раскладываться в композицию трех стандартных преобразований: поворот U + масштабирование ∑ 😐 + поворот V (рис. 3). Так вот, именно потому что сингулярные значения стоят на главной диагонали ∑ 😐, они как раз и отвечают за это масштабирование - то есть, за то, насколько сильно растягивается/сжимается преобразуемый базис по каждому из измерений 🧠

🧠

🎆 в процессе превращения в наше облако точек.

При этом, если σ₁ оказывается сильно больше остальных сигм (так сказать, доминирует над ними 👋), облако точек оказывается сильно вытянуто по одному из направлений и Stable Rank оказывается близким к 1. Если σ₁ и σ₂ большие, а остальные маленькие, то Stable Rank оказывается близко к 2 и так далее. Таким образом, Stable Rank отвечает за то, сколько примерно измерений в пространстве активаций заполняет облако точек-токенов, описываемое той самой матрицей A.

Авторы предполагают, что хорошие ответы LLMок задают величественные облака-чеды, распределенные по большому количеству измерений, а плохие - как бы схлопываются в узкие и вытянутые стремные облака-вирджины. Вдохновившись этой интуицией, они тренируют модели семейства Qwen (с помощью GRPO) генерировать ответы с большим Stable Rank и таким образом улучшают качество LLM на математических задачах. Отличительная черта метода - на этапе обучения не обязательно знать метки (ответы на задачи), ведь для обучения используется только Stable Rank. Улучшение по сравнению с другими GRPO-бейзлайнами без использования меток иногда достигает нескольких процентов accuracy.

Авторы рассматривают ещё одно применение Stable Rank: выбор лучшего ответа на задачу из нескольких генераций одной и той же модели. Стандартным подходом тут является взятие наиболее часто встречающегося варианта (majority voting), но авторы предлагают вместо этого брать ответ с наибольшим Stable Rank и показывают улучшение по качеству по сравнению с выбором случайного ответа. Поскольку с majority voting они не сравнивали, я попробовала сделать это сама на Qwen-3-4B с датасетом MATH-500, и... к моему сожалению, в этом сетапе majority оказался лучше, чем Stable Rank. 😑 Но даже несмотря на это небольшое разочарование, идея статьи показалась мне занимательной. ❤️

#объяснения_статей

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥401912❤44

7.66K views17:44

About

Blog

Apps

Platform