Борис опять
15.1K subscribers
1.33K photos
67 videos
29 files
1.41K links
life = curiosity + irreducible noise

Whois: https://xn--r1a.website/boris_again/3400

Лс: @btseytlin
Download Telegram
Мой канал попал в папку про аналитику, так что время показать что-нибудь по теме.

Предлагаю мой пост на Хабре: Нормально разбираемся в Нормальном распределении. Вместо описания приведу цитату:
Но что это такое? Почему там экспонента? Почему минус? Зачем делить на 2 сигма-квадрат? Откуда взялось число Пи? Куда делись монеты, шары, урны и кролики? Почему мы от интуитивных объяснений перешли к тупому запоминанию?

Каждая формула несет некоторую идею. В этом посте мы будем препарировать нормальное распределение пока не поймем, что оно в себе несет. В конце мы выведем функцию плотности вероятности и узнаем откуда она берется.

Я покажу, что, несмотря на пугающий вид, Нормальное распределение это не конь в вакууме. Это все еще про броски монеток, урны и другие вещи из реального мира.


Так же есть английская версия.
39👍1211🔥52👎1
Яндекс выложил в опенсорс библиотеку YaFSDP – собственное решение для ускорения обучения больших языковых моделей. YaFSDP — это версия подхода FSDP (Fully Sharded Data Parallel) — параллелизм с полным разбиением данных.

При распределённом обучении больших моделей коммуникация между GPU — это узкое горлышко. Сколько не ускоряй этап вычислений, быстрее учиться модель не будет, так как коммуникации ограничивают передачу данных между память. При этом часто эти коммуникации неэффективны.

YaFSDP позволяет сократить время обучения LLM до 25%. Результат зависит от архитектуры и числа параметров нейросети, но авторы заявляют, что можно получить экономию ресурсов GPU до 20%. Библиотека лучше всего работает именно с большими моделями, так как чем больше модель, тем больше оверхед на коммуникацию.

YaFSDP особенно пригодится тем, кто использует GPU в облаке, не может поднять $1 триллион финансирования и хочет сократить расходы. Или для тех регионов, где предложение GPU ограничено.

YaFSDP оптимизирует ресурсы графических процессоров на всех этапах обучения: pre-training, supervised fine-tuning, alignment.

Исходный код библиотеки уже доступен на Github.
👍35👎211073
Первый стрим в моем канале: поговорим про образование.

17 июня в 12:00 по Москве мы с Cергеем Сластниковым обсудим в аудиочате канала новую магистерскую программу ВШЭ «Прикладные модели искусственного интеллекта», реализующуюся совместно с VK.

UPD: спикер заболел, стрим переносится, выложу новое время как станет понятно

Я учился на ФКН ВШЭ на программе "Науки о Данных." Одно из направлений программы включало в себя тесное сотрудничество с крупной технологической компанией и я наблюдал, что это работало отлично.

В целом я очень болею за DS/ML/AI образование в России, особенно в ВШЭ, так как сам преподавал. Поэтому я очень рад, что мне предложили обсудить новую программу.

Программа разработана совместно с VK и направлена на подготовку специалистов в индустриальном машинном обучении. В расписании можно найти курсы по Machine Learning, Deep Learning, C++, Computer Vision, Natural Language Processing, генеративным моделям, а так же обработку больших данных на Hadoop. По моему мнению это хорошая смесь основ и приложений, а так же радует видеть курсы по Data Engineering.

С 2022 по 2023 год в России количество вакансий в ML выросло на 21%. Так что перспективы на рынке сейчас хорошие.

На стриме мы обсудим программу, а так же почему она реализуется совместно с VK, какие это дает преимущества и накладывает ли какие-то ограничения на выпускников.

17 июня, 12:00 по Москве, в аудиочате моего канала. Присоединяйтесь.

В процессе стрима можно будет задавать вопросы гостю через комментарии под специальным постом.
21🔥1812👍5🤬32👎2🤔1
UPD: спикер заболел, стрим переносится, выложу новое время как станет понятно
😢26
This media is not supported in your browser
VIEW IN TELEGRAM
Слушают ли глухие люди рок? Я не знал, но концерт для них переводят! Выглядит странным образом завораживающе, как танец. Смотрел на сурдопереводчицу больше, чем на солистку
👍5311🔥10
Forwarded from Записки Ппилифа (Ppilif)
В Вышке понемногу заканчивается весенний семестр. Каждую неделю обязанностей всё меньше и я чувствую себя всё свободнее. Появилось время не только пить вино на фестах, но и посты писать.

Я рассказывал в прошлом посте, что вписался искать лекторов по ML для майнора в Вышке и выдал большую подборку из прошедших лекций. Курс практически подошёл к концу. Осталось только прочитать одну лекцию про АБ-тесты.

Поэтому хочу поделиться с вами второй подборкой лекций. В курс вписалось дофига классных лекторов. Если кто-то из вас это читает, большое спасибо каждому из вас. Вы офигенные 🤗

Первая часть была из сплошного DL, во второй его поменьше. Каждый лектор даёт введение в свой кусок ML-я, а дальше можно самому копать в него подробнее.

🥛 Кусочек про DL в графах от Эльдара Валитова:

9. Введение в глубинное обучение в анализе графовых данных

Если хочется больше, можно заглянуть в курс Эльдара с ПМИ или в Стэнфордский аналогичный курс, на котором, во многом, основан курс ПМИ. [видео]

Ещё мы два года назад собрали для ML на ФКН классный семинар с базовыми способами учить эмбеды для вершин в графах. [конспект] [тетрадка] [видео]

🥛 Кусочек про временные ряды от разработчиков библиотеки ETNA из Т-банка (Мартин Габдушев и Яков Малышев):

10-11. Временные ряды

Обычно основная проблема в лекциях про временные ряды в том, что люди рассказывают только про ARIMA ииии всё. У меня всегда с этого жутко подгорало. У ребят получилась большая обзорная лекция, где они прошлись по всему спектру задач и моделей, возникающих для временных рядов.

Если хочется копнуть глубже и поисследовать математику, которая стоит за всеми этими моделями, можно закопаться в курс с ФКН от Бори Демешева и Матвея Зехова, все лекции в открытом доступе. Возможно, записи прошлого года поудачнее, тк там нет упоротой вышкинской заставки, когда лектор молчит.

Update: Матвей говорит, что семинары от этого года удачнее, в них было много изменений по сравнению с прошлым :3

🥛 Кусочек про MLOps от Влада Гончаренко

12. Introduction to MLOps
13. Введение в современный MLOps

Полный курс Влада можно найти вот тут. Вроде неплохо выглядит курс от ODS по MLOps, но он проходил три года назад и часть штук могла устареть.

Ещё все очень позитивно отзываются о курсе Макса Рябинина Эффективные системы глубинного обучения. Я пока не смотрел, но планирую летом глянуть свежую шадовскую версию. В открытом доступе есть видео от 2022 года.

Также много инфраструктурных вещей есть в курсе ML для больших данных от Лёши Космачёва. [видосы]

🥛 Кусочек про рекомендательные системы от Сергея Малышева

14. Recsys Intro
15. Recsys Advanced

Если хочется закопаться чуть глубже, рекомендую глянуть лекции с основного курса по ML с ФКН (лекции 11-14), а дальше можно покопаться в репозитории с более продвинутым курсом. Видосов, к сожалению, не нашел 🙁

🥛 Экспериментальный кусочек про области где используют ML. Тут семест кончился, поэтому была только лекция от Димы Сергеева про HealthTech :3

16. Data Science in HealthTech

P.S. Все материалы на гите
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥177
В лонгриде про опционы я писал о множестве рисков, с которыми сталкиваются сотрудники стартапов. И это не про то, что стартап не взлетит, а про возможности все потерять если он взлетел.

В этой статье фаундер раскрывает еще один неочевидный момент: на практике фаундеры, в отличие от сотрудников, не идут all-in и не ждут экзита, чтобы заработать деньги. На самом деле они продают часть equity на каждом раунде инвестирования. Чаще всего это небольшие деньги, в пределах $1M, но в редких случаях это могут быть миллиарды. И это не плохо, ведь фаундерам тоже надо как-то жить. Нехорошо только то, что сотрудники не получают такой опции и даже не узнают о том, что фаундеры так делают.

Так же автор описывает, как в своем стартапе они используют гораздо более удобный для сотрудников ESOP (employee stock options plan), закрывающий большинство рисков, о которых я писал в лонгриде.
🔥13👍42
Меня закэнселили забанили на стендап шоу.

Две недели занимаюсь стендапом, а уже драма!

Вчера выступил в четвертый раз. Прошло неплохо. После шоу я уже вызвал такси, подхожу попрощаться с ведущим и парой комиков. Одна из комиков посмотрела на меня и говорит ведущему: "Ой, а ему не заплатили." Я такой: "You guys getting paid?"

Ведущий говорит: "Everyone gets paid, but YOU are not." Интонация была какая-то странная, будто высокомерная, и я заглотил наживку, спросил почему. Он объяснил, что они не платят новым комикам, тем кто выступает меньше трех месяцев, потому что потом они пропадают и больше не приходят, "don't wanna be part of this scene." Я не понял логической связи. Обозначил, что мне все равно на эти деньги, но сказал, что это какая-то странная схема: комики ведь делают твое шоу, посетители приносят деньги, и причём тут вообще пропадают эти комики позже или нет? Он выдал мне тираду о том, что он в комедии шесть лет, и почему они должны платить опытным комикам так же, как мне? Стало уже совсем неловко, я сказал, что "I can see the reasoning, not cool, but I am going", а он не пожал мне руку и говорит "Get out, you are not getting on this show." Я развернулся и пошел в свое такси, благо моя самооценка не держится на том, что я N лет в комедии (пока что).

Весь разговор длился минуты полторы, поэтому я вообще не уловил, что это было. Нормально же общались, как говорится. Позже, подумав, понял, что его задело: он решил, что я учу его как делать шоу. Хотя я ведь просто пытался понять, как это работает и почему, а потом сказал, что думаю.

Возможно тут есть нечто культурное: в русском эгалитарном обществе высказывать свое мнение это священное право, а при обсуждении того, что справедливо, а что нет, вообще нельзя пройти мимо.

Очень хотелось объяснить человеку на языке тела, что общаться с людьми через "Get out" неуважительно. Но подостыл и написал ему в вотсап, что не хотел обидеть (что правда) и "no hard feelings." Больше всего беспокоило, что он пойдет рассказывать плохие вещи в тесной тусовочке, и мне отрубят доступ к другим площадкам, после чего карьера великого рейнджера комика закончится не начавшись. Поэтому хотелось по крайней мере не дать конфликту разгораться. Он выдал мне в ответ тираду, что мол, сначала поживи в комедии с моё, а потом делись своим мнением. Чтож, окей.

Вот он какой, суровый шоу-бизнес, в котором все работает совсем не так, как я привык.

Вынес из этого важный урок коммуникации: не лезь куда не надо и считывай комнату.
😢1095229👍19🤔11🤬65👎5🔥1
По части комедии нашел для себя пару хаков.

Как я уже говорил, тяжело практиковаться, когда у тебя в неделе есть пять минут на сцене. Я заметил, что основная проблема это уверенность. Если ты не уверен, то даже лучшие шутки будут в тишину. Уверенность делится на две главные компоненты: общая и способность не сбиваться когда шутка не заходит или что-то ещё идет неожиданным образом.

Нашел такой способ: отрабатывая дома материал включаем шум какого-нибудь балагана на большую громкость или один час смеха. Задача: говорить как ни в чем ни бывало. В случае со смехом можно ещё отработать паузы, когда даешь людям проржаться. Как ни странно, оказалось, что смех сбивает гораздо сильнее, чем балаган, особенно когда он невпопад.

Другое упражнение, которое я себе придумал: выйти на сцену и молчать, стараясь как можно меньше шевелиться. Искупаться в этой неловкости до тех пор, пока она не перестанет беспокоить. Даже если я делаю это упражнение дома, завожу таймер на 20 секунд и представлю, что вокруг зал, пульс подскакивает до сотни. Будь моя воля, я бы вышел на открытом микрофоне и молчал бы минуту, но меня за такое выгонят. Так что попробовал на выступлении десять секунд, хватило где-то на семь, буду постепенно увеличивать.

Идея возникла потому, что тут есть один комик, который просто стоит неподвижно и монотонным голосом зачитывает однострочные шутки. И это офигенно смешно.

В итоге на последнем выступлении чувствовал себя увереннее и даже чуть-чуть мог импровизировать.
👍68🔥13108🤔51
https://www.youtube.com/watch?v=l8pRSuU81PU

Копатыч дропнул видео туториал по претрейну GPT-2 длиной в 4 часа. В этот раз не просто про код GPT на питоне, а про тренировку, оптимизацию под GPU, mixed precision и другие детали.

Претрейн LLM приниципально не изменился, поэтому это, вероятно, лучший источник информации о том, как реально учить что-то большое.
45🔥176👍53
Вот это я понимаю саппорт
7022🔥146😢1
Anthropic зарелизили Claude 3.5

Я, конечно же, бросился тестировать его на абсолютно непрактичных задачах.

Вот промпт:
Using SVG, draw a blue cube half behind a red cube on top of a yellow cube, with a purple cube in the background to the right


На первой картинке выдача Claude 3.5, на второй GPT-4 (GPT-4o выдает почти такой же результат).

Claude 3.5 всё сделал почти по ТЗ, а GPT-4 нарисовала квадраты вместо кубов и перепутала порядок.

Мне так интересна способность рисовать кубы потому, что эти модели не учат композиции изображений, так что это какая-никакая мера генерализации
🔥70👍1252
Наконец-то
13117
The Platonic Representation Hypothesis
https://arxiv.org/abs/2405.07987

Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными архитектурами, натренированные на разных данных и на разные задачи, сходятся к одному общему представлению реальности (то есть видят хотя бы одну и ту же тень на стене платоновской пещеры)

Чтобы как-то количественно измерить representational alignment, они предлагают довольно простой метод – взять feature vectors, измерить расстояния между комбинациями разных точек, посмотреть насколько близки оказываются эти расстояния среди разных моделей (если конкретно, то берут kNN вокруг точки и смотрят, какое будет пересечение этих множеств у моделей)

Результаты из этого получаются следующие:
1. Модели, которые лучше всего решают Visual Task Adaptation Benchmark, оказываются достаточно сильно заалайнены друг с другом -> алаймент повышается с увеличением способностей моделей

2. Репрезенатции сходятся в нескольких модальностях сразу: чтобы это проверить, брали Wikipedia caption
dataset. Репрезентации языковых моделей использовали, чтобы считать расстояния между описаниями пар картинок, а визуальные модели – между самими изображениями. На графике видно, что взимосвязь между перфомансом языковых моделей и их алайнментом с визуальными моделями линейная

В этой секции авторы упоминаюь другую интересную статью, в которой авторы выяснили, что внутренние визуальные репрезентации LLM настолько хороши, что они могут генерировать изображения и отвечать на вопросы по простым картинкам, если их представить в виде кода, который они могут обрабатывать

3. Языковые модели, которые хорошо заалайнены с визуальными, оказались и лучше на downstream задачах, типа Hellaswag (задания на здравый смысл) и GSM8K (математика)

Почему такой алайнмент происходит? Основное объяснение авторов – constrained optimization. Можно считать, что каждое новое наблюдение и новая задача накладывают ограничения на наш набор весов. Если мы наращиваем объем задач, то остается только небольшое подмножество репрезентаций, которое бы позволило модели решать все эти задачи на достаточно хорошем уровне. Плюс, благодаря регуляризации у нас всегда есть simplicity bias, который ограничивает наше пространство решений еще больше. Теоретический клейм тут как раз в том, что такое оптимальное подмножество в результате должно отражать underlying reality

Под конец статьи есть еще небольшой эксперимент, где авторы показывают, что модели, натренированные предсказывать coocurrence цветов в текстовых и визуальных данных, примерно совпадают с человеческим восприятием цветов (их отдаленности или близости друг к другу). Помимо теоретического аргумента, это также отбивает потенциальный пункт критики, что alignment среди больших моделей наблюдается потому, что они все учится чуть ли не на всем Интернете (в этом тесте использовалиь только маленькие модели)

Очень интересные мысли есть и в дискашене. Например, что делать с информацией, которая существует только в одной модальности (how could an image convey a concept like “I believe in the freedom of speech”)?
🔥33👍653