Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Некоторые метрики задач классификации

В прошлый раз мы рассказывали об основных метриках в задачах регрессии. В этот раз на очереди некоторые метрики задач классификации. По классике: формула, схема и рекомендации к применению.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍1151😇1
У нас тут новый state-of-the-art оптимизатор завезли

Это расширение алгоритма LoRA – ReLoRA. Основная идея, лежащая в основе ReLoRA, заключается в разложении обновлений весов во время обучения на матрицы низкого ранга путем добавления новых обучаемых параметров к исходным весам модели. А для пущей бодрости внутри используется еще несколько техник, такие как перезапуски обучения, сбросы оптимизатора и ступенчатое нарастание скорости.

Эффективность метода возрастает с увеличением масштабов моделей. На модели с 1,3 миллиардами параметров использование памяти уменьшилось на 30%, а производительности обучения увеличилось на 52% по сравнению с обучением с полным рангом. В общем, это что-то на многообещающем.

Код доступен на Github.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍407🔥6❤‍🔥2
Непопулярная альтернатива KMeans – Gaussian Mixture Models (GMM)

KMeans широко используется в качестве алгоритма кластеризации из-за его простоты и эффективности. Но он имеет некоторые недостатки:
– может создавать только круглые кластеры
– не дает вероятностых оценок принадлежности точек кластерам
– не учитывает кластерную дисперсию

Эти ограничения часто делают KMeans неидеальным выбором для кластеризации. И тут на помощь приходит GMM. Он закрывает все недостатки выше (например, может создавать кластеры овальной формы), и о нем можно думать, как о некотором обобщении KMeans.

Эффективность GMM по сравнению с KMeans очевидна на картинке
- KMeans просто полагается на расстояние и игнорирует распределение каждого кластера
- GMM изучает распределение и обеспечивает лучшую кластеризацию

P.S. Вот ссылка на GMM из sklearn

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🐳54
Интересный кейс с INNER JOIN с собеседования

Довольно распространенные на собеседованиях SQL-задачки с подвохом обычно каким-то образом связаны с джойнами. Это именно на тема, которые очень многие понимают не совсем верно. В карточках – один из таких загадочных кейсов на INNER JOIN. Показываем, как ожидания разбиваются о реальность, и рассказываем, почему так происходит. Читайте, чтобы улучшить свое понимание SQL!

😻 #SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯4624👍19🙈3🔥1😁1
Очередной материал от Bloomberg – сочное визуальное панк-хулиганство

На этот раз издание подготовило материал про изменение климата. И это – настоящее пособие по тому, как делать дашборды. Визуализация распределений, нестандарные граф-примеры для обрисовки последствий (например, через температуру, которая нужна для выживания кораллов или производства атомной энергии) и вкусное оформление.

Советуем посмотреть полностью здесь.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🤯9🤩2
Untitled0 курит в сторонке

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6614😁7😐6🙈2😎1
5 способов векторизации текста

Машина не понимают человеческого языка. В конечном итоге они работают только с числами. Чтобы заставить машину понять речь, ее тоже надо перевести в набор чисел – векторы. Это называется векторизация или получение эмбеддингов. Способов провести векторизацию много. Сегодня обзорно рассказывает про некоторые опорные в порядке их появления в науке.

😻 #NN #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍348🤯3