Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Как задеплоить модель с помощью FastAPI

Неотъемлемая часть работы дсника в современной индустрии – это деплой своих проектов. А как это сделать? Вот краткий гайд с готовым кодом и объяснением на пальцах.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5212🔥9
Мои мысли перед сном:

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁64❤‍🔥3👍2🥰1😐1
Вчера мы объясняли, как задеплоить простейшую модель в прод

Но модели и системы могут быть гораааздо сложнее. Это мы к тому, что без знаний докера никуда. Докер – это уже на уровне pandas – база.

Поэтому если вы все еще мало знакомы с этой темой, то пора обзавестись знаниями. Для этого рекомендуем отличный Ютуб плейлист с туториалами для начинающих. Понятно, полезно, по полочкам.

Ну а если фундамент вы уже освоили, то вот вам бесплатный курс от ODS для более продвинутых. Рекомендуем!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🐳94🔥2
Совет по написанию SQL запросов: всегда перечисляйте поля

В некоторых запросах можно использовать вместо названий столбцов их номера или не указывать их вовсе. Но во избежании багов и во имя читаемости так лучше не делать. Особенно обратите внимание на три кейса:

1) Не ставьте * в запросах типа SELECT. Вот так не очень хорошо:

SELECT *
FROM table


Вот так гораздо лучше:

SELECT col, col2, col3
FROM table


2) При добавлении данных в таблицу, так же как и в SELECT перечисляйте поля таблицы. Вот так делать не нужно:

INSERT INTO table
VALUES (col1, col2, col3……)


Лучше вот так:

INSERT INTO table (col1, col2, col3……)
VALUES (col1, col2, col3……)


3) При сортировке (ORDER BY) лучше использовать имена столбцов, а не их позиции (номера). Вот так не надо:

SELECT col, col2, col3
FROM table
ORDER BY 2, 1


Надо вот так:

SELECT col, col2, col3
FROM table
ORDER BY col2, col


😻 #SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍488🌚6🤯2❤‍🔥1
В новом обновлении Телеграм запустил функцию Сторис для каналов.

Это отличная возможность для нас выпускать для наших подписчиков еще больше контента: короткие гайды, подборки, видео или еще что-нибудь классное!

Но чтобы получить возможность публиковать сторис, нам нужна ваша помощь. По правилам Телеграм, нам нужно получить некоторое количество «Бустов» от Premium-подписчиков.

Это бесплатно, вам просто нужно нажать на одну кнопку, чтобы показать, что вы хотите смотреть истории от нас.

Голосуйте и уже на следующей неделе мы сделаем видео-эфир с крутым гостем:
https://xn--r1a.website/data_secrets?boost

P.S. Если ссылка не работает, то нужно обновить приложение telegram
👍10🔥5🤪42
Кит Макналти каждый день начинает с решения математической задачи

Макналти – известный математик, дата сайентист и инженер нашего времени, это автор нескольких отличных книг и LinkedIn Top Voice in Tech. Недавно на своей страничке он поделился тем, что каждое утро 30 минут решает задачи по математике, и это дает ему мощный заряд сил на весь день. Как, зачем и почему – в карточках.

😻 #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤‍🔥11
7 способов кодирования категориальных переменных, которые надо знать

Почти все реальные датасеты содержат категориальные фичи. Чтобы использовать их в моделях, нужно их закодировать. На карточке сверху изображены 7 способов это сделать:

1) One Hot Encoding – бинарное кодирования с добавлением новых столбцов.

2) Если убрать одну колонку из OHE, то мы избавимся от мультиколлинеарности и получим dummy encoding.

3) Если строчку со всеми нулями из пункта выше заменить на строку с -1, то получим effect encoding.

4) Или же можно просто присвоить каждому значению категории номер, и это будет label encoding.

5) Если данные как-то ранжированы по-порядку, то можно использовать ordinal encoding.

6) Count encoding – кодируем каждое значение частотой/абсолютами его встречаемости.

7) А если немного оптимизировать One Hot Encoding, то получим Binary Encoding. Например, если у нас 4 категории, то мы можем закодировать их всевозможными сочетаниями из двух битов (0 или 1).

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35👍74
Ученые из Meta создали новую нейросеть для распознавания научных документов

Называется она Nougat и помогает конвертировать PDF в документы LaTeX. Это позволяет сохранить семантику: математические формулы, символы в тексте и так далее.

В Nougat для анализа изображения страницы и генерации текста используется трансформеры. Моделька обучалась на более чем 8 миллионах научных статей, и уже признана SOTA.

Кажется, для нас открываются новые горизонты научных работ и их переиздания.

Статья
Проект
Демо

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍75
Enthought-v1.0.2.pdf
2.4 MB
Без лишних слов, просто посмотрите, на какой милый чит-лист по pandas мы наткнулись сегодня утром!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40👍1512
Дайджест ML-соревнований , в которых можно поучаствовать прямо сейчас

6️⃣Yachay-AI Confident Predictions Selection. Требуется придумать модель, которая решала бы задачу ранжирования геотэггита. Есть бэйзлайн.

2️⃣ YandexCUP – задачи пока не раскрывают, но обещают сложно и интересно (скорее всего, рексисы).

3️⃣ Child Mind Institute - detect sleep states – кэггловский конкурс, треубется по данным акселерометра научиться определять момент начала и конца сна.

4️⃣ Trading at the close – снова kaggle с задачей предсказания цены закрытия акций. Для тех, кто любит финансы и временные ряды.

5️⃣ Predict AI Model Runtime – пожалуй самая необычная задача (от Google, кстати) в списке. Нужно обучиться опознавать конфигурации компилятора, которые приведут к самой бодрой работе моделей AI.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍42🎉2🗿2🤨1
Никогда такого не было, и вот опять: воскресная задача

У некоторого производителя хлопьев в каждой коробке лежит один купон. Всего видов купонов n. Для получения приза нужно собрать все n разных купонов. Сколько в среднем потребуется коробок для составления полного набора?

Разбор завтра, а пока вы знаете что делать 👇

P.S. А вы знали, что первым известным «плохим» хакером стал американец Джон Дрейпер по прозвищу Cap’n Crunch, в честь кукурузных хлопьев?

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🤔9
This media is not supported in your browser
VIEW IN TELEGRAM
Когда удаляешь из датасета примеры, на которых твоя модель ошибается

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁755🔥3