Forwarded from Spark in me
Если вы знаете прикладные алгоритмы, но не понимаете как работает один из самых "популярных" и "современных" сегодня алгоритмов машинного обучения
Forwarded from Spark in me
Для всех тех, кто пришел недавно - это просто канал-сборник реально интересных курсов, статей, алгоритмов, статистики. Всего, что относится к статистике, интернету, data science. Ведем вдвоем с девушкой без рассуждений в стиле "журналисты придумали".
Вольная цитатка человека из отдела DS тинькофф - на практике деревья используем только чтобы быстро понять есть что-то или нет. На практике в бою их тяжело поддерживать.
Пара интересных фактов по итогу общения с людьми из медиалогии: i) в день собирается 500k строк новостей и 50m строк из соцсетей ii) новости работают на большом количестве машин которые соединены на MySQL в большую виртуальную iii) новые проекты - PostgreSQL + Elastic Search + Hadoop iv) для старых продуктов используются ОЛАП системы, для новых иногда питон и Hadoop
Сайт с данными по Москве. https://data.mos.ru/ . Зашел в несколько - там вроде как все чисто и нормально, но на примере пары датасетов, которые в прошлом парсили, данных кажется на порядок меньше чем в гугл-картах или 2Gis.
mos.ru
Портал открытых данных Правительства Москвы
1246 наборов | Портал открытых данных Правительства Москвы является первым порталом открытых данных в России и был запущен для широкого круга пользователей 29 января 2013 года. На данный момент на портале опубликовано более 1000 наборов данных и справочников…
http://www.openhab.org/ - решение для интеграции разных источников данных + визуализация, если вы хотите отслеживать свой бойлер, к примеру...(сельский дом)
Про то, как люди коптятся, чтобы выиграть соревнование - http://blog.kaggle.com/2017/02/27/allstate-claims-severity-competition-2nd-place-winners-interview-alexey-noskov/
Medium
Kaggle Blog – Medium
Official Kaggle Blog ft. interviews from top data science competitors and more!
Отличный блог с описанием практического анализа данных, как по сути, так и с точки зрения задротства - https://habrahabr.ru/users/alexkuku/topics/
https://github.com/alexanderkuk/log-progress такое же решение для консоли которое я наковырял выглядит так - https://gist.github.com/snakers4/91fa21b9dda9d055a02ecd23f24fbc3d
GitHub
kuk/log-progress
https://habr.com/ru/post/276725/. Contribute to kuk/log-progress development by creating an account on GitHub.
Если вы используете питоновый jupiter notebook на одной машине с рядом людей, вот конфиг для запуска с доступом в локалке - sudo jupyter notebook --no-browser --port=8889 --ip=192.168.1.45
Если судьба пересечет вас с СУБД Oracle, то вот очень простые примеры которые сэкономят много времени http://stackoverflow.com/questions/470542/how-do-i-limit-the-number-of-rows-returned-by-an-oracle-query-after-ordering http://viralpatel.net/blogs/useful-oracle-queries/
Stack Overflow
How do I limit the number of rows returned by an Oracle query after ordering?
Is there a way to make an Oracle query behave like it contains a MySQL limit clause?
In MySQL, I can do this:
select *
from sometable
order by name
limit 20,10
to get the 21st to the 30th rows (s...
In MySQL, I can do this:
select *
from sometable
order by name
limit 20,10
to get the 21st to the 30th rows (s...