Spark in me
2.73K subscribers
1.29K photos
71 videos
118 files
2.91K links
Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.
Download Telegram
Внезапно образовательные курсы про админство постгреса на русском
https://postgrespro.ru/education/courses

Мы всегда коптили из документации и stack-overflow

#sql
Интересная заметка про то, почему зачастую DS не приносит ценности на практике
https://goo.gl/G1Erh5

#data_science
Forwarded from Roem.ru
В мессенджере Telegram запустили сервис онлайн-платежей. В России система будет работать при поддержке Яндекс.Денег и Qiwi. Как отмечают представители приложения, к платформе они «присоединятся чуть позже». Подключиться к мессенджеру могут и другие системы. Платить можно также с помощью Apple Pay и Android Pay. Раньше сообщалось, что большая часть платежей будет проходить через американскую Stripe, который практически не работает с Россией и СНГ.

https://roem.ru/19-05-2017/250286/telegram-with-ya-money/
То, что показалось интересным / занятным / необычным их 5 видео в цикле www.fast.ai
- Само видео - https://goo.gl/W3yaRw
- Про сверточные нейросети
-- Используя Keras dropout и batch-normalization почти польностью заменяют регуляризацию и она по сути не нужна
-- При прочих равных batch-norm и выбор наиболее современного метода оптимизации (adam, например) позволяет не париться насчет выбора гипер-параметра learning rate
-- Использование functional API (к примеру) позволяет использовать как картинки как input, так и их мета-данные, например их размер, кто снял их, модель аппарата итд итп

- Про collaborative filtering и кино
-- На датасете отзывов imdb, если сначала применить collaborative filtering а потом PCA (по сути примерно то же самое, что в этом файле https://goo.gl/F2mQaS), то получаются интересные вещи
-- Так выглядят самые низкие bias значения вытекающие из алгоритма - или простыми словами - самые плохие фильмы после учета мнений публики по набору латентных переменных - https://goo.gl/lpHf93
-- Так - самые высокие - https://goo.gl/p1XxZn
-- Так высокие значение первой главной компоненты - https://goo.gl/uRQWQC
-- Так низкие - https://goo.gl/9rsVcZ
-- Вообще первые три главные компоненты имеют значения i) утонченный фильм <=> кассовый хит ii) классический фильм <=> новый фильм iii) жестокий / страшный <=> счастливый фильм

- Переход от CNN к NLP
-- Самый простой подход bag of words дает точность порядка 80-90% на простых задачах на относительно больших датасетах
-- При анализе текстов используются так называемые embeddings, которые аналогичны латентным переменным в коллаборативном фильтринге
-- Самые популярные пре-тренированные вектора из embeddings называются word2vec и glove
-- Подход к сбору данных - берется ОЧЕНЬ много данных, вычленяются строки из 11 слов, 6-е слово заменяется на случайное, модель тренируется отличать настоящие строки от "поддельных"


#data_science
Отличная статья про то, как правильно использовать matlplotlib
- Картинка - https://goo.gl/4D2Oag
- Сама статья - https://goo.gl/vUPEyt
- Лучшие советы
Learn the basic matplotlib terminology, specifically what is a Figure and an Axes .
Always use the object-oriented interface. Get in the habit of using it from the start of your analysis.
Start your visualizations with basic pandas plotting.
Use seaborn for the more complex statistical visualizations.
Use matplotlib to customize the pandas or seaborn visualization.
This graphic from the matplotlib faq is gold. Keep it handy to understand the different terminology of a plot.

#data_science
Блог fast.ai про то, как заинтересовать детей заниматься наукой и созданием чего-либо
http://www.fast.ai/2017/05/07/parent/
Можно прикинуться большими детьми.
Давно хотел поделиться мыслями про интуицию, нашу карту артистов, страх перед новым и "предчувствия" давно изобретенных математических методов
http://spark-in.me/post/data-intuition

#data_scieence
https://career.ru/vacancy/20456366

"
Сфера деятельности: предотвращение экологической катастрофы, производство натуральных продуктов питания, возрождение крестьянства России, летописная история, инициирование запрета абортов и пр.
"

Из похожего
- Фильтры петрика
- Когда я учился в институте моя девушка нашла вакансию с требованиями (так и было написано): i) идеальное знание трех иностранных языков ii) модельная внешность и рост 180см iii) черный цвет кожи - зарплата 150 тр

#sick_sad_world
Кто-то задонатил 1000 рублей. Значит кому-то наш канал помог.
=)
Полезная в хозяйстве фича Keras - callbacks
https://keras.io/callbacks/

Оставил и оно само тренируется и не будет оверфиттинга.
Альтернатива - сохранять веса на каждом шагу, но если файл с весами весит много, а места на диске мало - это не подойдет.
Ковыряю визуализацию фильтров нейросетей.
Вот рисунки, которые дают максимальную активацию первого слоя в VGG-16
- https://goo.gl/fPBY43
Финалисты AI-гранта.
Какие-то совсем классные, какие-то не очень.
https://aigrant.org
Forwarded from yara
в папа джонс явно какой-то сбой, или кто-то перед выходными неправильно настроид рассылку, или кто-то настроил ее не на тестовом сервере, а на проде, или кто-то включил джоб на тесте с неправильным эндпоинтом - whatever.
мне пришло где-то 40 писем с промокодами на пиццу, на десерты, чикен попперс - дофигища всего. где-то написано, что действует 14 дней, где-то написано, что до сентября 2015 года, - лолкек, они все работают =)
не знаю, как скоро они поймут, что что-то не так =)
ну короче я столько не сожру за две недели, мы проверили, заказывать не обязательно с моего акка.
поэтому вот
маргарита 30 см r1d4zee duqws8e
пепперони 30 см tpjncdp mkz7rxu zfv56ji 155qbhc
большое шоколадное печенье awje4cq gl4immv
большая бонанза 35 см 8mztwda
мясная 35 см 681tzhr
супер папа 35 см ddxgp46
цыпленок барбекю 35 см 8ap8whg
цыпленок рэнч 30 см ishgu85
брауни 8qp769g
попперсы 20 шт b71ygnd
москва и область, питер
This media is not supported in your browser
VIEW IN TELEGRAM
Внезапно натолкнулся в интернете на список 200 must-have фич для веб-сайтов. Они в основном для электронной коммерции, но часть из них просто полезна более широкому кругу людей
https://goo.gl/OnvPv4

#internet
Интересное в мире DS / AI
- Гугл раздает свои cloud TPUs топовым исследователям (5000 штук) - https://goo.gl/m1qtcX
- Список классических больших датасетов от Anderssen Horowits - https://goo.gl/LhHh0S
- Практическая крипота - с помощью нейросетей можно анимировать фотографии людей - https://goo.gl/0rBGwh - как будто они говорят
- Прочитайте внизу про imagenet и зацените эту ссылку - https://goo.gl/8frZRX - по сути наверное это будущее такого направления
- Исследователи в сфере ML про прикладной аспект соперничества с Google - https://goo.gl/YOa9mb - нужно потратить порядка US$5k на расчеты для подачи статьи хотя бы на 1 конференцию
- Американцы начинают задумываться про научные стандарты в сфере машин с автопилотом - https://goo.gl/zP7jLo


Про imagenet в рассылке import-AI
- ImageNet is dead, long live WebVision: ImageNet was a dataset and associated competition that helped start the deep learning revolution by being the venue where in 2012 a team of researchers convincingly demonstrated the power of deep neural networks. But now it’s being killed off - this year will be the last official Imagenet challenge. That’s appropriate because last year’s error rate on the overall dataset was about 2.8 percent, suggesting that our current systems have exhausted much of ImageNet’s interesting challenges and may even be in danger of overfitting.
...What comes next? One potential candidate is WebVision, a dataset and associated competition from researchers at ETH Zurich, CMU, and Google, that uses the same 1000 categories as the ImageNet competition in 2012 across 2.4 million modern images and metadata taken directly from the web (1 million from Google Image Search and 1.4 million from Flickr.)
...Along with providing some degree of continuity in terms of being able to analyze image recognition progress, this dataset also has the advantage of being partially crappy, due to being culled from the web. It’s always better to test AI algorithms on the noisy real world.
- https://goo.gl/iyRRA6

#internet
#data_science
Соревнование (гонки) среди машин с автопилотом и данные
- Соревнование https://goo.gl/mQab0Y
- Датасет - https://goo.gl/tEBLHJ
Визуализация того, как простые сверточные нейросети применяются к обработке текста
https://goo.gl/6OKbAb

#data_science