Spark in me
2.73K subscribers
1.28K photos
71 videos
118 files
2.91K links
Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.
Download Telegram
Если очень хочется запустить программу под Мак прямо сейчас, но нет US$1000k и под рукой винда или линукс, то вот проверенный образ для VMware (работает для винды и Ubuntu) - https://goo.gl/6YRvmz
Философия.
Однажды один из моих бывших руководителей, венгр, посоветовал мне прочитать эссе "Апология математика" (оправдание), в которой профессиональный математик сокрушается по поводу реальной подоплеки своей работы и ее бессмысленности и бесцельности.
- книга https://goo.gl/qqBKw7 (50 страниц)
- вики https://goo.gl/ATlYQv
Натолкнулся недавно на более современную книгу "Причитания математика", тоже в формате эссе, которая в основном говорит о бессмысленности математического образования в США и его "шаблонизации".
- книга https://goo.gl/HSTehm (25 страниц)

В школе меня учили в духе марксизма и веры в интеллект человека, поэтому видеть, что кто-то (даже в США) верит в красоту приятно, но такие книги не добавляют веры в будущее.
Недавно обнаружил консольную утилиту tmux в своей убунте. Решает проблему открытия нескольких консолей. Очень удобно для работы с данными.
- как выглядит http://prntscr.com/erg05d
- позволяет делать detach и attach сессии
- cheat sheet https://gist.github.com/MohamedAlaa/2961058
Forwarded from Roem.ru
Аудитория RuTracker упала за год после блокировки, но «количество скачанных торрентов не изменилось» → https://roem.ru/02-04-2017/246646/year-of-rutracker-ban/
Вышел голливудский Ghost in the Shell со Скарлетт Йоханссон.

Как и ожидалось, абсолютно все вменяемые элементы сюжета это пестрая копипаста из аниме 1995 года, телесериала, OVA (до манги они не дошли). Все невменяемые - чисто голливуд. Философские темы упрощены, тема борьбы внутри правительства отсутствует, борьба интересов корпораций заменена на голливудского злодея, в конце побеждает добро, добавлена мелодрама, тема самоопределения человека упрощена и разжевана, Такеши Китано добавлен для бабла.

Визуально все идеально (и стырено с Бегущего по лезвию бритвы), но дух первоисточника не передается. Пара мелких моментов показывает невнимание к деталям и духу оригинала (дыхание, элементы фигуры, origin story как у супер-героев). Винрарна пара сцен (погоня в трущобах и пара планов трущоб).
Спасибо хоть так.
В каком порядке смотреть оригиналы (если хочется закоптиться):
- https://xn--r1a.website/snakers4/66

Фансервис - японский сериал рекомендует научно популярные книги
- https://xn--r1a.website/snakers4/130

#philosophy
Forwarded from Ivan Begtin
Несколько лет жесткого и, иногда, бездумного регулирования Интернета в России оказалось достаточно чтобы теперь при любом намеке на госрегулирование крупные игроки сбегались в СРО. Вот и с "большими данными" такая же история. Mail.ru, Яндекс, Ростелеком и многие банки собираются создать профильное СРО чтобы лоббировать свои интеерсы [1].

Шаг для них правильный, возможно, единственно возможный. Но, как и во всех подобных ситуациях важно помнить что их интересы - это интересы крупного бизнеса. Давний вопрос, а кто же представит интересы граждан? Остается без ответа.

Среди депутатов нет тех кто понимает что такое "большие данные", Общественная палата тоже не является таким институтом.

А структуры защищающие права потребителей в России также неживые. Может опять оказаться так что государство, со всеми его избыточными регуляторными амбициями окажется единственным защитником общественных интересов.

Возможно.

Ссылки:
[1] http://kommersant.ru/doc/3260507

#opendata #personaldata #bigdata
Простой консольный скрипт для выбора N случайных файлов из папки
ls Tuesday-28-March-2017 |sort -R |tail -$1 |while read file; do

    echo $file

    # Something involving $file, or you can leave

    # off the while to just get the filenames

done


#ubuntu
Подборка постов с канала на тему Data Science.
Список в основном старых постов. Относительно новые пока не включены в список.

0 Все из разряда "задротить" собирается по мере анализа в файл https://goo.gl/5VGU5A. Тут описано все из разряда "просто прочитать", а не "задротить"
1 Matlab на питоне https://xn--r1a.website/snakers4/37
2 Что такое data science https://xn--r1a.website/snakers4/121
3 Конец теории и переход к новой парадигме науки https://xn--r1a.website/snakers4/135
4 То, как 20 лет назад делали машины с автопилотом в NASA https://xn--r1a.website/snakers4/161 - https://xn--r1a.website/snakers4/163
5 История реляционных баз и их автор https://xn--r1a.website/snakers4/197
6 Ошибка на очень больших данных https://xn--r1a.website/snakers4/203
7 Предрассудки и data science https://xn--r1a.website/snakers4/263
8 Сравнение спутниковых снимков днем и ночью для определения бедности https://xn--r1a.website/snakers4/303
9 Наивные модели байесовых сетей https://xn--r1a.website/snakers4/313
10 Как лгут полицеские https://xn--r1a.website/snakers4/355
11 Съем звука с пакетика чипсов https://xn--r1a.website/snakers4/356
12 Распознавание образов через rpi https://xn--r1a.website/snakers4/384
13 Список умных списков https://xn--r1a.website/snakers4/395
14 Как работает gradient boosting https://xn--r1a.website/snakers4/405
15 На пальцах про нейросети https://xn--r1a.website/snakers4/418
16 Рисовалка криповых котов https://xn--r1a.website/snakers4/420
17 Визуализация градиентного спуска https://xn--r1a.website/snakers4/421
18 Reinforcement learning https://xn--r1a.website/snakers4/426
19 Semi supervised learning https://xn--r1a.website/snakers4/424
20 Автоматическая генерация треш кликбейта https://xn--r1a.website/snakers4/429 https://xn--r1a.website/snakers4/431
21 Машинки которые сами ездят в браузере https://xn--r1a.website/snakers4/433
22 Цикл статей на хабре про DS https://xn--r1a.website/snakers4/434
23 Пояснения про Gradient Boosting https://xn--r1a.website/snakers4/444
24 Блог про анализ данных https://xn--r1a.website/snakers4/455
25 Копи-паста для DS на питоне - прогресс индикаторы - https://xn--r1a.website/snakers4/456
26 Простые факты про распределение Пуассона (20-80) - https://xn--r1a.website/snakers4/459
27 Книга про статистику для прогеров https://xn--r1a.website/snakers4/460
28 Лайфхаки про питон и jp notebooks https://xn--r1a.website/snakers4/462
29 Machine learning cheat sheet https://xn--r1a.website/snakers4/466
30 Рисование карт за секунды https://xn--r1a.website/snakers4/472
31 Визуализации на питоне https://xn--r1a.website/snakers4/483
32 Сводные таблицы на питоне https://xn--r1a.website/snakers4/493
33 Starter код для детекции аномалий https://xn--r1a.website/snakers4/496
34 Замены PCA https://xn--r1a.website/snakers4/504
35 Примеры решения бизнес задач на jpn https://xn--r1a.website/snakers4/530
36 Копипаста на питоне - корреляция - https://xn--r1a.website/snakers4/578
37 SJ data science day выжимка https://xn--r1a.website/snakers4/580
==> Маркер тут <==

#data_science
Если кому нужно - выборка из фотографий 50к проезжающих за окном автомобилей (неразмеченная) за 7 дней. Принцип сохранения фото - наличие движения раз в три кадра.
- https://goo.gl/1gAQy4

#data_science
Мало кто из Москвы знает про 2GIS.
В регионах пользуются им. А еще в регионах есть такси Максим. Такси опять сейчас на хайпе.

А вот цитаты, которые мне понравились:

"
По его информации, через Rutaxi, развивающую бренд «Везет», в 2016 году осуществлялось около 1 млн поездок в день. У компании «Максим» было 700–800 тыс. поездок, у Fasten (развивает бренды «Сатурн» и RedTaxi) — 200–300 тыс. поездок. У Rutaxi мобильное приложение появилось в 2011 году, у «Максима» — в 2012-м, у Fasten — в 2016-м.
"

"
Яндекс.Такси — 500 тыс. поездок в сутки по всей России
Uber — 150–170 тыс. поездок
Gett — 150 тыс. поездок.
"

Количество поездок не пропорционально пиару =)

https://xn--r1a.website/internetanalytics/1053
http://www.rbc.ru/technology_and_media/07/03/2017/58becbcd9a79475c283d884f

#internet
Использование телефонов в США молодым поколением
- Веб https://goo.gl/6FUF8D
- Pdf https://goo.gl/HcHk69

#internet
Топовые американские блоги + рассылки про новости в сфере машинного обучения:
- http://www.wildml.com/
- https://www.getrevue.co/profile/wildml/
- https://jack-clark.net/import-ai/

#data_science
Forwarded from Roem.ru
ЖЖ запретил блогерам рекламировать политиков и бэкапить профили → https://roem.ru/04-04-2017/246938/no-backup-no-politics/
Из полезного (не сразу нагуглишь):
- Библиотека для работы с картинками в питоне http://pillow.readthedocs.io/en/3.1.x/index.html
- Сборник word2vec готовых моделей https://github.com/3Top/word2vec-api#where-to-get-a-pretrained-models
- pytesseract для простого OCR в питоне

#data_science
Добрый человек (не оставивший координат, но спасибо ему!) добавил 1 ссылку на www.fast.ai в файл с источниками. Информация такая же топовая, как курс от Andrew Ng (sic!).

Оказалось, что это сайт людей, которые закоптились в нейросети и хотят рассказать про это в доступной форме миру и сделали бесплатный MOOC про нейросети, который идет от практики и рассказывает про абстракции и про их суть как будто раскрывая слои лука. По факту люди в интро и своем блоге еще и рассказывают про такой аспект как "moral bankruptcy" долины. Под это я даже решился обновить GPU и закончить хобби-проект с распознаванием картинок с нуля (не соревнование, а полностью построить пайплайн) (AWS очень дорого на самом деле, и железо там уже устарело).

Рекурсивно изучил все из статьи из блога и основные ссылки, выше приводил ссылки на топовые bleeding edge блоги по тематике (https://xn--r1a.website/snakers4/731).

Вот ссылки на разного рода "избранное", если не верите
- Лендинг курса - http://course.fast.ai/
- Их блог - http://www.fast.ai/
- Полистать картиночки оттуда - https://goo.gl/O9Wh2G
- Как не покупать AI-bullshit - https://goo.gl/znzJZP
- Статья, которая им очень нравится - https://goo.gl/pnP54b
- Глобальные тренды в AI - https://goo.gl/wcVMCZ
- Философия образования - инклюзивность и доступность всем - https://goo.gl/f0fyS8
- Как научиться DS "hard way" - https://goo.gl/tcM3YI
- Как не надо учиться DS + срач - https://goo.gl/6UZU0Y
- Отзывы - https://goo.gl/MTVnp3
- Отличный блог, который нагуглился в поиске советов по GPU - https://goo.gl/shc5SX
- TLDR совет для сборки компа - http://prntscr.com/esojeg , полный вариант - https://goo.gl/gIAlTY

#data_science
ЦР ВШЭ про экономики стран СНГ
- Сам центр - https://dcenter.hse.ru/
- Первоисточник - https://goo.gl/V1V6Db (тут все их выпуски)
- Беларусь
-- https://goo.gl/A99Q4Q
-- https://goo.gl/q9yOCd
-- https://goo.gl/WcKPkT
- Казахстан
-- https://goo.gl/g2XQg3
- Украина
-- https://goo.gl/yVT1ns
-- https://goo.gl/jEJvcZ
-- https://goo.gl/eFAC0E

#statistics