Spark in me
2.74K subscribers
1.27K photos
71 videos
118 files
2.9K links
Lost like tears in rain. DS, ML, a bit of philosophy and math. No bs or ads.
Download Telegram
Интересное в мире DS / AI
- Гугл раздает свои cloud TPUs топовым исследователям (5000 штук) - https://goo.gl/m1qtcX
- Список классических больших датасетов от Anderssen Horowits - https://goo.gl/LhHh0S
- Практическая крипота - с помощью нейросетей можно анимировать фотографии людей - https://goo.gl/0rBGwh - как будто они говорят
- Прочитайте внизу про imagenet и зацените эту ссылку - https://goo.gl/8frZRX - по сути наверное это будущее такого направления
- Исследователи в сфере ML про прикладной аспект соперничества с Google - https://goo.gl/YOa9mb - нужно потратить порядка US$5k на расчеты для подачи статьи хотя бы на 1 конференцию
- Американцы начинают задумываться про научные стандарты в сфере машин с автопилотом - https://goo.gl/zP7jLo


Про imagenet в рассылке import-AI
- ImageNet is dead, long live WebVision: ImageNet was a dataset and associated competition that helped start the deep learning revolution by being the venue where in 2012 a team of researchers convincingly demonstrated the power of deep neural networks. But now it’s being killed off - this year will be the last official Imagenet challenge. That’s appropriate because last year’s error rate on the overall dataset was about 2.8 percent, suggesting that our current systems have exhausted much of ImageNet’s interesting challenges and may even be in danger of overfitting.
...What comes next? One potential candidate is WebVision, a dataset and associated competition from researchers at ETH Zurich, CMU, and Google, that uses the same 1000 categories as the ImageNet competition in 2012 across 2.4 million modern images and metadata taken directly from the web (1 million from Google Image Search and 1.4 million from Flickr.)
...Along with providing some degree of continuity in terms of being able to analyze image recognition progress, this dataset also has the advantage of being partially crappy, due to being culled from the web. It’s always better to test AI algorithms on the noisy real world.
- https://goo.gl/iyRRA6

#internet
#data_science
Соревнование (гонки) среди машин с автопилотом и данные
- Соревнование https://goo.gl/mQab0Y
- Датасет - https://goo.gl/tEBLHJ
Визуализация того, как простые сверточные нейросети применяются к обработке текста
https://goo.gl/6OKbAb

#data_science
#стартапдня crunchbase сначала был просто частью Techrunch (а тот частью AOL). На отдельном домене с помощью краудсорсинга собирается информация обо всех стартапах, инвесторах, раундах и прочих важных элементах венчурной индустрии. Проектов с такими данными довольно много (навскидку – CBInsights и Pitchbook), но crunchbase отличается тем, что открыт для широкого доступа, а не только профессионалам, оплатившим подписку.

Информация там в итоге оказывается менее полной, например, достаточно часто до прессы и, следовательно, crunchbase не доходят оценки, по которым прошел раунд, даже если в закрытых базах они есть. Тем не менее, дареному коню в зубы не смотрят, среди публичных этот источник бесспорно лучший. Зарабатывал он изначально просто на рекламе, ну и чуть-чуть помогал с аудиторией для Techcrunch: в описании каждого стартапа есть раздел “пресса о нем” и, конечно, статьи из родительского издания индексировались никак не хуже других.

Ситуация изменилась по всем пунктам два года назад: проект был выделен из AOL в независимую компанию, поднял венчурные деньги и начал работать над монетизацией через тарифы на подписку. Если не считать телефонного саппорта и отсутствия рекламы (ха-ха), то единственная настоящая смысловая функция за paywall – это поиск. Бесплатная версия работает как википедия – попасть в статью можно через перекрестные ссылки или если знать, что искать. Аналитикам же часто хочется найти что-то вроде “все финтех-стартапы из Бразилии с раундом за последние полгода” и вот за возможность таких запросов уже надо платить.

От настоящих закрытых баз цена подписки отличается на порядок – мешают худшие данные и имидж бесплатного сервиса, отдать ему 100 долларов в месяц компании ещё готовы, а вот десять тысяч за год уже жаба задавит, “как же так, он же бесплатный, а искать по нему и гуглом можно”. План crunchbase по преодолению этой проблемы – создать маркетплейс и продавать чужие данные, запуск нового продукта обещается в конце этого года. Информация из других источников не будет иметь репутации бесплатной, а огромная аудитория crunchbase никуда не денется, так что план может и сработать. Инвесторы, по крайней мере, поверили, последний раунд в 18 миллионов долларов был именно под него.
Полуночный текст про самую нативную, простую и понятную реализацию платежных систем, которую я видел - M-Pesa. Это та платежная система, которой пользуется 70% кенийцев каждый месяц не меньше 15 раз. Всего год назад за то, чтобы получить знания из этого текста я бы отдал 200$ или один билет на концерт Iron Maiden. Но такого текста не было. Поэтому я остался при деньгах и сходил на концерт.

http://telegra.ph/M-Pesa---mobilnye-koshelki-05-21
Статья про то, что если вам надо быстро что-то спарсить без большого объема - не надо бояться и надо сразу брать и делать самому
http://pbpython.com/web-scraping-mn-budget.html
Внезапно сравнение 3 флагманских "больших" телефонов от человека, который использовал все три (iPhone 7 plus, Google Pixel XL, Galaxy S8) - https://goo.gl/zluzvi

Мое мнение - есть отличные дивайсы от Xiaomi, которые за 1/4 - 1/5 цены делают практически то же самое.

Ну и видео как иметь 2 симки и SD карту одновременно на Xiaomi - https://www.youtube.com/watch?v=Zz_sLdIzJfM
В статье - http://spark-in.me/post/data-intuition - поправил битую ссылку на CSS, которая приводила к тому, что визуализация не работала.
Если вы не знаете в деталях про метод главных компонент (PCA), то ссылки для вас
- Бойлерплейт на питоне - https://goo.gl/O3W4jy (осторожно там реклама сервиса)
- Визуализация того как работает PCA - https://goo.gl/e7K9pc

#data_science
Нашел отличный сайт с простыми визуализациями
- http://setosa.io/ev/

Человек явно тратит очень много времени и старается, но не нашел мейнстрима.
Гениальные мошенники - просят зарегестрировать свой домен в поисковиках.
Базу свою собирают парся whois всех доменов в мире.
=)
Forwarded from Alexander
Если у кого-то не открылась карта артистов, то вот ссылка просто на простой HTML который точно работает:
http://spark-in.me/graphs.html
Лайтовый видосик про то, какие активационные функции использовать для нейросетей
https://www.youtube.com/watch?v=-7scQpJT7uo&t=0s

По сути повторяет содержимое этой главы книги про нейросети (но не говорит, какие методы оптимизации использовать и какую метрику использовать)
http://neuralnetworksanddeeplearning.com/chap3.html

In a nutshell из того что я сам видел
- Надо использовать batch norm и dropout для регуляризации
- В качестве оптимизатора лучше всего использовать adam
- Для задачи регрессии подойдет линейная функция последней активации и mse
- Для классификации в случае большого числа классов - softmax + логлосс
- В качестве функций активации для внутренних слоев лучше всего подходит relu

Как-то так.
#data_science
Про Excel, оценку и финансовый анализ. Случайно похожая информация из 3 источников:
- Внезапно канал про эксель с 17к подписчиков
https://xn--r1a.website/excel_everyday
На канале даже 50% постов - не реклама
Excel - пожалуй единственная программа, у которой нет аналогов на Линуксе или у сервисов Google

- Блог профессора Да Модарана - мастера финансового анализа и оценки - https://goo.gl/7b9J8S

- Тинькофф журнал про финансы и оценку простыми словами - https://goo.gl/U1SXcI
Уважаемые потенциальные авторы и люди, кому есть что сказать:
- Вы можете стать автором на http://spark-in.me (зачем это надо я напишу в планируемой статье)
- Вы можете получить такой веб-фид своего канала - http://kseniacadaques.spark-in.me (сервис в бете, пока сделали за спасибо, потом может поменяется)
- Это все бесплатно, без политики и задней мысли

Критерия только три
- Никакой политики и религии. Только условно-фальсифицируемые вещи / идеи
- Вы должны быть знатоком своего дела или относиться к тому, что вы делаете с рвением (если вы чему-то учитесь - это тоже прекрасно). Главное улучшать окружающую среду, а не ухудшать
- Придется мириться с неадекватом админа (меня)

Да, конечно, это все можно просто выложить на гитхаб или сделать блог на Medium / ЖЖ / tumbler итд. Но почему мне так не нравится - напишу отдельно.

Как-то так.