Интересное в мире DS / AI
- Гугл раздает свои cloud TPUs топовым исследователям (5000 штук) - https://goo.gl/m1qtcX
- Список классических больших датасетов от Anderssen Horowits - https://goo.gl/LhHh0S
- Практическая крипота - с помощью нейросетей можно анимировать фотографии людей - https://goo.gl/0rBGwh - как будто они говорят
- Прочитайте внизу про imagenet и зацените эту ссылку - https://goo.gl/8frZRX - по сути наверное это будущее такого направления
- Исследователи в сфере ML про прикладной аспект соперничества с Google - https://goo.gl/YOa9mb - нужно потратить порядка US$5k на расчеты для подачи статьи хотя бы на 1 конференцию
- Американцы начинают задумываться про научные стандарты в сфере машин с автопилотом - https://goo.gl/zP7jLo
Про imagenet в рассылке import-AI
- ImageNet is dead, long live WebVision: ImageNet was a dataset and associated competition that helped start the deep learning revolution by being the venue where in 2012 a team of researchers convincingly demonstrated the power of deep neural networks. But now it’s being killed off - this year will be the last official Imagenet challenge. That’s appropriate because last year’s error rate on the overall dataset was about 2.8 percent, suggesting that our current systems have exhausted much of ImageNet’s interesting challenges and may even be in danger of overfitting.
...What comes next? One potential candidate is WebVision, a dataset and associated competition from researchers at ETH Zurich, CMU, and Google, that uses the same 1000 categories as the ImageNet competition in 2012 across 2.4 million modern images and metadata taken directly from the web (1 million from Google Image Search and 1.4 million from Flickr.)
...Along with providing some degree of continuity in terms of being able to analyze image recognition progress, this dataset also has the advantage of being partially crappy, due to being culled from the web. It’s always better to test AI algorithms on the noisy real world.
- https://goo.gl/iyRRA6
#internet
#data_science
- Гугл раздает свои cloud TPUs топовым исследователям (5000 штук) - https://goo.gl/m1qtcX
- Список классических больших датасетов от Anderssen Horowits - https://goo.gl/LhHh0S
- Практическая крипота - с помощью нейросетей можно анимировать фотографии людей - https://goo.gl/0rBGwh - как будто они говорят
- Прочитайте внизу про imagenet и зацените эту ссылку - https://goo.gl/8frZRX - по сути наверное это будущее такого направления
- Исследователи в сфере ML про прикладной аспект соперничества с Google - https://goo.gl/YOa9mb - нужно потратить порядка US$5k на расчеты для подачи статьи хотя бы на 1 конференцию
- Американцы начинают задумываться про научные стандарты в сфере машин с автопилотом - https://goo.gl/zP7jLo
Про imagenet в рассылке import-AI
- ImageNet is dead, long live WebVision: ImageNet was a dataset and associated competition that helped start the deep learning revolution by being the venue where in 2012 a team of researchers convincingly demonstrated the power of deep neural networks. But now it’s being killed off - this year will be the last official Imagenet challenge. That’s appropriate because last year’s error rate on the overall dataset was about 2.8 percent, suggesting that our current systems have exhausted much of ImageNet’s interesting challenges and may even be in danger of overfitting.
...What comes next? One potential candidate is WebVision, a dataset and associated competition from researchers at ETH Zurich, CMU, and Google, that uses the same 1000 categories as the ImageNet competition in 2012 across 2.4 million modern images and metadata taken directly from the web (1 million from Google Image Search and 1.4 million from Flickr.)
...Along with providing some degree of continuity in terms of being able to analyze image recognition progress, this dataset also has the advantage of being partially crappy, due to being culled from the web. It’s always better to test AI algorithms on the noisy real world.
- https://goo.gl/iyRRA6
#internet
#data_science
Соревнование (гонки) среди машин с автопилотом и данные
- Соревнование https://goo.gl/mQab0Y
- Датасет - https://goo.gl/tEBLHJ
- Соревнование https://goo.gl/mQab0Y
- Датасет - https://goo.gl/tEBLHJ
Визуализация того, как простые сверточные нейросети применяются к обработке текста
https://goo.gl/6OKbAb
#data_science
https://goo.gl/6OKbAb
#data_science
Google Docs
Screenshot_5.png
Forwarded from Стартап дня. Александр Горный.
#стартапдня crunchbase сначала был просто частью Techrunch (а тот частью AOL). На отдельном домене с помощью краудсорсинга собирается информация обо всех стартапах, инвесторах, раундах и прочих важных элементах венчурной индустрии. Проектов с такими данными довольно много (навскидку – CBInsights и Pitchbook), но crunchbase отличается тем, что открыт для широкого доступа, а не только профессионалам, оплатившим подписку.
Информация там в итоге оказывается менее полной, например, достаточно часто до прессы и, следовательно, crunchbase не доходят оценки, по которым прошел раунд, даже если в закрытых базах они есть. Тем не менее, дареному коню в зубы не смотрят, среди публичных этот источник бесспорно лучший. Зарабатывал он изначально просто на рекламе, ну и чуть-чуть помогал с аудиторией для Techcrunch: в описании каждого стартапа есть раздел “пресса о нем” и, конечно, статьи из родительского издания индексировались никак не хуже других.
Ситуация изменилась по всем пунктам два года назад: проект был выделен из AOL в независимую компанию, поднял венчурные деньги и начал работать над монетизацией через тарифы на подписку. Если не считать телефонного саппорта и отсутствия рекламы (ха-ха), то единственная настоящая смысловая функция за paywall – это поиск. Бесплатная версия работает как википедия – попасть в статью можно через перекрестные ссылки или если знать, что искать. Аналитикам же часто хочется найти что-то вроде “все финтех-стартапы из Бразилии с раундом за последние полгода” и вот за возможность таких запросов уже надо платить.
От настоящих закрытых баз цена подписки отличается на порядок – мешают худшие данные и имидж бесплатного сервиса, отдать ему 100 долларов в месяц компании ещё готовы, а вот десять тысяч за год уже жаба задавит, “как же так, он же бесплатный, а искать по нему и гуглом можно”. План crunchbase по преодолению этой проблемы – создать маркетплейс и продавать чужие данные, запуск нового продукта обещается в конце этого года. Информация из других источников не будет иметь репутации бесплатной, а огромная аудитория crunchbase никуда не денется, так что план может и сработать. Инвесторы, по крайней мере, поверили, последний раунд в 18 миллионов долларов был именно под него.
Информация там в итоге оказывается менее полной, например, достаточно часто до прессы и, следовательно, crunchbase не доходят оценки, по которым прошел раунд, даже если в закрытых базах они есть. Тем не менее, дареному коню в зубы не смотрят, среди публичных этот источник бесспорно лучший. Зарабатывал он изначально просто на рекламе, ну и чуть-чуть помогал с аудиторией для Techcrunch: в описании каждого стартапа есть раздел “пресса о нем” и, конечно, статьи из родительского издания индексировались никак не хуже других.
Ситуация изменилась по всем пунктам два года назад: проект был выделен из AOL в независимую компанию, поднял венчурные деньги и начал работать над монетизацией через тарифы на подписку. Если не считать телефонного саппорта и отсутствия рекламы (ха-ха), то единственная настоящая смысловая функция за paywall – это поиск. Бесплатная версия работает как википедия – попасть в статью можно через перекрестные ссылки или если знать, что искать. Аналитикам же часто хочется найти что-то вроде “все финтех-стартапы из Бразилии с раундом за последние полгода” и вот за возможность таких запросов уже надо платить.
От настоящих закрытых баз цена подписки отличается на порядок – мешают худшие данные и имидж бесплатного сервиса, отдать ему 100 долларов в месяц компании ещё готовы, а вот десять тысяч за год уже жаба задавит, “как же так, он же бесплатный, а искать по нему и гуглом можно”. План crunchbase по преодолению этой проблемы – создать маркетплейс и продавать чужие данные, запуск нового продукта обещается в конце этого года. Информация из других источников не будет иметь репутации бесплатной, а огромная аудитория crunchbase никуда не денется, так что план может и сработать. Инвесторы, по крайней мере, поверили, последний раунд в 18 миллионов долларов был именно под него.
Forwarded from Ляпин | Африка
Полуночный текст про самую нативную, простую и понятную реализацию платежных систем, которую я видел - M-Pesa. Это та платежная система, которой пользуется 70% кенийцев каждый месяц не меньше 15 раз. Всего год назад за то, чтобы получить знания из этого текста я бы отдал 200$ или один билет на концерт Iron Maiden. Но такого текста не было. Поэтому я остался при деньгах и сходил на концерт.
http://telegra.ph/M-Pesa---mobilnye-koshelki-05-21
http://telegra.ph/M-Pesa---mobilnye-koshelki-05-21
Telegraph
M-Pesa - мобильные кошельки
Мобильные кошельки - это гениально. Сначала мне казалось, что это какая-то дремучая технология из 90-ых. Так оно и есть! Но начал пользоваться и понял - то, что нужно для Африки. А затем это оказалось для меня удобнее, чем Киви Кошелёк или ЯД. Самое популярное…
Статья про то, что если вам надо быстро что-то спарсить без большого объема - не надо бояться и надо сразу брать и делать самому
http://pbpython.com/web-scraping-mn-budget.html
http://pbpython.com/web-scraping-mn-budget.html
Pbpython
Web Scraping - It’s Your Civic Duty
Web scraping and analyzing the 2014 MN capital budget using python tools.
Внезапно сравнение 3 флагманских "больших" телефонов от человека, который использовал все три (iPhone 7 plus, Google Pixel XL, Galaxy S8) - https://goo.gl/zluzvi
Мое мнение - есть отличные дивайсы от Xiaomi, которые за 1/4 - 1/5 цены делают практически то же самое.
Ну и видео как иметь 2 симки и SD карту одновременно на Xiaomi - https://www.youtube.com/watch?v=Zz_sLdIzJfM
Мое мнение - есть отличные дивайсы от Xiaomi, которые за 1/4 - 1/5 цены делают практически то же самое.
Ну и видео как иметь 2 симки и SD карту одновременно на Xiaomi - https://www.youtube.com/watch?v=Zz_sLdIzJfM
Google Docs
Keynote_01.pdf
В статье - http://spark-in.me/post/data-intuition - поправил битую ссылку на CSS, которая приводила к тому, что визуализация не работала.
Если вы не знаете в деталях про метод главных компонент (PCA), то ссылки для вас
- Бойлерплейт на питоне - https://goo.gl/O3W4jy (осторожно там реклама сервиса)
- Визуализация того как работает PCA - https://goo.gl/e7K9pc
#data_science
- Бойлерплейт на питоне - https://goo.gl/O3W4jy (осторожно там реклама сервиса)
- Визуализация того как работает PCA - https://goo.gl/e7K9pc
#data_science
plot.ly
Principal Component Analysis
A step by step tutorial to Principal Component Analysis, a simple yet powerful transformation technique.
Выше было про ai-grant.org, нашел еще парочку ссылок
- https://medium.com/@nayafia/how-to-give-away-5-000-on-the-internet-66cae906ab7e
- https://medium.com/@yrashk/5-000-for-your-dream-project-c820494eadb4
- https://github.com/nayafia/microgrants/
Дерзайте!
Я подал курятник в пару мест.
#internet
- https://medium.com/@nayafia/how-to-give-away-5-000-on-the-internet-66cae906ab7e
- https://medium.com/@yrashk/5-000-for-your-dream-project-c820494eadb4
- https://github.com/nayafia/microgrants/
Дерзайте!
Я подал курятник в пару мест.
#internet
Medium
How to give away $5,000 on the Internet
Earlier this month, I announced that I was giving away $5,000, no strings attached.
Нашел отличный сайт с простыми визуализациями
- http://setosa.io/ev/
Человек явно тратит очень много времени и старается, но не нашел мейнстрима.
- http://setosa.io/ev/
Человек явно тратит очень много времени и старается, но не нашел мейнстрима.
Гениальные мошенники - просят зарегестрировать свой домен в поисковиках.
Базу свою собирают парся whois всех доменов в мире.
=)
Базу свою собирают парся whois всех доменов в мире.
=)
Внезапно запрос, которым можно смотреть индексы в постгресе
- https://stackoverflow.com/questions/2204058/list-columns-with-indexes-in-postgresql
- https://stackoverflow.com/questions/2204058/list-columns-with-indexes-in-postgresql
Stack Overflow
List columns with indexes in PostgreSQL
I would like to get the columns that an index is on in PostgreSQL.
In MySQL you can use SHOW INDEXES FOR table and look at the Column_name column.
mysql> show indexes from foos;
+-------+--...
In MySQL you can use SHOW INDEXES FOR table and look at the Column_name column.
mysql> show indexes from foos;
+-------+--...
Если у кого-то не открылась карта артистов, то вот ссылка просто на простой HTML который точно работает:
http://spark-in.me/graphs.html
http://spark-in.me/graphs.html
Классное видео на тему визуализации того, как искать пифагоровы числа
https://www.youtube.com/watch?v=QJYmyhnaaek
https://www.youtube.com/watch?v=QJYmyhnaaek
YouTube
All possible pythagorean triples, visualized
To understand all pythagorean triples like (3, 4, 5), (5, 12, 13), etc. look to complex numbers.
This video was sponsored by Remix: https://www.remix.com/jobs
Help fund future projects: https://www.patreon.com/3blue1brown
An equally valuable form of support…
This video was sponsored by Remix: https://www.remix.com/jobs
Help fund future projects: https://www.patreon.com/3blue1brown
An equally valuable form of support…
Лайтовый видосик про то, какие активационные функции использовать для нейросетей
https://www.youtube.com/watch?v=-7scQpJT7uo&t=0s
По сути повторяет содержимое этой главы книги про нейросети (но не говорит, какие методы оптимизации использовать и какую метрику использовать)
http://neuralnetworksanddeeplearning.com/chap3.html
In a nutshell из того что я сам видел
- Надо использовать batch norm и dropout для регуляризации
- В качестве оптимизатора лучше всего использовать adam
- Для задачи регрессии подойдет линейная функция последней активации и mse
- Для классификации в случае большого числа классов - softmax + логлосс
- В качестве функций активации для внутренних слоев лучше всего подходит relu
Как-то так.
#data_science
https://www.youtube.com/watch?v=-7scQpJT7uo&t=0s
По сути повторяет содержимое этой главы книги про нейросети (но не говорит, какие методы оптимизации использовать и какую метрику использовать)
http://neuralnetworksanddeeplearning.com/chap3.html
In a nutshell из того что я сам видел
- Надо использовать batch norm и dropout для регуляризации
- В качестве оптимизатора лучше всего использовать adam
- Для задачи регрессии подойдет линейная функция последней активации и mse
- Для классификации в случае большого числа классов - softmax + логлосс
- В качестве функций активации для внутренних слоев лучше всего подходит relu
Как-то так.
#data_science
YouTube
Which Activation Function Should I Use?
All neural networks use activation functions, but the reasons behind using them are never clear! Let's discuss what activation functions are, when they shoul...
Классные визуализации
- OLS - http://setosa.io/ev/ordinary-least-squares-regression/
- Число Пи - http://setosa.io/ev/pi/
- Байесова вероятность - http://setosa.io/ev/conditional-probability/
- Собственные вектора - http://setosa.io/ev/eigenvectors-and-eigenvalues/
- OLS - http://setosa.io/ev/ordinary-least-squares-regression/
- Число Пи - http://setosa.io/ev/pi/
- Байесова вероятность - http://setosa.io/ev/conditional-probability/
- Собственные вектора - http://setosa.io/ev/eigenvectors-and-eigenvalues/
Explained Visually
Ordinary Least Squares Regression explained visually
Про Excel, оценку и финансовый анализ. Случайно похожая информация из 3 источников:
- Внезапно канал про эксель с 17к подписчиков
https://xn--r1a.website/excel_everyday
На канале даже 50% постов - не реклама
Excel - пожалуй единственная программа, у которой нет аналогов на Линуксе или у сервисов Google
- Блог профессора Да Модарана - мастера финансового анализа и оценки - https://goo.gl/7b9J8S
- Тинькофф журнал про финансы и оценку простыми словами - https://goo.gl/U1SXcI
- Внезапно канал про эксель с 17к подписчиков
https://xn--r1a.website/excel_everyday
На канале даже 50% постов - не реклама
Excel - пожалуй единственная программа, у которой нет аналогов на Линуксе или у сервисов Google
- Блог профессора Да Модарана - мастера финансового анализа и оценки - https://goo.gl/7b9J8S
- Тинькофф журнал про финансы и оценку простыми словами - https://goo.gl/U1SXcI
Telegram
Excel Everyday
Уроки которые упростят жизнь и работу.
Реклама: @Mr_Varlamov
Перечень РКН: https://clck.ru/3G26cN
Реклама: @Mr_Varlamov
Перечень РКН: https://clck.ru/3G26cN
Уважаемые потенциальные авторы и люди, кому есть что сказать:
- Вы можете стать автором на http://spark-in.me (зачем это надо я напишу в планируемой статье)
- Вы можете получить такой веб-фид своего канала - http://kseniacadaques.spark-in.me (сервис в бете, пока сделали за спасибо, потом может поменяется)
- Это все бесплатно, без политики и задней мысли
Критерия только три
- Никакой политики и религии. Только условно-фальсифицируемые вещи / идеи
- Вы должны быть знатоком своего дела или относиться к тому, что вы делаете с рвением (если вы чему-то учитесь - это тоже прекрасно). Главное улучшать окружающую среду, а не ухудшать
- Придется мириться с неадекватом админа (меня)
Да, конечно, это все можно просто выложить на гитхаб или сделать блог на Medium / ЖЖ / tumbler итд. Но почему мне так не нравится - напишу отдельно.
Как-то так.
- Вы можете стать автором на http://spark-in.me (зачем это надо я напишу в планируемой статье)
- Вы можете получить такой веб-фид своего канала - http://kseniacadaques.spark-in.me (сервис в бете, пока сделали за спасибо, потом может поменяется)
- Это все бесплатно, без политики и задней мысли
Критерия только три
- Никакой политики и религии. Только условно-фальсифицируемые вещи / идеи
- Вы должны быть знатоком своего дела или относиться к тому, что вы делаете с рвением (если вы чему-то учитесь - это тоже прекрасно). Главное улучшать окружающую среду, а не ухудшать
- Придется мириться с неадекватом админа (меня)
Да, конечно, это все можно просто выложить на гитхаб или сделать блог на Medium / ЖЖ / tumbler итд. Но почему мне так не нравится - напишу отдельно.
Как-то так.