настенька и графики
27.1K subscribers
2.62K photos
84 videos
15 files
3.18K links
Датавиз, аналитика и всякое полезное и интересное

💜 Кто я и что делаю: https://nastengraph.notion.site/nastengraph/Anastasiya-Kuznetsova-096ebfb42a9e4014b7700fa00fea54d6

🎓 Мой курс по основам датавиза: https://nastengraph.ru/
Download Telegram
Как текстовый анализ может вам помочь

Начнем с того, что такое вообще текстовый анализ. Думаю, итак понятно, что это просто анализ текстовых данных, но условно его можно разделить на качественный и количественный - или когда текст обрабатывается вручную и с помощью программирования. Собственно, на втором способе я и хочу остановиться.

Сейчас, когда все активно используют анализ данных в бизнесе, текстовую информацию тоже пытаются обработать. Причем полезно это маркетологам, контентщикам, SEOшникам и всем-всем-всем. Самое сложное в работе с текстами (особенно русскими) - это их чистка. В самом начале обязательно нужно убрать пунктуацию, стоп-слова. Стоп-слова - это зачастую слишком частотные или слишком редкие, союзы, междометия, местоимения - все то, что не несет никакой смысловой нагрузки. Прямо ну вообще. Встроенные списки стоп-слов есть в пакетах для текстового анализа, поэтому можно за основу брать их и расширять. Следующим этапом всегда идет лемматизация (приведение к начальной форме) или стемминг (нахождение основы слова). Лучше первое и благодаря Яндексу можно это делать и на русском тоже. После этого уже можно что-то делать.

1. Подсчет частотности
Самое простое, что есть в текстах. Вывод даже просто частотных слов может уже дать небольшое понимание о текстовых данных. Например, если вы возьмете отзывы к своим продуктам, то самые частотные слова по отзывам к продуктам уже дадут какую-то информацию о том, что пишут в отзывах. Это не самый надежный способ, но простой и сделать это все можно практически по первой ссылке в гугле. Также можно выделять n-граммы (последовательности из слов) и считать частотность уже по ним.

2. Сентимент-анализ (или анализ тональности текста)
В бизнесе его в основном используют для понимания мнения об организации или продукте. Самое сложное здесь найти правильный словарь для оценки сентиментов, где слова размечены как позитивные, негативные или нейтральные. Это будет полезно, если вы соберете все тексты с упоминаниями компании и проведете сентимент анализ, сравнив количество негативно и позитивно окрашенных слов. Есть сервисы, которые собирают упоминания названия компании и проводят такой анализ автоматически.

3. Тематическое моделирование
Это то, что поможет вам узнать суть текста, не читая его. Работает только на больших данных и самый популярных алгоритмов на данный момент - LDA (Латентное размещение Дирихле). Алгоритм ищет слова, которые часто встречаются вместе в текстах и группирует их в темы. В свою очередь, каждый документ состоит из различных тем, в зависимости от слов, которые в нем встречаются. Самое сложное подобрать нужное количество тем и натренировать модель. Например, если вы хотите посмотреть, про что пишут ваши конкуренты, то можно скачать их тексты и посмотреть, про что они пишут.

Из последнего про контент мне особенно понравилась идея Дэвида Робинсона про анализ статей на Medium и какие из них получают больше клэпов. Я потом сделала такое же только для Хабра и статей, которые находятся там в сохраненках. Сеточки и тексты вместе - штука поистине необыкновенная. Так получились сеточка связей между словами (нахождение друг за другом), размер узла слова означал частотность, а цвет - количество сохранений. То есть слова с самым темным цветом и маленького размера, это, скажем так, редкие, но очень "в тему" статьи. А из этого можно целый контент план про актуальность тем построить!
Короче тексты - это сила, особенно, когда их много. Это, конечно, лишь маленький кусочек, чего разного прикольного можно делать с текстами и как это визуализировать. Если в программирование не хочется, то есть куча разных сервисов, где так или иначе можно реализовать эти и другие методы.

Лучшее про тексты на R от Джулии Силдж и Дэвида Робинсона https://www.tidytextmining.com
Мы с Алексеем Горадзе чуть-чуть про тексты на R User Group https://youtu.be/7YykViYej4E
MyStem от Яндекса https://yandex.ru/dev/mystem/
Мой копипсат Дэвида Робинсона с Хабром https://vk.com/wall-171735433_122

Если есть вопросы - я всегда рада на них ответить!
Я вообще очень сеточки люблю! Сделать пост про сетевой анализ кратенький? Если что-то конкретное интересно - напишите мне в лс, про что написать 🦊
это слишком красиво
Forwarded from vc.ru
Обозреватель The Washington Post за неделю получил более 11 тысяч запросов на сохранение cookie-файлов, которые пропустил Chrome, и считает, что Google не обеспечивает приватность пользователей.

По его мнению, браузер Google Chrome превратился в инструмент для слежки — и тем пользователям, кому нужна приватность, следует перейти на другие браузеры

Коротко о том, чем отличается подход Google от остальных разработчиков браузеров и почему Chrome называют «шпионским ПО»: vc.ru/services/75120
Тут сделали прикольную штуку TheyDrawIt https://theydrawit.mucollective.co/home
Там можно нарисовать линейный график и стереть его кусочек (или даже целую линию), а потом попросить своих читателей угадать недостающую часть графика. Например, тренд чего-нибудь📈

🔥Подробнее про работу сервиса есть вот тут по ссылке ниже. В конце вы получите ссылку на график и кусочек кода для сайта и любой сможет попробовать !
https://medium.com/multiple-views-visualization-research-explained/theydrawit-an-authoring-tool-for-belief-driven-visualization-b3267a001480
Интереснейшее от Nathan Yau. У меня, кстати, довольно много знакомых именно из "физкультурных специальностей".

Кто-нибудь знает, может и у нас статистика такая есть?

https://flowingdata.com/2019/07/10/bachelors-degree-movers/
Что такое гайдлайны по визуализации данных в организациях и как они вообще выглядят. Очень интересная и полезная статья👍
https://medium.com/nightingale/style-guidelines-92ebe166addc
Может такие и у Росстата будут...
1
Я-таки написала штуку про сеточки. Он вроде маленький, но для поста большеват, поэтому положила все на медиум. Там на все есть ссылочки и удобно смотреть картинки 💜


https://medium.com/@anastasiyakuznetsova_97575/небольшое-введение-в-сетевой-анализ-e648870c3482
5
plotluck - пакет, на R где "вам повезет" с графиком. В нем вместо отдельного прописывания всех деталей визуализации, вы просто говорите, что визуализировать, а он уже попробует догадать все остальное за вас!
https://cran.r-project.org/web/packages/plotluck/vignettes/plotluck.html
Лучшая! Если вы до сих пор не знакомы с блогом JULIA SILGE, то самое время. Пишет понятно про R и интересно про жизнь 🐼
https://juliasilge.com/blog/
Медик, общественный деятель, статистик и одна из первых в визуализации данных. История про визуализацию и жизнь Флоренс Найтингейл
https://medium.com/nightingale/florence-nightingale-is-a-design-hero-8bf6e5f2147
Я уже как-то писала про то, что такое боксплот и зачем он вообще нужен. Хотите еще что-то такое про небанальные графички - зачем они нужны и как их читать?
не устаю повторять

Medium is the new Wikipedia
Книжки у них больше рисовательные и похожи на ежедневники. Жутко милые, но не обучающие, а сподвигающие к творчеству 🐙
Forwarded from vc.ru
Google-шаблон для быстрой оценки проблемы, которую решает стартап. Помогает понять, есть ли у проекта перспективы на американском рынке или стоит поискать какую-то другую идею: vc.ru/services/78850

Шаблон можно скопировать и адаптировать для российского рынка