Big Data Science [RU]

🐱Визуализация временных изменений категориальных данных: PyCatFlow vs RankFlow
Иногда Data Scientist’у требуется визуализировать ранжированные списки с течением времени, например, изменения в результатах поиска по запросам в Google или YouTube. Для этого можно использовать RankFlow - полезный инструмент с минималистичным UI и довольно затруднительным процессом подготовки данных. RankFlow позволяет сравнивать ранжированные списки с течением времени. Он требует, чтобы входные табличные данные были организованы так, чтобы каждый столбец представлял ранжированный список. Каждый ранжированный список может быть дополнен весами, добавляя к данным еще один уровень информации. Например, для результатов поиска на YouTube, можно взять количество просмотров, голосов за или соотношение голосов за-против. Каждый столбец в таблице данных представлен в виде стека узлов, упорядоченных в соответствии с рангом в данном наборе данных. Кроме того, идентичные узлы соединены между столбцами. Это выводит на первый план непрерывность и изменения данных, позволяя анализировать паттерны.
Создание визуализации RankFlow на основе этих данных требует изменения набора данных. Для каждой версии API должен быть столбец, содержащий ранжированный список разрешений, которые не упорядочиваются по какой-либо метрике релевантности. Поэтому создание порядка для диаграммы RankFlow - это дизайнерское решение, то есть элементы могут быть отсортированы в алфавитном порядке, по частоте их появления в наборе данных или на основе дополнительных данных.
На практике адаптация данных к требуемой структуре данных RankFlow довольна утомительна. Чтобы ускорить пред- и постобработку диаграмм, можно написать собственный скрипт на Python, который обрабатывает XML-данные в файле SVG, созданном RankFlow. Альтернативой является PyCatFlow - инструмент визуализации, аналогичный RankFlow, который хорошо подходит для временных данных без явной информации о ранжировании, но с потенциальными дополнительными категориальными данными. PyCatFlow - это open-source пакет Python, который можно свободно скачать с Github.
https://medium.com/@bumatic/pycatflow-visualizing-categorical-data-over-time-b344102bcce2
https://github.com/bumatic/PyCatFlow

Medium

PyCatFlow: Visualizing Categorical Data Over Time

PyCatFlow is a Python package for visualizing temporal changes to categorical data. It is inspired by Bernhard Rieder’s visualization tool…

432 views04:25