Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Forwarded from Мониторим ИТ
☄️ DataLens — система бизнес-аналитики и визуализации данных. Он был разработан и использовался в качестве основного инструмента аналитики в Яндексе, а теперь доступен как проект с открытым исходным кодом.
Вот что можно делать с помощью системы:
➖ Создавайте графики, чтобы быстро проверить гипотезу на ваших данных. ➖ ➖ Собирайте полноценный дашборд для мониторинга ключевых бизнес-метрик.
➖ Подключайтесь к своим облачным и локальным базам данных, сервисам и плоским файлам.
➖ Используйте дополнительные типы подключений, шаблоны дашбордов, датасеты и геослои для обогащения собственной аналитики.
🚩 Сервис предоставляется бесплатно. Без ограничений на количество пользователей и запросов.
Вы можете развернуть DataLens на любой инфраструктуре. Пользуйтесь и делитесь с коллегами 🤝
#devops #data #dataops #yandex
@DevOpsKaz
Вот что можно делать с помощью системы:
➖ Создавайте графики, чтобы быстро проверить гипотезу на ваших данных. ➖ ➖ Собирайте полноценный дашборд для мониторинга ключевых бизнес-метрик.
➖ Подключайтесь к своим облачным и локальным базам данных, сервисам и плоским файлам.
➖ Используйте дополнительные типы подключений, шаблоны дашбордов, датасеты и геослои для обогащения собственной аналитики.
🚩 Сервис предоставляется бесплатно. Без ограничений на количество пользователей и запросов.
Вы можете развернуть DataLens на любой инфраструктуре. Пользуйтесь и делитесь с коллегами 🤝
#devops #data #dataops #yandex
@DevOpsKaz