Forwarded from L̶u̵m̶i̵n̷o̴u̶s̶m̶e̵n̵B̶l̵o̵g̵
Apache Spark is the major talking point in Big Data pipelines, boasting performance 10-100x faster than comparable tools. But how achievable are these speeds if you use a slow Python interpreter?
https://luminousmen.com/post/spark-tips-dataframe-api
https://luminousmen.com/post/spark-tips-dataframe-api
Forwarded from k8s
Firekube - Fast and Secure Kubernetes Clusters Using Weave Ignite
https://www.weave.works/blog/firekube-fast-and-secure-kubernetes-clusters-using-weave-ignite
https://www.weave.works/blog/firekube-fast-and-secure-kubernetes-clusters-using-weave-ignite
Forwarded from Архитектура ИТ-решений
Вам может нравиться Hazelcast или не нравиться. Вы даже можете не знать, что это такое. Но я почти уверен, что эта статья про паттерны кэширования в микросервисной архитектуре вам понравится: https://dzone.com/articles/where-is-my-cache-architectural-patterns-for-cachi
DZone
Where Is My Cache? Architectural Patterns for Caching Microservices
Where Is My Cache? Architectural Patterns for Caching Microservices — embedded, distributed, client-server, cloud
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Forwarded from CatOps
Facebook рассказывают о своём сервисе стриминга логов - Scribe.
"Transporting petabytes per hour" - вам такой объём скорее всего не нужен, но почитать интересно
#observability
"Transporting petabytes per hour" - вам такой объём скорее всего не нужен, но почитать интересно
#observability
Engineering at Meta
Scribe: Transporting petabytes per hour via a distributed, buffered queueing system
Scribe is a distributed, buffered queueing system that encapsulates all the complexity behind moving service logs from point A to point B.
Forwarded from Пятничный деплой
Еще один экспортер для сбора метрик об утилизации кластера в Kubernetes https://github.com/cloudworkz/kube-eagle выглядит интереснее чем стандартные метрики #k8s #prometheus #exporters #utilization
GitHub
GitHub - cloudworkz/kube-eagle: A prometheus exporter created to provide a better overview of your resource allocation and utilization…
A prometheus exporter created to provide a better overview of your resource allocation and utilization in a Kubernetes cluster. - cloudworkz/kube-eagle
Forwarded from CatOps
Cilium описывают свою multi-master фичу или как они это называют - ClusterMesh
Должно быть интересно тем, кто собирается строить файловер между разными провайдерами
#kubernetes #networking
Должно быть интересно тем, кто собирается строить файловер между разными провайдерами
#kubernetes #networking
cilium.io
Deep Dive into Cilium Multi-cluster
This is a deep dive into ClusterMesh, Cilium's multi-cluster implementation....
Forwarded from Пятничный деплой
Пилим аутентификацию для клиентов gRPC https://medium.com/utility-warehouse-technology/grpc-client-authentication-bf899ac8ada8
#grpc #authentification #security
#grpc #authentification #security
Medium
gRPC Client Authentication
Best practices for performing client authentication with gRPC is a question that comes up again and again, so I thought I’d dive into a…
Forwarded from Человек и машина
Готовя материал для одного мероприятия, наткнулся на бриллиантовую штуку - https://github.com/awslabs/aws-config-rdk
Кто не в курсе: AWS Config это система проверок на compliance в вашем аккаунте с поддержкой самописных правил.
Поскольку писать однотипные лямбды долго и скучно, Амазон выкатил свой девкит.
Кто не в курсе: AWS Config это система проверок на compliance в вашем аккаунте с поддержкой самописных правил.
Поскольку писать однотипные лямбды долго и скучно, Амазон выкатил свой девкит.
GitHub
GitHub - awslabs/aws-config-rdk: The AWS Config Rules Development Kit helps developers set up, author and test custom Config rules.…
The AWS Config Rules Development Kit helps developers set up, author and test custom Config rules. It contains scripts to enable AWS Config, create a Config rule and test it with sample Configurati...
Forwarded from L̶u̵m̶i̵n̷o̴u̶s̶m̶e̵n̵B̶l̵o̵g̵
Building an AWS Serverless ML Pipeline with Step Functions
https://tech.olx.com/building-an-aws-serverless-ml-pipeline-with-step-functions-b39feed12bab
https://tech.olx.com/building-an-aws-serverless-ml-pipeline-with-step-functions-b39feed12bab
Medium
Building an AWS serverless ML pipeline with Step Functions
Warning: this article does not intend to compare AWS Step Functions with other workflow processing engines (e.g. airflow). Please refer to…
Forwarded from Типа про IT
Слышали уже про Streamlit? Это такой Jupyter для ML. Не в том смысле, что у вас мощный веб-REPL, а по сути. Пара строчек, чтобы накидать виджетов, пара чтобы выкачать сырые данные, десяток для numpy, pandas, yolo, opencv, tensorflow или что вам там надо, и у вас шикарный интерактивный плейграунд для работы с этим всем. Почитайте Turn Python Scripts into Beautiful ML Tools, чтобы проникнуться.
Forwarded from I hate overtime
#eda #kafka
Ну раз уж, видимо, неделя кафки, то вот история в двух частях(раз и два) про IQ Streams, или как запускать стейтфул вычисления на стримах. Если не интересно про стейтфул, то там еще вполне годное введение в streams и сравнение с prod\cons api
Ну раз уж, видимо, неделя кафки, то вот история в двух частях(раз и два) про IQ Streams, или как запускать стейтфул вычисления на стримах. Если не интересно про стейтфул, то там еще вполне годное введение в streams и сравнение с prod\cons api
YouTube
Виктор Гамов, Confluent - Kafka Streams IQ: «Зачем нам база данных?» - jug.msk.ru - 08/05/2019 - ч.1
Запись встречи jug.msk.ru 8 мая 2019 с Виктором Гамовым, Confluent - Kafka Streams IQ - часть 1
Kafka Streams IQ: «Зачем нам база данных? Нам база не нужна!»
Рост популярности Apache Kafka, как потоковой платформы, потребовал пересмотра традиционного подхода…
Kafka Streams IQ: «Зачем нам база данных? Нам база не нужна!»
Рост популярности Apache Kafka, как потоковой платформы, потребовал пересмотра традиционного подхода…
Forwarded from L̶u̵m̶i̵n̷o̴u̶s̶m̶e̵n̵B̶l̵o̵g̵
Existing ML platform architectures:
Stanford’s DAWN
Uber’s Michelangelo
Facebook’s FBLearner Flow
Google’s TFX
Netflix
Airbnb's Bighead
DataBricks’ MLflow
#bigdata #ml
Stanford’s DAWN
Uber’s Michelangelo
Facebook’s FBLearner Flow
Google’s TFX
Netflix
Airbnb's Bighead
DataBricks’ MLflow
#bigdata #ml
Сайзинг Elasticsearch / Хабр
https://m.habr.com/ru/company/galssoftware/blog/470640/
https://m.habr.com/ru/company/galssoftware/blog/470640/
Хабр
Сайзинг Elasticsearch
— How big a cluster do I need? — Well, it depends… (злобное хихиканье) Elasticsearch — сердце Elastic Stack, в котором происходит вся магия с документами: выдача, приём, обработка и хранение....
Forwarded from chiki_briki
Когда хороший opensource продукт обрастает enterprise фичами за деньги, его форкают, затаскивают enterprise фичи и выпиливают прошлые недостатки. По крайней мере стараются)
Кажется именно это происходит с Redis. Новый монстр зовется KeyDB и по описаниям еще быстрее редиски, избавился от sentinel, умеет в мультимастер и кучу другого сахара
Описание - http://bit.ly/33dIQUx
Github - http://bit.ly/2nzNkpy
Новость из канала @sysadmin_tools
Кажется именно это происходит с Redis. Новый монстр зовется KeyDB и по описаниям еще быстрее редиски, избавился от sentinel, умеет в мультимастер и кучу другого сахара
Описание - http://bit.ly/33dIQUx
Github - http://bit.ly/2nzNkpy
Новость из канала @sysadmin_tools