Dev0ps – Telegram

Dev0ps

40 subscribers

211 photos

3 videos

50 files

3.33K links

Download Telegram

About

Blog

Apps

Platform

Forwarded from Протестировал (Sergey Bronnikov)

Когда я делал тесты на основе библиотеки Jepsen для Tarantool, то планировал добавить в тестирование сбои на файловой системе. Почему-то так сложилось, что в самой библиотеке Jepsen нет сбоев для файловых систем и даже Кайл в одном из своих комментариев написал, что было бы здорово, если бы кто-то добавил их в Jepesen. Я знаю, что есть две файловые системы на основе FUSE: CharybdeFS от разработчиков ScyllaDB и PetardFS, но у меня есть вопросы к интерфейсам для описания сбоев в этих файловых системах. CharybdeFS при запуске поднимает сервер и по протоколу Thrift можно включать и выключать различные виды сбоев, а PetardFS использует XML для конфигурации при запуске. Ни первый ни второй вариант мне не понравился и я сделал свою файловую систему с тем же подходом, но конфигурацию можно описывать с помощью файла в формате INI (как конфиги в Windows). Это такой компромисс формата удобного и для чтения машиной и человеком. Файл с конфигурацией лежит на самой ФС и перечитывается каждый раз, когда его обновляют (мы же ФС и знаем какие операции и с какими файлами происходят). Как оказалось, такая тестовая ФС полезна не только при тестировании распределенных систем или баз данных. В тикеты пришёл парень, который тестирует парсер и ему нужно, чтобы за одно чтение возвращался ровно 1 байт из файла. Поэтому ассортимент возможных сбоев я ещё буду расширять.

https://github.com/ligurio/unreliablefs

GitHub - ligurio/unreliablefs: A FUSE-based fault injection filesystem.

A FUSE-based fault injection filesystem. Contribute to ligurio/unreliablefs development by creating an account on GitHub.

13 views16:22

https://engineering.razorpay.com/scaling-to-trillions-of-metric-data-points-f569a5b654f2

Scaling to trillions of metric data points

A journey of building a robust metrics aggregation platform

13 views16:31

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🔐 Иллюстрация и объяснение каждого байта TLS-соединения: https://proglib.io/w/e0f20879

tls12.xargs.org

The Illustrated TLS 1.2 Connection

Every byte of a TLS connection explained and reproduced

14 views18:30

Forwarded from DevOps Deflope News

Для Амазона/Гугла есть много рекомендаций по настройке безопасности. Вот чеклист по безопасности и для Yandex.Cloud. Он достаточно простой, если у кого-то есть более подробные инструкции или чеклисты для Яндекса — присылайте его нам, опубликуем в канале тоже.
http://a.e42.link/jYoY7

11 views07:22

Forwarded from Грефневая Кафка (pro.kafka)

Кафка с медом (простите):
О том как говорят Кафку в Honeycomb.io

- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform 6.0 (enterprise): Tiered Storage (в их паттерне надо держать 24-48 часов в быстром доступе NVMe, чтобы можно было быстро replay. И Self-balancing Kafka (Cruise Control сразу зашит))
- так же Кафка нормально живет на arm-е (они используют graviton от AWS).
- много правильных рассуждений на тему sizing - выбор на каком instance type бежать еще пол беды, надо понять сколько это будет стоить.

Не знаю, кому будет полезно. Копировать as is не надо, но я рекомендую как минимум разобраться с их ходом мыслей Liz Fong-Jones и ее команды (из зафолловить ее).
Там много правильных идей на тему цена-производительность-заплатить вендору

Scaling Kafka at Honeycomb

See how Honeycomb reduced Kafka cost by a total of 87% per megabyte/sec of throughput w/ AWS’s new Amazon EC2 lm4gn instance family and Confluent Tiered Storage.

16 views23:32

Forwarded from Грефневая Кафка (pro.kafka)

Вдогонку к предыдущему сообщению, тредик из Твитера Liz
- видео и код с прибаутками как запустить это дело на Graviton2
- в блоге еще сказано не юзать стоковую OpenJDK, а юзать Correto
- ZStandard compression можно юзать в проде

Грефневая Кафка (pro.kafka)

Кафка с медом (простите):
О том как говорят Кафку в Honeycomb.io

- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform…

15 views23:32

Forwarded from DevOps drawer

https://rakyll.org/shardz/

18 views23:56

Forwarded from Мониторим ИТ

irate() vs rate() — What’re they telling you?

Prometheus makes available great functions for data aggregation by timeline. Among these functions, I focused my analysis on irate() and rate() which give us similar outcomes but they work in different way. Читать дальше.

irate() vs rate() — What’re they telling you?

Prometheus makes available great functions for data aggregation by timeline. Among these functions, I focused my analysis on irate() and…

17 views17:15

Forwarded from Инжиниринг Данных (Dmitry Anoshin)

Оказывается у AWS есть альтернативная (честная) версия их AWS Service Health Dashboard. Потому что, как мне сказали оригинальный продукт - bullshit. Поэтому, если у вас AWS то вам бует полезно добавить в закладки https://stop.lying.cloud/

16 views17:52

https://github.com/cossacklabs/acra

GitHub - cossacklabs/acra: Database security suite. Database proxy with field-level encryption, search through encrypted data,…

Database security suite. Database proxy with field-level encryption, search through encrypted data, SQL injections prevention, intrusion detection, honeypots. Supports client-side and proxy-side (&...

19 views06:45

https://www.genui.com/open-source/s3p-massively-parallel-s3-copying

S3P - Massively Parallel S3 Copying - GenUI

S3P - Massively Parallel S3 Copying

S3P is an open source, massively parallel tool for listing, comparing, copying, summarizing and syncing AWS S3 buckets.

19 views09:10

Forwarded from ДевОпс Інженер 🇺🇦 (Oleg Mykolaichenko)

Introducing Prometheus Agent Mode

The Agent mode optimizes Prometheus for the remote write use case. It disables querying, alerting, and local storage, and replaces it with a customized TSDB WAL. Everything else stays the same: scraping logic, service discovery and related configuration.

Нормально! 💪

https://prometheus.io/blog/2021/11/16/agent/

Introducing Prometheus Agent Mode, an Efficient and Cloud-Native Way for Metric Forwarding | Prometheus

An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.

19 views15:30

Forwarded from From Junior to CTO (Ivan Osipov)

Production Readiness Review (PRR)

Несколько лет назад Google рассказал миру о том кто такие SRE (Site Reliability Engineers) и как они помогут обеспечить надежность приложения в продакшене. Кто-то из вас наверняка слышал, что SRE реализуют практики DevOps, а сам по себе DevOps это больше философия чем роль в команде. PRR это процесс, который позволяет подготовить приложение к продакшену. На первом этапе рождается чеклист, лучше всего если чеклист отражает опыт команды и учитывает нюансы эксплуатации продукта. Когда чеклист готов, начинается процесс ревью, человек от команды и ревьюер встречаются и на коротких митингах проходят чеклист, сфокусированно, не распыляясь, качественно. Сам факт прохождения PRR обещает значительно уменьшить количество проблем в продакшене, как минимум благодаря тому что к некоторым из них мы уже готовы и зафиксировали как риски

Вот небольшая статья от GrafanaLabs: https://grafana.com/blog/2021/10/13/how-were-building-a-production-readiness-review-process-at-grafana-labs/

#practice #sre

How we’re building a production readiness review process at Grafana Labs | Grafana Labs

To help the on-call rotation manage our multiple products, we’re having experienced engineers review and identify potential issues.

15 views15:31

Не повторяйте: мои инфраструктурные ошибки / Хабр
https://habr.com/ru/company/ispsystem/blog/594819/

Не повторяйте: мои инфраструктурные ошибки

По мере своего карьерного роста я все чаще и чаще испытываю чувство дежавю. Во время личной или деловой встречи моему собеседнику достаточно упомянуть какой-то малозначительный факт — и я сразу же...

1.34K views07:54

Forwarded from DevOps&SRE Library

SLO Alerting for Mortals

https://ervinbarta.com/2021/10/19/slo-alerting-for-mortals

13 views19:20

Forwarded from DevOps drawer

https://blog.nimbleways.com/let-s-make-faster-gitlab-ci-cd-pipelines/

Let's make faster GitLab CI/CD pipelines

Going from 14 to less than 3 minutes pipelines in no more than 7 iterations.

23 views19:49

https://aws.amazon.com/ru/message/12721/

Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region

22 views10:10

Forwarded from Українська девопсарня (Seva Poliakov)

Внезапно - релиз plumber 1.0, моей любимой утилиты для работы с Кафкой и другими очередями✌️✌️

https://github.com/batchcorp/plumber

GitHub - streamdal/plumber: A swiss army knife CLI tool for interacting with Kafka, RabbitMQ and other messaging systems.

A swiss army knife CLI tool for interacting with Kafka, RabbitMQ and other messaging systems. - streamdal/plumber

18 views19:19

https://httptoolkit.tech/blog/http-wtf/

HTTP is fundamental to modern development, from frontend to backend to mobile. But like any widespread mature standard, it's got some funky skeletons in the...

24 views09:47

Oracle Cloud раздаёт бесплатно навсегда инстансы с 24 ГБ памяти / Хабр
https://habr.com/ru/company/itsumma/news/t/595151/

Oracle Cloud раздаёт бесплатно навсегда инстансы с 24 ГБ памяти

Сервер с 80-ядерным процессором Ampere Altra 80C Многие облачные провайдеры предлагают «бесплатный сыр», но зачастую это демо-инстансы, которые действуют несколько месяцев, а потом превращаются в...

23 views17:22