CORTEL – Telegram

CORTEL

4.06K subscribers

2K photos

163 videos

156 files

1.69K links

Помогаем ИТ-директорам, DevOps и системным инженерам снижать TCO и поднимать SLA. Кейсы, инструменты и гайды.

Сайт:
https://cortel.cloud

Cотрудничество:
@ivan_cmo

Download Telegram

About

Blog

Apps

Platform

4.06K subscribers

⚙️

Xargs — классическая Unix-утилита, которая берёт данные со стандартного ввода и подставляет их как аргументы другой команде.

Звучит просто, но именно она помогает превращать пайплайны в мощные однострочники для массовых операций.

Многие команды (rm, cp, mv, kill) не читают список целей из stdin напрямую. Они ждут аргументы. xargs решает эту задачу: принимает поток данных, разбивает его на элементы и передаёт следующей команде уже в нужном формате.

Базовый принцип

Без xargs:


echo "file1.txt file2.txt" | rm
# Не работает — rm не читает stdin

С xargs:


echo "file1.txt file2.txt" | xargs rm
# Превратится в: rm file1.txt file2.txt

Основные флаги

-n N — количество аргументов на одну команду.
-I {} — заменитель (placeholder), используется когда нужно вставить значение в середину команды, а не в конец.
-P N — параллельное выполнение в N процессов.
-0 — разделитель — нулевой байт.
-t — показать команду перед выполнением (verbose).
-p — спросить подтверждение для каждой команды.

Боевые примеры

Убить все процессы по имени


pgrep -f "old_script" | xargs kill -9

Удалить пустые файлы


find . -type f -empty -print0 | xargs -0 rm

Архивация найденных файлов:


find . -name "*.log" -mtime +30 -print0 | xargs -0 tar czf old_logs.tar.gz

Изменить права на всех скриптах:


find . -name "*.sh" -print0 | xargs -0 chmod +x

xargs нужен там, где поток данных нужно превратить в аргументы команды. За счёт этого обычные Unix-команды начинают работать с большими списками файлов, процессов и других объектов.

#линуксятина

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥2

1.02K views06:13

🧩

Импортозамещение виртуализации без переделок

Переход на отечественные решения начинается раньше, чем миграция виртуальных машин.

Сначала нужно проверить всю связку:
платформу, серверы, СХД, сеть, резервное копирование, мониторинг, поддержку и дальнейшее масштабирование.

Если выбрать решение только по формальному признаку, то проблемы перейдут в эксплуатацию. Может не хватить производительности, появятся ограничения по совместимости, а привычные процессы придётся собирать заново.

Отдельное внимание нужно уделить вендору.
Важно смотреть на матрицы совместимости, опыт внедрений, документацию, пилотирование и поддержку в реальных сценариях после запуска.

👉

В новом материале разобрали, как выбрать оборудование и вендора для импортозамещения виртуализации, чтобы архитектура выдержала миграцию, нагрузку и масштабирование.

#статья

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2👍2

1.01K views06:07

💻

etcd — распределённое хранилище данных Kubernetes.

В нём хранится состояние кластера: поды, деплойменты, секреты, конфигурации, ноды, правила доступа и другие объекты.

По этим данным управляющий контур понимает, что сейчас есть в кластере и какое состояние нужно поддерживать.

➡️

Особенности

С etcd напрямую работает API-сервер Kubernetes.
Остальные компоненты получают данные уже через него.

Так Kubernetes централизованно проверяет запросы, права доступа и изменения в состоянии кластера.

Данные в etcd хранятся с версиями.
Когда объект меняется, Kubernetes видит это изменение и реагирует: создаёт под, обновляет конфигурацию, приводит сервис к нужному состоянию.

➡️

Как работает

Обычно etcd работает как кластер из нескольких узлов.

Один узел принимает изменения, остальные синхронизируют с ним данные.
Запись считается подтверждённой, когда её приняло большинство узлов.

Изменения в etcd фиксируются только после подтверждения большинством узлов. Поэтому в production чаще используют 3 или 5 узлов: так проще сохранить кворум при отказе и продолжить работу управляющего контура.

Потеря etcd без актуального бэкапа может привести к потере управляемого состояния Kubernetes-кластера.

Сами ноды при этом могут быть живы, но Kubernetes уже не сможет нормально управлять объектами, конфигурациями и доступами.

Поэтому снимок состояния etcd — обязательная часть эксплуатации.

➡️

Снять снимок можно командой:


etcdctl snapshot save /backup/etcd-$(date +%F).db

➡️

Проверить состояние узлов:


etcdctl endpoint status --cluster -w table

etcd хранит состояние Kubernetes-кластера. Поэтому бэкап должен быть не просто настроен, а проверен: снимок нужно уметь восстановить до того, как это потребуется в аварийной ситуации.

#заметкиИнженера

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4👍2

764 views07:26

🖥

systemd-resolved — компонент systemd, который отвечает за разрешение сетевых имён. По сути — это небольшой кеширующий DNS-сервер, который крутится прямо на вашей машине и работает посредником между приложениями и реальными DNS-серверами.

📍

Зачем он нужен?

Раньше DNS-серверы прописывались в один файл /etc/resolv.conf, и за него дрались все подряд: DHCP, VPN, NetworkManager. Кто последний записал — тот и победил, а остальные настройки терялись. systemd-resolved решает это и даёт сверху:

— Раздельный DNS под каждый интерфейс (per-link) — VPN, Wi-Fi и Ethernet больше не затирают настройки друг друга.
— Кеширование — повторные запросы не уходят в сеть, резолвинг быстрее.
— Современные протоколы — DNSSEC, DNS-over-TLS (DoT), а также LLMNR и mDNS для имён в локальной сети.

📍

Как работает?

Поднимает локальный DNS-сервер на адресе 127.0.0.53:53 — это так называемый stub-резолвер (заглушка). /etc/resolv.conf превращается в симлинк на /run/systemd/resolve/stub-resolv.conf, где прописан единственный nameserver те самые 127.0.0.53.

Все приложения отправляют запросы на этот локальный адрес. Дальше resolved сам решает, на какой реальный upstream-сервер переслать запрос в зависимости от интерфейса, домена и настроек.

📍 Основные команды

Главная утилита — resolvectl

Полный статус с DNS-серверами по каждому интерфейсу:


resolvectl status

Global
       Protocols: -LLMNR -mDNS +DNSOverTLS DNSSEC=no/unsupported
resolv.conf mode: stub

Link 2 (eth1)
    Current Scopes: DNS
         Protocols: +DefaultRoute +DNSSEC
Current DNS Server: 77.88.8.8
       DNS Servers: 77.88.8.8 77.88.8.1

Резолвинг имени через resolved:


resolvectl query cortel.cloud

cortel.cloud: 95.181.181.7        -- link: eht1
-- Information acquired via protocol DNS in 12.3ms.
-- Data is authenticated: no

Сброс DNS-кеша:


resolvectl flush-caches

systemd-resolved — это локальный кеширующий резолвер, который наводит порядок в DNS: разводит серверы по интерфейсам, кеширует ответы и поддерживает современные протоколы вроде DoT и DNSSEC. На большинстве свежих Ubuntu/Debian он включён по умолчанию.

#линуксятина

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥4❤2👏1

787 views06:40

📖

Как освоить современный Linux

Полный справочник по современной Linux-среде: от базовых принципов работы ОС до ядра, оболочек, файловых систем, сетевого взаимодействия, контейнеров и систем мониторинга.

🔍

Рассматривается:

— что такое современный Linux и где он используется;
— архитектура Linux и устройство ядра;
— процессы, память, системные вызовы и модули ядра;
— работа с терминалом, оболочками и скриптами;
— управление пользователями, правами и доступом;
— файловые системы и виртуальная файловая система;
— приложения, systemd и управление пакетами;
— контейнеры и современные менеджеры пакетов;
— основы сетевого взаимодействия, TCP/IP и DNS;
— журналирование, мониторинг и наблюдаемость;
— виртуальные машины и межпроцессное взаимодействие;
— современные дистрибутивы Linux и перспективные возможности системы.

Автор:
Майкл Хаузенблас

Издательство:
O’Reilly / русское издание, 2026 г.

#книги #полезное

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3👏2👎1

949 views07:32

💰

Экономия на архитектуре, которая увеличивает TCO

Самые дорогие ошибки в инфраструктуре часто выглядят как разумная экономия на старте.

Обычно сокращают то, что кажется необязательным прямо сейчас: резервирование сети, запас по СХД, мониторинг, тесты восстановления, документацию и план масштабирования.

А последствия появляются позже:
— Сетевую схему приходится менять уже после запуска.
— СХД не выдерживает реальный профиль нагрузки: растут задержки, проседают сервисы.
— Проблемы с инфраструктурой становятся заметны по жалобам пользователей.
— Бэкапы есть, но восстановление не проверялось — в момент инцидента это превращается в отдельный риск.

Так экономия превращается в рост TCO.
Потому что в стоимость инфраструктуры входят эксплуатация, риски, восстановление, масштабирование и цена будущих переделок.

👉

В новом материале разобрали, где компании чаще всего экономят при построении ИТ-инфраструктуры, как эти решения возвращаются дополнительными расходами и почему иногда «дешевле на старте» означает дороже в три раза.

#статья

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2👏1

748 views07:10

📝

Шпаргалка по проектированию безопасных систем.

Помогает быстро проверить, какие направления защиты нужно учесть при проектировании ИТ-системы: доступы, данные, сеть, API, контейнеры, подрядчики, реагирование на инциденты и восстановление.

🔐

Основные направления защиты

— Authentication
Проверка того, кто входит в систему. Сюда относятся парольная политика, MFA, доступ сотрудников к внутренним сервисам и защита учётных записей.

— Authorization
Управление правами после входа. Роли, уровни доступа, принцип минимальных привилегий и регулярный пересмотр выданных прав.

— Encryption
Защита данных при передаче и хранении. TLS, шифрование чувствительной информации, управление ключами и контроль доступа к ним.

— Vulnerability Management
Работа с уязвимостями. Патчи, регулярное сканирование, мониторинг и проверка критичных обновлений.

— Audit & Compliance
Журналы, проверки и соответствие требованиям. Для российской инфраструктуры сюда можно отнести 152-ФЗ, 187-ФЗ, требования ФСТЭК/ФСБ и внутренние регламенты компании.

— Network Security
Защита сети. Межсетевые экраны, сегментация, IDS/IPS, защищённый DNS и контроль сетевых потоков между системами.

— Endpoint Security
Защита рабочих станций, ноутбуков и других конечных устройств. Антивирус, EDR, управление устройствами и шифрование дисков.

— Incident Response
Реагирование на инциденты. План действий при атаке, утечке, DDoS или компрометации учётной записи, а также регулярные тренировки команды.

— Container Security — безопасность самих контейнеров: доверенные реестры и образы, сканирование на уязвимости, минимальная база, запуск без root, контроль runtime.

— Kubernetes Security — безопасность кластера: RBAC, network policies, Pod Security Standards, защита control plane и etcd, управление секретами.

— API Security
Защита публичных и внутренних API. OAuth 2.0, API-ключи, rate limiting, валидация входных данных и контроль подозрительной активности.

— Third-Party Management
Работа с подрядчиками и внешними сервисами. Оценка поставщиков, безопасный обмен данными, контроль интеграций и внешних доступов.

— Disaster Recovery
Восстановление после сбоя или атаки. DR-план, резервное копирование, резервирование систем и регулярная проверка восстановления.

Такая карта хорошо показывает, что безопасность системы начинается ещё на этапе архитектуры. Чем раньше эти направления учтены в проектировании, тем меньше хаоса будет при эксплуатации, проверках и реальных инцидентах.

#полезное

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥3👍2

752 views07:30

Forwarded from DevOps FM

This media is not supported in your browser

VIEW IN TELEGRAM

Приглашаем инженеров на DevOps Lab: ML in Production!

Не планируйте ничего на 26 июня! Открыли регистрацию на закрытую встречу в Новосибирске, где DevOps-инженеры и технические руководители разберут, как выстроить безопасную инфраструктуру для ML-сервисов на практике.

🟡

Что вас ждет?
• инфраструктура инференса
• безопасность ML-пайплайнов
• наблюдаемость моделей в производственной среде
• Кофе-брейк и возможность задать неудобные вопросы напрямую

На DevOps Lab мы соберёмся небольшим кругом, чтобы послушать три практических доклада, обсудить кейсы и немного подебажить с коллегами из индустрии. Регистрируйтесь, количество билетов ограничено :)

📌 26 июня, 18:00 | г. Новосибирск, офис Никсис
📌 Регистрация: по ссылке

#девопс #никсис #митап

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2👏2❤1

813 views05:22

💻

Probes в Kubernetes:
как кластер понимает, что под работает и готов принимать запросы

Kubernetes не может оценить состояние приложения без специальных проверок. Процесс может быть запущен, но при этом висеть в дедлоке или ещё не успеть прогрузить кеш.

Для этого и существуют probes — проверки, по результатам которых kubelet принимает решения о перезапуске и направлении трафика.

➡️

Виды probe

— livenessProbe — контролирует работоспособность контейнера. При провале kubelet перезапускает контейнер. Применяется, когда приложение может «зависнуть» без падения процесса.
— readinessProbe — проверяет, готов ли контейнер принимать трафик. При провале под убирается из конечных точек сервиса, но не перезапускается. Используется для прогрева, ожидания зависимостей (БД, кеш).
— startupProbe — проверяет, успело ли приложение стартовать. Пока она не пройдена, liveness и readiness заморожены. Нужна для медленно стартующих приложений, чтобы их не убивало раньше времени.

➡️ Как работают?

Каждая probe выполняется одним из трёх способов:

— httpGet — HTTP-запрос на путь и порт, успех при коде 200–399
— tcpSocket — проверка, что порт открыт
— exec — выполнение команды внутри контейнера, успех при коде возврата 0


containers:
- name: app
  image: my-app
  startupProbe:
    httpGet:
      path: /healthz
      port: 8080
    failureThreshold: 30
    periodSeconds: 10
  livenessProbe:
    httpGet:
      path: /healthz
      port: 8080
    initialDelaySeconds: 0
    periodSeconds: 10
    failureThreshold: 3
  readinessProbe:
    httpGet:
      path: /ready
      port: 8080
    periodSeconds: 5
    failureThreshold: 2

🔧 Основные параметры

— initialDelaySeconds — задержка перед первой проверкой
— periodSeconds — как часто выполнять проверку
— timeoutSeconds — таймаут одной проверки
— successThreshold — сколько успехов подряд считать восстановлением (для liveness/startup всегда 1)
— failureThreshold — сколько провалов подряд считать отказом

Пример со startupProbe выше даёт приложению до 30 × 10 = 300 секунд на запуск, после чего управление переходит к liveness.

Probes — это не формальность в манифесте, а контракт между приложением и кластером. Liveness помогает kubelet принять решение о перезапуске контейнера, readiness показывает, можно ли направлять на pod трафик, startup даёт приложению время на корректный запуск. Разделение этих ролей напрямую влияет на стабильность сервиса при деплоях и сбоях.

#заметкиИнженера

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🔥3

862 views08:20

💪

Анатомия высоких нагрузок:
как строится отказоустойчивая инфраструктура

🔍

Обычно всё начинается с симптомов: сервисы проседают в пиковые часы, восстановление после сбоя занимает непредсказуемое время, новый продукт сложно запустить, а текущий контур уже не выдерживает рост.

И на это есть разные причины.
Сервис может тормозить из-за нехватки ресурсов, длинных запросов к базе данных, слабой сетевой схемы, конкуренции бэкапов с рабочей нагрузкой или проблем с балансировкой.

Поэтому архитектуру нельзя считать только по количеству серверов, виртуальных машин и терабайт хранения.

Нужно понимать профиль нагрузки, критичность сервисов, допустимый простой, потери данных, требования к безопасности и уровень эксплуатации после запуска.

👉

В новом материале разобрали, как строится инфраструктура под высокие нагрузки: от первого запроса и инженерного разбора до проектирования, тестирования, запуска и передачи в эксплуатацию.

#статья

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤2

859 views08:02

🖥

logrotate — утилита для автоматической ротации, сжатия и удаления логов в Linux.

Она помогает ограничивать рост логов: переносит старые файлы, сжимает их, удаляет устаревшие копии и при необходимости выполняет команды после ротации.

logrotate не работает постоянно в фоне.
Его запускает cron (/etc/cron.daily/logrotate) или systemd-таймер (logrotate.timer), обычно раз в сутки.

При запуске утилита читает конфиги, проверяет условия ротации и выполняет действия, если файл подходит под заданные правила.

➡️

Где лежат конфиги?

— /etc/logrotate.conf — основной файл с глобальными настройками.
— /etc/logrotate.d/ — каталог с отдельными конфигами для каждого сервиса (nginx, postgres и т.д.)

➡️

Пример конфига для приложения:

Допустим, нужно ротировать логи своего приложения в /var/log/myapp/.
Создаётся файл /etc/logrotate.d/myapp:


    daily
    rotate 14
    size 100M
    compress
    delaycompress
    missingok
    notifempty
    create 0640 myapp myapp
    sharedscripts
    postrotate
        systemctl reload myapp >/dev/null 2>&1 || true
    endscript
}

➡️

Что задано:

— daily — проверять ротацию каждый день.
— rotate 14 — хранить 14 архивных копий.
— maxsize 100M — ротировать файл при проверке, если он превысил 100 МБ.
— compress — сжимать старые логи.
— delaycompress — сжимать файл на следующем цикле ротации.
— missingok — продолжать работу, если лог-файл отсутствует.
— notifempty — не ротировать пустой файл.
— create 0640 myapp myapp — создать новый лог-файл с нужными правами и владельцем.
— sharedscripts — выполнить postrotate один раз для всей группы файлов.
— postrotate ... endscript — выполнить команду после ротации.

➡️

Полезные команды

➡️ Проверить конфиг без изменений (dry-run):


logrotate -d /etc/logrotate.d/myapp

➡️ Принудительно запустить ротацию, игнорируя расписание:


logrotate -f /etc/logrotate.conf

➡️ Подробный вывод того, что происходит:


logrotate -v /etc/logrotate.conf

👀 Обычно logrotate уже настроен при установке сервисов. Но его правила стоит проверять: от них зависит, как долго хранятся логи, когда они сжимаются и сколько места занимают на диске.

#линуксятина

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4🔥2

796 views07:10

⚠️

SLA на инфраструктуру

В этом договоре важны не общие обещания, а конкретные метрики, границы ответственности и последствия за нарушение.

Здесь важно не смешивать доступность сервиса с RTO, RPO, DR, бэкапами и поддержкой всего подряд.

Подрядчик отвечает за тот слой, который проектирует, контролирует, мониторит и может менять по регламенту.

Всё остальное — гостевые ОС, доступы, приложения, интеграции и изменения внутри контура — нужно отдельно фиксировать в договоре.

👉

В новом материале разобрали, что на самом деле измеряет SLA, чем отличаются модели сопровождения, почему изменения часто становятся причиной конфликтов и какие вопросы стоит задать подрядчику до аварии.

#статья

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3👏2

767 views07:10

💻 kube-controller-manager: компонент, который следит за состоянием кластера

В Kubernetes всё построено вокруг одной идеи: пользователь описывает, каким должен быть кластер, а система сама приводит реальность к этому описанию.

За это отвечает kube-controller-manager — компонент control plane, который запускает встроенные контроллеры и непрерывно сверяет желаемое состояние с фактическим.

Технически это единый бинарник, внутри которого крутятся десятки контроллеров. Они объединены в один процесс ради экономии ресурсов и упрощения эксплуатации, но логически независимы.

🔢

Контроллер — это бесконечный цикл согласования (reconciliation loop).

Его работа сводится к трём шагам:
— Наблюдение — через watch-механизм API-сервера контроллер получает события об изменении ресурсов.
— Сравнение — сопоставляет желаемое состояние (spec) с текущим (status).
— Действие — если есть расхождение, создаёт, удаляет или изменяет объекты, чтобы устранить разницу.

Цикл повторяется бесконечно. Удалили под вручную — контроллер заметит расхождение и создаст новый.

💬

Внутри kube-controller-manager работают:
— Deployment / ReplicaSet controller — поддерживает заданное число реплик. Именно он разворачивает ReplicaSet из Deployment, а тот создаёт поды.
— Node controller — следит за состоянием узлов. Если нода перестаёт слать heartbeat, помечает её NotReady и инициирует выселение подов.
— Job / CronJob controller — управляет жизненным циклом задач и их запуском по расписанию.
— EndpointSlice controller — связывает Service с подами, обновляя списки эндпоинтов при изменении состава подов.
— ServiceAccount & Token controller — создаёт сервис-аккаунты и связанные с ними секреты в новых namespace.
— Namespace controller — корректно удаляет все ресурсы внутри namespace при его удалении.

➡️

Пример: выполнение масштабирования


kubectl scale deployment nginx --replicas=5

Дальше происходит цепочка:

➡️ kubectl отправляет запрос на kube-apiserver, тот записывает новое значение replicas=5 в etcd.
➡️Через watch событие об изменении Deployment получает kube-controller-manager.
➡️Deployment controller обновляет связанный ReplicaSet.
➡️ReplicaSet controller видит: желаемо 5 подов, фактически 3. Создаёт 2 новых пода через API-сервер.
➡️Новые поды попадают в очередь — их подхватывает kube-scheduler и назначает на ноды.
➡️kubelet на этих нодах запускает контейнеры и докладывает о статусе обратно в API.

Сам controller-manager при этом не запускает контейнеры и не назначает поды на ноды — он лишь приводит число объектов к нужному, а грязную работу делают scheduler и kubelet.

kube-controller-manager — это целый цех автономных регуляторов, каждый из которых отвечает за свой кусочек кластера.
Именно он превращает декларативный манифест в живую, самовосстанавливающуюся систему.

#заметкиИнженера

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥2

603 views07:57

🛠

Поддержка инфраструктуры

«Поддержка 24/7» — чтобы понять, что это значит на самом деле, нужно заглянуть в договор.

В нём должно быть понятно, что входит в контур сопровождения и какие границы ответственности зафиксированы.

Если этого нет, то круглосуточная поддержка остаётся общей формулировкой, а в момент аварии начинается ручное управление и поиск того, кто должен включаться в работу.

👉

В новом материале разобрали, что должно стоять за поддержкой инфраструктуры 24/7, как отличить зрелую эксплуатацию от формальной техподдержки и какие вопросы задать подрядчику до подписания договора.

#статья

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

430 views08:03