Сергей Антропов — инфраструктура, платформа, эксплуатация

Опыт и подходExperience and approach

Ниже — не резюме в формате «список технологий», а попытка передать контекст: где складывалась практика, как обычно договариваемся о границах ответственности и почему, на мой взгляд, в зрелой организации инфраструктура и платформа не должны жить отдельно от продуктовых решений и от культуры эксплуатации.Below is not a “technology list” résumé but an attempt to give context: where practice formed, how we usually agree ownership boundaries and why, in my view, mature infrastructure and platform should not live apart from product choices and operations culture.

В числе последних профессиональных контекстов — аккредитованная IT-организация, созданная для разработки социально значимых технологических решений в области защиты молодёжи в цифровой среде. Это среда, где ошибки дорого обходятся не только в деньгах, но и в доверии; где внимание к деталям и к регламентам — не «бюрократия ради бюрократии», а способ не терять управляемость, когда система растёт и когда к ней предъявляют жёсткие требования по устойчивости и по сопровождению. Задачи уровня руководителя направления развития IT-инфраструктуры в такой среде близки к тому, что обычно формулируют как ответственность за доступность, отказоустойчивость, безопасность и производительность продуктов, за гибридную инфраструктуру (в т.ч. Kubernetes, виртуализация, распределённые хранилища и кластерные СУБД), за CAPEX/OPEX по инфраструктуре и инструментам, за стандарты в IaC и оркестрации, за построение и развитие CI/CD, мониторинга, логирования и резервного копирования, за рост зрелости DevOps/SRE и GitOps, за DevSecOps и соответствие корпоративным требованиям, а также за координацию с разработкой, SecOps и поддержкой — вплоть до личного участия в критических инцидентах и организации последующего разбора, когда важно не «найти виноватого», а убрать класс повторяемых отказов. Отдельной веткой идёт крупный финтех — этим я сейчас и занимаюсь: выстраиваю контур вокруг хранилища больших данных — с понятными границами зон ответственности, согласованием требований по задержкам и пропускной способности, планом масштабирования и резервирования, прозрачностью для аналитики и контрольными точками для ИБ и комплаенса, чтобы «большой объём» не превращался в чёрный ящик, который страшно трогать при каждом релизе смежных систем. Among recent professional contexts is an accredited IT organisation built to develop socially significant technology for youth safety in the digital environment. It is a setting where mistakes cost trust as well as money; where attention to detail and process is not “bureaucracy for its own sake” but a way to keep control as the system grows and faces strict resilience and support requirements. Head-of-IT-infrastructure responsibilities there map closely to what people usually describe as accountability for availability, resilience, security and performance of products, for hybrid infrastructure (including Kubernetes, virtualisation, distributed storage and clustered databases), for CAPEX/OPEX on infrastructure and tooling, for standards in IaC and orchestration, for building and maturing CI/CD, monitoring, logging and backups, for growing DevOps/SRE and GitOps maturity, for DevSecOps and corporate compliance, and for coordination with development, SecOps and support — down to hands-on work in critical incidents and follow-up reviews aimed not at “finding someone to blame” but at removing classes of repeat failure. A separate thread is large fintech — what I focus on now: shaping the perimeter around a big-data store with clear ownership zones, agreed latency and throughput requirements, scaling and resilience plans, transparency for analytics and checkpoints for security and compliance, so “large volume” does not become a black box nobody dares touch on every adjacent release.

Разработка. Инфраструктурная работа редко укладывается в готовые кнопки в консоли: чаще это десятки мелких повторяющихся действий, которые хочется собрать в один предсказуемый сценарий, а потом — в библиотеку, которую не стыдно передать коллеге. На Python удобно быстро дойти от идеи до рабочего прототипа: обвязать API, разобрать отчёт, прогнать сверку по инвентарю, собрать «скелет» интеграции с CMDB или тикет-системой, не превращая каждый эксперимент в отдельный «проект на века». Go хорош там, где важны компактный бинарник, предсказуемое потребление памяти и спокойная конкурентность: агенты на нодах, небольшие сервисы-адаптеры, CLI под задачи эксплуатации, синхронизация и валидация состояний — словом, всё, что должно жить рядом с системой и не требовать от дежурного цирка с виртуальными окружениями в три часа ночи. Я не продаю это как «мы всё переписали на микросервисы»: речь о том, чтобы там, где автоматизация упирается в зазор между инструментами, появился аккуратный слой кода с тестами, с понятной сборкой и с историей изменений в Git — потому что утилита, которую нельзя сопровождать, почти всегда дороже, чем ручной чеклист, который хотя бы все понимают одинаково. Development. Infrastructure work rarely fits console buttons alone: it is often dozens of small repeated actions you want to fold into one predictable scenario, then a library you are not ashamed to hand to a colleague. Python is a fast path from idea to working prototype: wrap an API, parse a report, reconcile inventory, sketch CMDB or ticketing integration without turning every experiment into a “forever project”. Go fits where a compact binary, predictable memory and calm concurrency matter: node agents, small adapter services, operational CLIs, sync and state validation — things that should live next to the system without a 3 a.m. virtualenv circus. I am not selling “we rewrote everything as microservices”: the point is that where automation hits a gap between tools, there should be a careful layer of code with tests, clear builds and Git history — because an unmaintainable utility is almost always more expensive than a manual checklist everyone actually understands.

В этой же плоскости лежит и работа рядом с командами, которые выводят в прод не только сервисы из привычного набора, но и цепочки вокруг моделей и аналитики: те же требования к секретам и доступам, те же ожидания по наблюдаемости и по управляемости изменений, но иной профиль нагрузки, чаще — чувствительность к задержкам и к стоимости вычислений, и необходимость заранее договориться, как живут артефакты, как устроены квоты и планирование GPU, как не превратить экспериментальный контур в «чёрный ящик», который никто не хочет сопровождать в ночи. Здесь полезны те же инженерные привычки, что и в «классическом» DevOps: воспроизводимые окружения, контролируемый выкат и откат, ясные политики на границе данных и сервисов, понятная наблюдаемость inference и инфраструктуры вокруг него — без попытки заменить продуктовую экспертизу, но и без иллюзии, что «модель — это просто ещё один контейнер», который можно отпустить на самотёк. The same plane includes work next to teams shipping not only familiar services but chains around models and analytics: the same expectations for secrets and access, observability and controlled change, but a different load profile — often latency and compute cost sensitivity — and the need to agree early how artifacts live, how GPU quotas and scheduling work, and how not to turn an experimental area into a “black box” nobody wants to on-call at night. The same habits as “classic” DevOps help: reproducible environments, controlled rollout and rollback, clear policies at the data/service boundary, understandable observability for inference and its surrounding infra — without pretending to replace product expertise, or pretending “a model is just another container” you can ignore.

За годы до этого — те же оси: сеть и железо, дата-центры и облака, автоматизация, наблюдаемость, данные и сообщения, постепенное усложнение стека и постепенное упрощение для людей, которые с ним живут. Бывают периоды, когда главное — удержать рост, не потеряв предсказуемость; бывают периоды, когда важнее аккуратно снизить операционный шум и стоимость владения. Я исхожу из того, что хорошая инфраструктура не должна требовать героизма: изменения должны быть воспроизводимыми, наблюдаемыми и откатываемыми, а знание — не держаться в одной голове. И да, это звучит банально, пока не столкнёшься с тем, как легко «временные» решения становятся постоянными — именно поэтому я привык закладывать в обсуждение не только «как запустить», но и «как жить дальше»: кто сопровождает, как измеряем успех, что делаем, когда приходит новый человек в команду и не знает историю решений полугодичной давности. Over the years the axes stay the same: network and hardware, datacentres and clouds, automation, observability, data and messaging, gradually more complex stacks and gradually simpler life for the people living with them. Sometimes the goal is to keep growth without losing predictability; sometimes to quietly reduce operational noise and cost of ownership. I assume good infrastructure should not require heroics: change should be reproducible, observable and reversible, and knowledge should not live in one head. Yes, it sounds trite until you see how easily “temporary” becomes permanent — that is why I bake in not only “how to launch” but “how we live afterwards”: who runs it, how we measure success, what we do when a newcomer joins without six months of decision history.

Если совсем коротко о стиле работы: я спокойно отношусь к тому, что в инфраструктуре всегда есть компромиссы между скоростью и риском, между стоимостью и запасом прочности; мне важно, чтобы эти компромиссы были явными, зафиксированными и пересматриваемыми, а не «само собой сложилось». Это относится и к обычным релизам, и к чувствительным контурам, где ошибка заметна сразу и где хочется, чтобы ночные звонки были редкостью не потому, что «все молодцы», а потому, что система и процессы не подводят. Very briefly on style: I am calm about trade-offs between speed and risk, cost and safety margin; I want those trade-offs explicit, recorded and revisited, not “whatever happened”. That applies to normal releases and to sensitive contours where mistakes show up immediately — and where you want rare night calls because the system and processes hold, not because “everyone is great”.

Карта развитияGrowth map

Условная вертикальная шкала по годам: как сменялся фокус от разработки к эксплуатации, инфраструктуре, DevOps и руководству — без претензии на полный CV, скорее как общий ориентир для разговора.A simple vertical timeline by year: how focus shifted from development toward operations, infrastructure, DevOps and leadership — not a full CV, more a conversation starter.

2000

Perl Developer

2002

C++/Perl Developer

2005

Middle SysOps

2008

Senior SysOps

2010

Middle Infrastructure Engineer

2014

Senior Infrastructure Engineer

2016

Lead of Infrastructure Engineers

2021

Middle DevOps Engineer

2022

Senior DevOps Engineer

2023

Lead of DevOps

2023

Head of DevOps

2024

Head of Infrastructure

2026

Lead of Big Data Infrastructure

Команда: от подбора до ритма работыTeam: from hiring to rhythm

Инфраструктура делается людьми: от честного найма и подбора сильной команды — до плодотворного ритма по канбану или спринтам, регулярных one-to-one и коротких дейликов без театра. Ниже — как я обычно выстраиваю эту сторону управления, не подменяя её бесконечными статусами в мессенджере.Infrastructure is built by people: from honest hiring and a strong team to a productive rhythm on kanban or sprints, regular one-to-ones and short dailies without theatre. Here is how I usually shape that side of management without replacing it with endless messenger statuses.

Найм и подбор. Начинается с ясного профиля роли: что человек должен уметь через три месяца и что может подтянуться за полгода, где граница «обязательно сейчас» и где допустимы пробелы. На собеседовании мне важны не только ответы на технические вопросы, но и способность объяснять ход мысли, признавать незнание и держать дисциплину в инциденте — иначе «звезда», которая не делится контекстом, быстро становится узким местом для всей команды. Проверка на культурное совпадение — не про «все должны быть одинаковые», а про то, готов ли человек к прозрачности, к обратной связи и к тому, что инфраструктурная работа часто невидима, пока не сломалось. Hiring and selection. Starts with a clear role profile: what someone should do in three months versus six, where “must have now” ends and gaps are acceptable. In interviews I care about explaining thought process, admitting unknowns and staying disciplined in incidents — otherwise a “star” who hoards context quickly becomes a bottleneck. Culture fit is not “everyone identical” but readiness for transparency, feedback and the fact that infra work is often invisible until it breaks.

Онбординг и первая победа. Первые недели лучше не заваливать абстрактным «изучите всё»: я стараюсь дать короткий маршрут — доступы, карта сервисов, кому задать вопрос, и одну-две задачи с понятным критерием готовности, чтобы человек почувствовал вклад, а не бесконечное «пока разберёшься». Дальше — постепенное расширение зоны ответственности и явное закрепление наставника или «бадди», чтобы знание не держалось в одной голове с первого дня. Onboarding and a first win. Early weeks should not be an abstract “study everything”: I try to give a short path — access, service map, who to ask — and one or two tasks with a clear definition of done so the person feels impact, not endless “until you figure it out”. Then gradual expansion of ownership and an explicit mentor or buddy so knowledge is not trapped in one head from day one.

Ритм: канбан, спринты, бэклог. Я не религиозно привязан к названию методологии: важно, чтобы поток работ был виден, приоритеты пересматривались регулярно, а договорённости о «сделано» не расплывались. В одних командах уместнее канбан с лимитами WIP и честной очередью на сопровождение; в других — короткие спринты с предсказуемым планированием и демо, особенно когда много кросс-функциональных зависимостей. Главное — чтобы доска отражала реальность, а не служила декорацией: иначе и дейлики, и ревью спринта превращаются в ритуал без смысла, и люди это чувствуют раньше, чем руководитель успевает удивиться текучке. Rhythm: kanban, sprints, backlog. I am not religious about methodology names: work in flow should be visible, priorities reviewed regularly, and “done” agreements not fuzzy. Some teams fit kanban with WIP limits and an honest support queue; others short sprints with predictable planning and demos, especially with many cross-team dependencies. The board must reflect reality, not decoration — otherwise dailies and sprint reviews become empty ritual and people notice attrition before leadership does.

One-to-one, дейлики и прочие «прелести» настоящего управления. Регулярные встречи один на один — не формальность «по календарю», а время, когда можно обсудить нагрузку, рост, конфликт с приоритетами или просто то, что мешает спокойно работать, без лишних свидетелей. Дейлики и стендапы держу короткими: синхронизация, блокеры, риск на сегодня — без превращения в часовой статус ради статуса. Ретроспективы подключаю там, где они реально двигают процесс: с конкретными действиями и сроками, а не с бесконечным «надо бы». По дедлайнам стараюсь быть прозрачным: если срок общий для нескольких команд, его лучше озвучить явно и заранее обсудить, что делаем при сдвиге — иначе «гибкий график» превращается в тихое перекладывание ответственности. Уважение к фокусу — отдельная тема: если человеку нужно два часа без встреч, чтобы довести изменение до конца, это нормально договорить и защитить в календаре, иначе «культура открытости» быстро убивает глубину работы. One-to-ones, dailies and the “joys” of real management. Regular 1:1s are not calendar theatre but time to discuss load, growth, priority conflict or what blocks calm work, without an audience. Dailies and stand-ups stay short: sync, blockers, risk for today — not an hour of status for status. Retrospectives only where they move work: concrete actions and dates, not endless “we should”. On deadlines I try to be explicit: if several teams share a date, say it early and agree what happens on slip — otherwise “flexible schedule” quietly becomes blame shifting. Focus time matters: if someone needs two meeting-free hours to finish a change, that is OK to schedule and defend — otherwise “open culture” kills depth.

Обратная связь и зона роста. Похвала по делу, а не «молодцы» в общем чате; сложные разговоры — вовремя и в приватной форме; ожидания по уровню зрелости — проговорены, а не догаданы. Когда команда растёт, важно не только нанимать, но и освобождать людей от задач, которые им уже не интересны и не развивают: иначе «дрим-тим» устает от собственной эффективности. Feedback and growth. Praise specifically, not vague “great job” in a public channel; hard conversations on time and in private; maturity expectations spoken, not guessed. As the team grows, hire but also free people from work that no longer interests or develops them — otherwise a “dream team” burns out on its own efficiency.

Архитектура и моделированиеArchitecture and modelling

Архитектура — это не только «красивая схема в презентации», а общая картина границ, потоков данных и ответственности: без неё сложно согласовать изменения между командами и не превратить прод в поле экспериментов. Ниже — как я обычно подхожу к архитектурным обязанностям на стыке платформы, эксплуатации и продуктовых контуров.Architecture is not only a “pretty slide” but a shared picture of boundaries, data flows and ownership — without it, coordinating change across teams is hard and production becomes an experiment field. Below is how I usually handle architectural duties at the intersection of platform, operations and product contours.

C4 и уровни абстракции. Практично опираться на модель C4: контекст системы (кто с кем и зачем), контейнеры (что разворачивается и как общается), при необходимости — компоненты внутри критичных сервисов. Отрисовка в таком виде помогает быстро подключить нового участника, согласовать ИБ и сетевые политики и не спорить о словах, когда речь идёт о границах ответственности между командами. Диаграммы живут рядом с кодом и с ADR: если схема расходится с реальностью, это сигнал не «обновить картинку любой ценой», а понять, что изменилось в системе и кто об этом знает. C4 and abstraction levels. C4 is practical: system context (who talks to whom and why), containers (what runs and how it talks), components inside critical services when needed. Drawing this way onboards people faster, aligns security and network policy and avoids arguing words when discussing ownership boundaries. Diagrams live next to code and ADRs: if the picture diverges from reality, the signal is to understand what changed in the system and who knows — not “update the slide at any cost”.

Целевая архитектура и дорожные карты. Полезно иметь представление «как хотим через год» и честное «как есть сейчас», с явным списком компромиссов и технического долга — иначе каждый релиз превращается в спонтанное голосование без опоры. Я привык связывать архитектурные решения с измеримыми качествами: доступность, время восстановления, стоимость владения, скорость поставки — чтобы варианты можно было сравнивать по понятным критериям, а не уходить в бесконечный спор «мне так приятнее / мне не нравится». Target architecture and roadmaps. Useful to have “where we want to be in a year” and an honest “as-is” with explicit compromises and tech debt — otherwise every release becomes ad-hoc voting without a foundation. I tie decisions to measurable qualities: availability, recovery time, cost of ownership, delivery speed — so options compare on clear criteria instead of endless “I like / I dislike”.

Архитектурный надзор и ревью. На крупных изменениях — заранее: обсуждение рисков, влияние на существующие SLO, план отката, зависимости от внешних команд и контрактов API. Запись ключевых решений в ADR или в близком по духу формате экономит недели спустя, когда вспоминают «почему мы так сделали» — память организации короче, чем кажется. Architecture oversight and review. For large changes, early: risks, impact on existing SLOs, rollback plan, dependencies on other teams and API contracts. Recording decisions in ADR or similar saves weeks later when people ask “why we did it” — organisational memory is shorter than it feels.

Архитектурный комитет. Когда решения затрагивают несколько команд, полезен регулярный, заранее понятный форум: короткие RFC или тезисы, календарь обсуждений и явные владельцы темы — не чтобы «замедлить всех бумагой», а чтобы крупные шаги проходили через общую плоскость рисков, SLO и стоимости владения. Комитет в здоровом виде — это не театр согласований, а способ снять повторяющиеся споры и договориться, что считается достаточным уровнем проработки перед выкатом в общий контур. Architecture committee. When decisions span teams, a regular predictable forum helps: short RFCs or theses, a discussion calendar and clear owners — not to slow everyone with paper, but so large steps pass through a shared plane of risks, SLOs and cost of ownership. A healthy committee is not approval theatre but a way to end repeated arguments and agree what “enough design” means before hitting the shared perimeter.

Интеграция с разработкой и ИБ. Архитектура платформы не существует в вакууме: она стыкуется с продуктовой декомпозицией, с требованиями к данным и с сетевой сегментацией. Часть работы — переводить между языками «бизнес-возможность» и «конкретные порты, секреты и политики в кластере», чтобы не было разрыва между слайдом и тем, что реально выкатывается ночью. Integration with development and security. Platform architecture is not in a vacuum: it meets product decomposition, data requirements and network segmentation. Part of the job is translating between “business capability” and “concrete ports, secrets and cluster policies” so there is no gap between the slide and what ships at night.

ПринципыPrinciples

Список технологий на странице ниже — лишь ориентир; принципы ниже задают рамку, в которой я обычно принимаю решения, спорю с коллегами и объясняю приоритеты бизнесу. Они не «универсальная истина», но хорошо помогают не утонуть в срочном, когда срочное пытается вытеснить важное.The technology list further down is only a guide; the principles below frame how I usually decide, debate with peers and explain priorities to the business. They are not universal truth, but they help avoid drowning in the urgent when urgency tries to evict the important.

Решение по сути задачиDecisions grounded in the problem

Инструмент выбирается под контекст нагрузки, команды и регуляторики, а не по списку модных названий. Архитектурные решения фиксируются там, где ими реально пользуются при эксплуатации и при смене дежурного.Tools are chosen for load, team and regulatory context — not from a hype list. Architectural decisions are recorded where on-call and handovers actually use them.

На практике это означает готовность ответить на скучные вопросы: кто будет сопровождать, как измеряем эффект, что будет, если ключевой человек уйдёт в отпуск — и не стыдно ли будет через полгода показать это решение новому инженеру.In practice that means answering boring questions: who maintains it, how we measure impact, what happens if the key person goes on leave — and whether you would still be comfortable showing the choice to a new engineer six months later.

Автоматизация с ответственностьюAutomation with accountability

Каждый уровень автоматизации должен снижать операционный риск или стоимость владения. Если этого нет, автоматизация превращается в декоративный слой поверх хаоса.Each automation layer should reduce operational risk or total cost of ownership. Otherwise it is decorative chaos on top.

Иногда правильный шаг — не «написать ещё один пайплайн», а убрать лишний шаг, упростить согласование или сделать так, чтобы человеку не приходилось помнить десять ручных действий подряд: автоматизация должна облегчать жизнь, а не добавлять новый язык, который никто не хочет читать.Sometimes the right move is not “another pipeline” but removing a step, simplifying approval or avoiding ten manual actions in a row: automation should make life easier, not add a language nobody wants to read.

Надёжность как дисциплинаReliability as discipline

SLO, бюджет ошибок, владелец алерта и сценарий действий — обязательные элементы, без которых «мониторинг» не работает в момент, когда он действительно нужен.SLOs, error budgets, alert owners and playbooks are mandatory — without them “monitoring” fails when you truly need it.

Без дисциплины алерты превращаются в шум, шум приучает игнорировать, игнорирование заканчивается тем, что инцидент становится сюрпризом для всех сразу. Я предпочитаю меньше сигналов, но с ясной ценностью и понятным «что делаем дальше».Without discipline, alerts become noise, noise trains ignoring, ignoring ends in everyone being surprised at once. I prefer fewer signals with clear value and a known “what next”.

Безопасность в потоке поставкиSecurity in the delivery flow

Контроль артефактов, политики доступа и секретов — часть регулярной поставки, а не отдельный «проект после релиза».Artifact control, access and secret policies are part of regular delivery — not a “project after release”.

Это не лозунг: чем раньше договориться о минимально приемлемом уровне для веток, секретов и артефактов, тем меньше потом «пожарных» интеграций, когда в прод уже «очень надо», а ИБ задаёт вопросы, на которые неприятно отвечать вскользь.Not a slogan: the earlier you agree a minimum bar for branches, secrets and artifacts, the fewer “firefighting” integrations when prod is urgent and security asks uncomfortable questions.

SLA, SLO и SLI — в рамках Tier 3SLA, SLO and SLI — within Tier 3

Ниже — агрегированные доли измерений и отчётных периодов, в которых сервисные обязательства и целевые пороги укладывались в согласованный класс Tier 3 (время реакции, восстановления и целевые SLI/SLO по матрице организации). Это не «сертификат», а прозрачный снимок дисциплины эксплуатации.Below are aggregated shares of measurements and reporting periods where service commitments and target thresholds stayed within the agreed Tier 3 class (response and recovery times and target SLI/SLO per the organisation matrix). This is not a “certificate” but a transparent snapshot of operational discipline.

SLA 99.98% Service Level AgreementService Level Agreement

Договорные цели по доступности и срокам реакции/эскалации в окнах Tier 3: доля отчётных интервалов без выхода за согласованные пороги.Contractual targets for availability and response/escalation windows in Tier 3: share of reporting intervals without breaching agreed thresholds.

SLO 99.94% Service Level ObjectiveService Level Objective

Сервисные цели и бюджет ошибок: доля месяцев/окон, в которых факт уложился в согласованные SLO для класса Tier 3 (типично не 100% из-за плановых работ и редких выбросов).Service objectives and error budget: share of months/windows where actuals met agreed SLOs for Tier 3 (often not 100% due to planned work and rare outliers).

SLI 99.96% Service Level IndicatorService Level Indicator

Агрегированные измерения доступности, успешности и задержек — доля наблюдений в зелёной зоне относительно порогов Tier 3 за тот же период.Aggregated availability, success and latency measurements — share of observations in the green zone versus Tier 3 thresholds over the same period.

Технологический ориентирTechnology orientation

Ниже — не исчерпывающий справочник и не попытка перечислить всё, с чем когда-либо сталкивался человек за шестнадцать с лишним лет: скорее карта областей, где обычно проходит зона ответственности, и где я уверенно чувствую себя в роли того, кто может и спроектировать, и довести до эксплуатации, и помочь команде не потерять нить при росте сложности. Если чего-то нет в списке — это не «не умею», а рамка страницы: реальный стек всегда шире, и разумнее обсуждать детали вживую.Below is neither an exhaustive catalogue nor “everything I ever touched in sixteen-plus years”: more a map of areas where responsibility usually sits, and where I am comfortable owning design, production hardening and helping the team keep thread as complexity grows. If something is missing, it is not “cannot do” but page scope: real stacks are always wider, and details are better discussed live.

Оркестрация и сетьOrchestration and networking

Кластеры как продукт: от bootstrap и сети до политик, сервис-меша и безопасного внешнего трафика.Clusters as a product: from bootstrap and networking to policies, service mesh and safe ingress of external traffic.

KubernetesKubernetes K3sK3s HelmHelm KustomizeKustomize Argo CDArgo CD FluxFlux IstioIstio ingress-nginxingress-nginx HAProxyHAProxy CiliumCilium kube-vipkube-vip MetalLBMetalLB CoreDNSCoreDNS cert-managercert-manager

CI/CD и автоматизацияCI/CD and automation

Поставка без хаоса: воспроизводимые пайплайны, секреты, политики веток и артефакты, которые не стыдно показать аудиту.Delivery without chaos: reproducible pipelines, secrets, branch policies and artifacts you can show an auditor.

GitLab CIGitLab CI GitHub ActionsGitHub Actions JenkinsJenkins AnsibleAnsible TerraformTerraform OpenTofuOpenTofu PackerPacker VaultVault SOPSSOPS pre-commitpre-commit PythonPython BashBash GoGo

Облака и железоClouds and hardware

Один стиль управления: bare metal, виртуализация и облака — без «зоопарка» из несовместимых решений. Учёт образов и конфигураций, жизненный цикл железа и лицензий, профили нагрузки по IOPS и задержкам, сеть между площадками и предсказуемый DR между зонами и провайдерами — чтобы стек оставался сопровождаемым, а не набором разрозненных консолей.One management style: bare metal, virtualisation and clouds without a zoo of incompatible approaches. Image and configuration lifecycle, hardware and licence accounting, IOPS/latency profiles, cross-site networking and predictable DR across zones and providers — so the stack stays operable, not a pile of consoles.

ProxmoxProxmox VMwareVMware OpenStackOpenStack AWSAWS GCPGCP Yandex CloudYandex Cloud Bare metalBare metal CephCeph LonghornLonghorn NFSNFS S3S3

Наблюдаемость и надёжностьObservability and reliability

Не метрики ради метрик: SLO, бюджеты ошибок, трассировка и постмортемы, которые реально меняют систему.Not metrics for metrics’ sake: SLOs, error budgets, tracing and postmortems that actually change the system.

PrometheusPrometheus VictoriaMetricsVictoriaMetrics GrafanaGrafana ZabbixZabbix LokiLoki TempoTempo OpenTelemetryOpenTelemetry AlertmanagerAlertmanager Thanos / MimirThanos / Mimir VeleroVelero ELKELK

Данные и сообщенияData and messaging

Хранилища и брокеры под нагрузкой: бэкапы, миграции, отказоустойчивость и схемы, которые не ломаются при первом peak. Репликация и консистентность, квоты и ретеншн, паттерны очередей и согласованность доставки там, где это оправдано, плюс ясные границы между приложением, платформой и владельцами схемы данных — чтобы рост трафика не превращался в сюрпризы при релизах и ребалансировках.Stores and brokers under load: backups, migrations, resilience and schemas that do not break on the first peak. Replication and consistency, quotas and retention, queue patterns and delivery guarantees where justified, plus clear boundaries between application, platform and data owners — so traffic growth does not become a release surprise.

PostgreSQLPostgreSQL MariaDBMariaDB RedisRedis KafkaKafka RabbitMQRabbitMQ MongoDBMongoDB MinIOMinIO ClickHouseClickHouse NATSNATS OpenSearchOpenSearch etcdetcd

Разработка приложенийApplication development

Репозитории, ревью и договорённости о качестве, предсказуемые сборки и тесты, понятный релизный ритм и документация там, где она реально экономит время — без «у нас всё особенное» и без героизма на каждом выкате.Repositories, review and quality agreements, predictable builds and tests, a clear release rhythm and documentation where it really saves time — without “we are special” heroics on every deploy.

GitGit Code reviewCode review Go / PythonGo / Python FastApiFastApi Тесты (unit / интеграция)Tests (unit / integration) pre-commitpre-commit OpenAPIOpenAPI Conventional CommitsConventional Commits

Иллюстрации по компетенциямCompetency illustrations

Несколько диаграмм для наглядности: условные доли, профиль по осям и пример динамики зрелости. Цифры не сертификат и не KPI — ориентир для собеседника или коллеги, который открывает страницу впервые; на реальном найме всё равно важнее разговор о кейсах, ответственности и о том, как человек ведёт себя в неопределённости.A few charts for intuition: indicative shares, a profile across axes and an example maturity trend. Numbers are not a certificate or KPI — a guide for a first-time reader; real hiring still hinges on cases, ownership and behaviour under uncertainty.

Профиль компетенцийCompetency profile

Кольцевая диаграмма условно показывает, как распределяется внимание между платформой и оркестрацией, автоматизацией поставки, практиками SRE и контурами, где в прод уходят модели, данные и связанные сервисы. Это ориентир для читателя, а не формальная оценка квалификации.The doughnut chart roughly shows how attention splits across platform and orchestration, delivery automation, SRE practices and areas where models, data and related services reach production. It is a reader guide, not a formal qualification score.

16+лет в инфраструктуре и DevOpsyears in infrastructure and DevOps

GitOpsполитики и воспроизводимостьpolicies and reproducibility

SREбюджет ошибок и алертыerror budget and alerts

Фокус времени (модель)Time focus (model)

Распределение внимания по типам задач (оценка)Attention split by work type (estimate)

Профиль силы по направлениямStrength profile by area

Сильные стороны по направлениям (шкала условная)Strengths by area (indicative scale)

Типы работ (polar)Work types (polar)

Доля типов работ в условной модели кварталаShare of work types in a model quarter

Зрелость автоматизации (пример тренда)Automation maturity (example trend)

Здесь по горизонтали — просто годы, как на школьной линейке времени: слева начало двухтысячных, справа ближе к сегодня. Каждая цветная линия — это не «цифры из мониторинга», а попытка нарисовать, когда в карьере всплывало то или другое направление: пока линия лежит у нуля, этот слой работы ещё не был в центре внимания; когда она поднимается — значит, в том периоде этим реально жили, учились и набирали практику. Набор линий совпадает с логикой «Карты развития» (разработка с самого начала, затем эксплуатация и инфраструктура, потом ответственность за команду, DevOps и архитектура, отдельно — контур вокруг ИИ и MLOps, и организационный уровень Head), но высота условная: это ориентир для глаз, а не отчёт для бухгалтерии.The horizontal axis is simply years, like a timeline from the early 2000s toward today. Each coloured line is not “numbers from monitoring” but a sketch of when a direction surfaced in my career: while a line sits at zero, that layer was not yet in focus; when it rises, that period is where we really lived it, learned and built practice. The set of lines matches the “growth map” logic (development from the start, then operations and infrastructure, then team lead responsibility, DevOps and architecture, separately AI/MLOps, and organisational Head level), but the height is indicative: a visual guide, not an accounting report.

Публичные репозиторииPublic repositories

Ниже — задачи и заготовки, которыми можно поделиться без раскрытия внутренних систем: это не «портфолио ради портфолио», а практичный слой, который иногда помогает быстрее договориться о стиле работы и о том, как оформлены примеры инфраструктурных решений. Тексты к карточкам дополняются по мере готовности материалов; если что-то выглядит коротко — чаще всего это значит, что руки до описания ещё не дошли, а не что «там пусто».Below are tasks and templates you can share without exposing internal systems: not “portfolio for portfolio’s sake”, but a practical layer that sometimes speeds agreement on working style and how infra examples are written. Card copy grows as materials land; if something looks short, it usually means the write-up is not done yet — not that “there is nothing there”.

k3s-ansible

https://git.antropoff.ru/inecs/k3s-ansible

git Ansible k3s

Ansible-роли и сценарии вокруг k3s: развёртывание кластера, аддоны, шаблоны манифестов и проверки molecule — то, чем можно поделиться без раскрытия внутренних сред.Ansible roles and scenarios around k3s: cluster bring-up, addons, manifest templates and molecule checks — shareable without exposing internal environments.

Infrastructure

https://git.antropoff.ru/inecs/infra

git Terraform IaC

Общие заготовки и паттерны для инфраструктуры: сети, хранилища, базовые сервисы и соглашения по именованию — как «скелет», который потом обрастает деталями под конкретный контур.Shared patterns for infrastructure: networks, storage, baseline services and naming conventions — a skeleton that later grows for each estate.

CI/CD

https://git.antropoff.ru/inecs/cicd

git CI/CD pipelines

Примеры и обвязка для пайплайнов: как договориться о качестве артефактов, секретах и политиках веток без превращения CI в чёрный ящик для одного человека.Pipeline examples and glue: agreeing on artifact quality, secrets and branch policies without CI becoming a black box for one person.

А ещё я веду блог о DevOps-культуре и о том, как команды живут рядом с поставкой и эксплуатацией, а не только с инструментами.I also write about DevOps culture and how teams live with delivery and operations — not only tools (Sorry - only Russian language for now). devops.org.rudevops.org.ru

Вне работыBeyond work

Я по-настоящему верю, что сильный инженер — это не только аккуратно согласованные правки в общей кодовой базе и привычные графики на панелях мониторинга, а ещё и человек с пульсом, с усталостью, с чувством юмора и с теми самыми «несистемными» увлечениями, которые не помещаются в официальные планы загрузки команды. Если единственный способ перезагрузить голову — это ещё одна выкладка в пятницу вечером, рано или поздно ты сам заметишь, что крутишься без запаса: в отчётах ещё можно нарисовать успех, а по ощущениям ты уже на износе и ни к чему не радуешься по-настоящему.I genuinely believe a strong engineer is not only carefully coordinated commits and familiar dashboard charts, but also a person with pulse, fatigue, humour and “non-system” hobbies that do not fit official capacity plans. If the only way to reset your head is another Friday-evening deploy, sooner or later you notice you are running on empty: reports can still look fine while you feel worn out and rarely truly enjoy anything.

Ниже — три направления, в которых я не притворяюсь экспертом мирового уровня, но получаю удовольствие, иногда учусь на собственных ошибках и периодически нахожу параллели с работой там, где их, честно говоря, никто не просил.Below are three areas where I do not claim world-class expertise, but I have fun, learn from my own mistakes, and sometimes draw parallels to work where nobody asked for them.

Фотография, как искусствоPhotography as craft

В кадре мне нравится то же, что и в хорошей архитектуре: граница между «достаточно просто» и «уже скучно», свет как контракт между объектом и фоном, и ощущение, что ты поймал момент, который через секунду исчезнет — как баг, который воспроизводится только на проде. Я не претендую на звание «мастера портретной съёмки с тремя наградами и подписчиками в Instagram»; чаще это честная охота за композицией, где из тысячи кадров три выглядят так, что не стыдно показать жене без предварительного NDA.In a frame I like the same things as in good architecture: the line between “simple enough” and “already boring”, light as a contract between subject and background, and the sense that you caught a moment that will vanish in a second — like a bug that only reproduces in production. I do not claim “master portraitist with three awards and Instagram clout”; more often it is an honest hunt for composition where three shots out of a thousand are not embarrassing to show my wife without an NDA.

Иногда съёмка учит смирению лучше, чем любая ретроспектива: погода испортилась, батарея села, а «идеальный ракурс» оказался за забором с собакой. Зато потом легче относиться к инцидентам — ведь и там не всё лечится кнопкой «автоматически исправить мир».Sometimes photography teaches humility better than any retrospective: the weather turned, the battery died, and the “perfect angle” was behind a fence with a dog. Then incidents feel easier — not everything is fixed by an “automatically fix the world” button.

Сноуборд, серфинг, вейкборд — скорость и контрольSnowboard, surf, wake — speed and control

Три разных стихии, одна радость: когда ты на секунду договорился с физикой о том, куда ты едешь, а не она с тобой. На доске я люблю не «геройство ради сторис», а предсказуемость на грани азарта — как в проде: можно лететь быстро, если заранее понимаешь, где тормоз и где у тебя запас по устойчивости.Three different elements, one joy: when you briefly agree with physics about where you go, not the other way around. On a board I prefer predictable edge over stunt heroics for stories — like prod: you can go fast if you know where the brake is and where your stability margin lives.

Серфинг периодически напоминает, что планы — это прекрасно, а океан голосует большинством: иногда лучший результат дня — не встать на волну, а не встать на кого-то из коллег по линии. Вейкборд добавляет цивилизации в виде буксировки, что удобно: меньше философии, больше контролируемого эксперимента — почти как нагрузочный стенд, только мокрый.Surfing reminds you plans are lovely and the ocean votes with a majority: sometimes the best outcome is not catching a wave but not colliding with someone in the line-up. Wakeboarding adds civilisation via the tow rope: less philosophy, more controlled experiment — almost like a load test rig, only wet.

Падения включены в поставку; главное — не принимать их за личный инсайт от вселенной. Зато потом в офисе легче объяснять, зачем нужны репетиции отката: мышечная память на «как не сломать себе психику» переносится удивительно хорошо.Falls are part of the release; the trick is not treating them as a personal message from the universe. Then it is easier back at the office to explain why rollback rehearsals matter: muscle memory for “how not to wreck your calm” transfers surprisingly well.

Путешествия — лучший способ перезагрузить головуTravel — the best way to reboot your head

Смена часового пояса для меня не баг, а фича: мозг наконец-то вынужден выйти из привычного контура «дом — работа — снова дом» и перестать крутить один и тот же тикет в голове, как заевшую пластинку. Новые запахи, непривычный транспорт и чужие «дефолтные настройки» города хорошо чистят кэш: возвращаешься и смотришь на старые задачи чуть более свежим взглядом — иногда даже с той полезной наивностью, когда ещё не знаешь, «как тут принято страдать».A timezone shift is a feature, not a bug: the brain is forced out of the “home — work — home again” loop and stops replaying the same ticket like a scratched record. New smells, unfamiliar transport and a city’s foreign defaults clear the cache: you return and look at old tasks with fresher eyes — sometimes with the useful naivety of not yet knowing “how suffering is done here”.

Чемодан, конечно, тоже иногда ведёт себя как конфигурационный дрейф: вроде укладывался минималистично, а на выходе — три футболки и ощущение, что ты тащишь половину дата-центра. Но это всё равно дешевле, чем пытаться «отдохнуть», не отключая уведомления: пуши не умеют в закат, а паспорт — умеет.Luggage sometimes behaves like configuration drift: you thought you packed minimalism, you end up with three T-shirts and the feeling you are hauling half a data centre. Still cheaper than “resting” with notifications on: push notifications do not do sunsets, passports do.