DevOps/SRE инженер в Playsdev
ноябрь 2022 — настоящее время
Аутсорс-компания, специализируется на оказании услуг DevOps.
Внепроектная деятельность:
Проведение отборочных собеседований на стажировку в компанию, проведение внутренних собеседований, отбор кандидатов, менторство и помощь в обучении стажёров.
Проект 0. SRE инженер, Страховая компания (Эксплуатация продакшена и управление инцидентами).
Управлял продакшен CI/CD пайплайнами с автоматизированным развертыванием, стратегиями отката и управлением секретами используя HashiCorp Vault. Поддерживал инфраструктуру мониторинга и логирования (Prometheus, Grafana, ELK стек).
Выполнял on-call дежурства и работал с продакшен инцидентами: проводил быструю диагностику, внедрял исправления и откаты, проводил пост-инцидентный анализ первопричин (RCA) как с технической, так и с бизнес-стороны, документировал результаты в runbooks и плейбуках.
Выявлял и устранял узкие места системы и проблемы производительности, оптимизировал Java приложения (настройка JVM, оптимизация памяти) и оказывал техническую поддержку командам разработки.
Обеспечивал высокую доступность и надежность production систем, снижая частоту инцидентов и улучшая стабильность системы.
Проект 1. DevOps инженер, Мобильное туристическое приложение.
Мигрировал тестовую инфраструктуру с AWS на on-premises виртуальные машины, настроил dev, test и production окружения с нулевым простоем.
Развернул и управлял кластером Kubernetes на виртуальных машинах, настроил доступ через внешний балансировщик нагрузки с высокой доступностью.
Оптимизировал Dockerfiles для Python микросервисов (уменьшил размер образов на ~30%), мигрировал с Docker Compose на Kubernetes используя Helm charts.
Настроил комплексный стек мониторинга (Prometheus + VictoriaMetrics + Grafana), логирования (Loki + Promtail + ELK) и алертинга через Telegram.
Развернул self-hosted GitLab в Kubernetes и автоматизировал CI/CD пайплайны в GitLab, значительно сократив время развертывания благодаря кэшированию библиотек и зависимостей.
Развернул и администрировал MinIO, Harbor, PostgreSQL, Redis, Kafka, Cassandra, Debezium CDC, Jaeger, Sentry и стек EFK.
Написал комплексную документацию по инфраструктуре и runbooks для обмена знаниями в команде.
Проект 2. DevOps инженер, Fintech.
Разработал и оптимизировал Dockerfiles для Java и Node.js приложений, внедрил multi-stage сборки и best practices.
Создал и поддерживал CI/CD пайплайны в Jenkins для сборки, тестирования и развертывания приложений в Nexus и OpenShift.
Управлял репозиториями в Bitbucket, Nexus, Confluence, SonarQube и HashiCorp Vault для управления секретами.
Настроил, развернул и отладил микросервисы в OpenShift, обеспечивая масштабируемость и надежность.
Настроил Istio service mesh для маршрутизации внутреннего трафика, мигрировал на более новые версии service mesh с нулевым простоем.
Настроил sidecar контейнеры для мониторинга (Prometheus exporters) и логирования (Fluent Bit).
Проводил нагрузочное тестирование с Apache JMeter, визуализировал результаты в Grafana и предоставлял рекомендации по производительности.
Написал внутреннюю документацию и проводил обучающие сессии для команды по практикам и инструментам DevOps.
Проект 3. DevOps инженер, Миграция инфраструктуры в AWS (Terraform и CI/CD).
Разработал и внедрил Terraform модули инфраструктуры с remote state management, разделением окружений (dev/staging/prod) и best practices для организации кода и переиспользования.
Мигрировал инфраструктуру с on-premises в AWS, написал комплексный Terraform код для provision окружений (EC2, VPC, EKS, S3, RDS) и тестовых стендов.
Написал Ansible playbooks для автоматизированной настройки серверов и развертывания сервисов.
Настроил и управлял managed Kubernetes кластером (EKS) с высокой доступностью.
Создал и настроил Helm charts для развертывания приложений в Kubernetes.
Построил CI/CD пайплайны в GitLab с автоматизированной сборкой, тестированием, развертыванием и возможностями отката; мигрировал с Jenkins с улучшенной надежностью и более быстрыми циклами развертывания.
Настроил observability: Prometheus и Grafana для метрик и алертинга, EFK стек (Elasticsearch, Fluentd, Kibana) для агрегации и анализа логов.
Проводил нагрузочное тестирование, оптимизировал производительность приложений в Kubernetes и инициировал переход на GitOps используя ArgoCD.
Настроил WireGuard VPN для безопасного доступа разработчиков и оказывал постоянную поддержку команде.
Проект 4. DevOps инженер, Группа коммерческих сайтов (Миграция в Azure и эксплуатация продакшена).
Мигрировал продакшен инфраструктуру с AWS в Azure со стратегией нулевого простоя, управлял Azure VM, App Service, ACR, CDN, Storage Accounts, SQL Databases и Virtual Networks.
Разработал и внедрил Terraform модули для переиспользуемых компонентов инфраструктуры, управлял Terraform state с remote backend, применял best practices инфраструктуры как кода (модуляризация, версионирование, разделение окружений).
Построил комплексные CI/CD пайплайны в Azure DevOps с автоматизированной сборкой, тестированием, развертыванием и возможностями отката; внедрил управление секретами используя Azure Key Vault и безопасную обработку артефактов.
Настроил полный стек observability: настроил Azure Monitor для метрик и алертинга, интегрировал Grafana дашборды для визуализации, настроил ELK стек (Kibana) для агрегации и анализа логов, развернул Sentry для отслеживания ошибок и мониторинга.
Работал с продакшен инцидентами: проводил анализ первопричин, внедрял hotfix'ы и откаты, создавал runbooks и плейбуки для типовых сценариев, сократив среднее время восстановления (MTTR) на 40%.
Управлял DNS, безопасностью Cloudflare (правила WAF, защита от DDoS), оптимизировал PHP серверы для производительности и поддерживал SLA доступности 99.9%.
Проводил тестирование производительности, оптимизировал облачные расходы достигнув снижения на ~30%, и оказывал постоянную поддержку разработчикам.