Inżynier platformy SRE
Australia, Canada, Germany, India, Ireland, Netherlands, Singapore, United Kingdom, United States
Do uzgodnienia
O tym stanowisku
auto_translated_note
Opis stanowiska Podsumowanie Inżynier ds. niezawodności systemów platform jest głównym inżynierem operacyjnym i operatorem naszego środowiska EKS Kubernetes, które stanowi podstawę naszych globalnych produktów SaaS w zakresie oprogramowania gridowego. Ta rola koncentruje się na „średnim etapie” dostarczania oprogramowania, zapewniając, że podstawowe warstwy obliczeniowe, sieciowe i pamięci masowej są bezpieczne, wzmocnione, skalowalne i odporne, aby wspierać krytyczną infrastrukturę energetyczną w chmurze. Będziesz odpowiedzialny za pełny cykl życia klastrów produkcyjnych, od początkowego ładowania, dostrajania wydajności, instalowania poprawek i zabezpieczania.
Opis stanowiska Role i obowiązki Dzień 0: Dostarczanie i wzmacnianie infrastruktury Orkiestracja klastra Kubernetes: Pomoc w projektowaniu i wdrażaniu wzmocnionych klastrów EKS w wielu regionach AWS, zapewniając spójne podstawy bezpieczeństwa. Infrastruktura jako kod (IaC): budowanie i utrzymywanie modułów Terraform i Ansible wielokrotnego użytku do automatycznego udostępniania infrastruktury chmurowej usługi, w tym usługi sieciowe, obliczenia, pamięć masową, kolejkę i pamięć podręczną itp. Architektura bezpieczeństwa: Wdrożenie „polityki jako kodu” barier ochronnych i bezpiecznych granic sieci (ESP) zgodnie ze standardami NERC CIP i IEC 62443.
Operacjonalizacja infrastruktury chmury: standaryzacja ksiąg uruchomieniowych, procesów operacyjnych wymaganych do uruchamiania infrastruktury krytycznej z najwyższą niezawodnością. Dzień 1: Gotowość platformy i skalowanie Zarządzanie zasobami: Zdefiniuj i egzekwuj zasoby Kubernetes przydziały, zakresy limitów i klasy priorytetów podów, aby zapewnić, że usługi o znaczeniu krytycznym otrzymają priorytetowe zasoby obliczeniowe. Łączność i ruch przychodzący: zarządzaj strategią ruchu przychodzącego i architekturą siatki usług, aby ułatwić bezpieczną, wydajną łączność między rozproszonymi mikrousługami. Testy akceptacyjne: Przeprowadź ćwiczenia dymu, obciążenia i odzyskiwania po awarii na poziomie platformy, aby sprawdzić, czy infrastruktura może osiągnąć docelowy czas sprawności na poziomie 99,99%.
Rozmiarowanie i optymalizacja: Współpracuj z zespołami ds. aplikacji, aby uzyskać odpowiednią wielkość skonteneryzowanych obciążeń, optymalizacja zarówno pod kątem wydajności, jak i kosztów chmury (FinOps). Dzień 2: Doskonałość operacyjna i wsparcie poziomu 3 Eskalacja L3: Działaj jako najwyższy punkt eskalacji technicznej w przypadku złożonych elementów wewnętrznych Kubernetes, rozwiązując problemy, takie jak awarie podów, wycieki pamięci i partycje sieciowe. Reagowanie na incydenty: Analiza głównych przyczyn głównych (RCA) w przypadku przestojów na poziomie platformy, wdrażanie poprawek systemowych, aby zapobiec powtarzającym się awariom.
Eliminacja problemów: Aktywna identyfikacja i automatyzuj powtarzalne zadania operacyjne - takie jak aktualizacje klastrów i instalowanie poprawek systemu operacyjnego - aby mieć pewność, że zespół spędzi co najmniej 50% czasu na udoskonaleniach inżynieryjnych. Integracja obserwowalności: Zinstytucjonalizuj monitorowanie platformy za pomocą Prometheus i Grafana, tworząc pulpity nawigacyjne wyświetlające „złote sygnały” stanu klastra. Wymagania techniczne Kubernetes: 5 lat doświadczenia w obsłudze klastrów Kubernetes klasy produkcyjnej na dużą skalę.
Narzędzia do orkiestracji i obserwacji: wiedza na poziomie eksperckim zarządzania wieloma klastrami, dostrajania wydajności i doświadczenia we wdrażaniu narzędzi obserwowalności, takich jak Prometheus/Grafana, Dynatrace, Splunk, Datadog itp. Infrastruktura AWS: Głębokie praktyczne doświadczenie z podstawowymi usługami AWS (EKS, EC2, ALB, S3, RDS, MSK). Stos automatyzacji: Biegłość w Terraform, Ansible i Pythonie lub przejdź do narzędzi do automatyzacji i wdrażania infrastruktury, takich jak ArgoCD lub Flux.
Sieć i bezpieczeństwo: dobre zrozumienie i praktyczne doświadczenie w zakresie koncepcji sieci w chmurze, takich jak VPC, routing, równoważenie obciążenia i konfiguracje zabezpieczeń, takie jak szyfrowanie, zarządzanie certyfikatami.Wykształcenie Licencjat z informatyki lub specjalności „STEM” (nauki ścisłe, technologia, inżynieria i matematyka) z zaawansowanym doświadczeniem.Doświadczenie zawodowe: 6 - 8 lat na stanowiskach SRE lub inżynierii platform wspierających środowiska chmurowe o krytycznym znaczeniu dla działalności firmy, działające 24 godziny na dobę, 7 dni w tygodniu. Zarządzanie kryzysowe: Udokumentowane doświadczenie w zakresie ustrukturyzowanego reagowania na incydenty którzy poradzą sobie ze scenariuszami rozbijania/tłuczenia szkła w zastosowaniach o znaczeniu krytycznym. Preferowane kwalifikacjeŚrodowiska regulowane: Praktyczna znajomość standardów zgodności NERC CIP, SOC2, ISO 27001 lub IEC 62443 w kontekście SaaS.
Certyfikaty: AWS Certified DevOps Engineer - Professional, CKA (Certified Kubernetes Administrator) lub SRE Practitioner Certyfikacja. Infrastruktura krytyczna: Doświadczenie wspierające systemy o znaczeniu krytycznym w energetyce, usługach użyteczności publicznej lub innych sektorach przemysłowych o wysokiej stawce. Przenikliwość biznesowa: Zrozumienie kluczowych koncepcji przekrojowych, które mają wpływ na organizację; jest świadomy priorytetów biznesowych i dynamiki organizacyjnej.
Kierownictwo: Trener i członkowie zespołu mentorskiego. Znajomość koncepcji wyceny komponentów sprzętu i oprogramowania. Zapewnia terminowość i budżet.
Realizuje zadania na czas, zgodnie z celami architektonicznymi. Potrafi identyfikować i podnosić problemy, ryzyko i korzyści. Uczestniczyć w inicjatywach zmian poprzez wdrażanie nowych kierunków oraz dostarczanie odpowiednich informacji i informacji zwrotnych.
Atrybuty osobiste: Wysoki poziom energii i entuzjazmu oraz zdolność do rozwoju w szybko zmieniającym się środowisku. Wykazana koncentracja na kliencie - ocenia decyzje oczami klienta; buduje silne relacje z klientami; tworzy procesy z punktu widzenia klienta; współpracuje z klientami Zorientowany na zmiany - aktywnie generuje usprawnienia procesów; liderzy i napędza inicjatywy zmian; konfrontujeUmiejętność pracy z globalnymi zespołami, działania niezależnie i jako część zespołu. Stosuj wartości, zasady, procedury i precedensy, aby podejmować w odpowiednim czasie, rutynowe decyzje o ograniczonym, jasnym wyborze.
Otwarty na nowe perspektywy i pomysły. W stosownych przypadkach rozważ inne lub nietypowe rozwiązania. Rozwiązuj codzienne problemy związane z wdrażaniem strategii.
Eskaluj problemy, które mają wpływ na klienta i/lub inicjatywy strategiczne. Silne umiejętności analityczne i silne umiejętności rozwiązywania problemów - komunikuje się w jasny i zwięzły sposób oraz skutecznie ocenia informacje/dane w celu podejmowania decyzji; przewiduje przeszkody i opracowuje plany ich usunięcia Informacje dodatkowe Zapewniona pomoc w relokacji: Tak - jest to odległa pozycja Pierwotnie opublikowane w Himalajach