Passt das zu Ihnen?
Site Reliability Engineer (m/w/d) (DE)
[16101]
Für unseren Kunden aus der IT-Branche suchen wir einen "Site Reliability Engineer (m/w/d)" auf Contracting-Basis. Start: ab sofort Ende: 6 Monate Kapazität: Vollzeit Volumen: 120 Tag(e) Einsatzort: Remote Projektkontext: Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern. Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben. Aufgaben: ·Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen ·Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz ·Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen ·Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten ·Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring) ·Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD) ·Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation ·Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos ·Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe ·Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen ·Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen Anforderungen: ·lange SRE und operativer Erfahrung ·Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer ·Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage) ·Sehr gute Programmierkenntnisse in Go ·Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen ·Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen ·Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry ·Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten ·Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme
Für unseren Kunden aus der IT-Branche suchen wir einen "Site Reliability Engineer (m/w/d)" auf Contracting-Basis.
Start: ab sofort
Ende: 6 Monate
Kapazität: Vollzeit
Volumen: 120 Tag(e)
Einsatzort: Remote
Projektkontext:
Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern.
Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben.
Aufgaben:
- Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen
- Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz
- Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen
- Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten
- Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring)
- Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD)
- Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation
- Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos
- Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe
- Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen
- Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen
Anforderungen:
- lange SRE und operativer Erfahrung
- Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer
- Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage)
- Sehr gute Programmierkenntnisse in Go
- Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen
- Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen
- Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry
- Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten
- Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme