Finden Sie den Job, der Ihnen gefällt!
search
reorder
sell
keyboard_arrow_left Zurück
Passt das zu Ihnen?

Site Reliability Engineer (m/w/d) (DE)

[16101]

Für unseren Kunden aus der IT-Branche suchen wir einen "Site Reliability Engineer (m/w/d)" auf Contracting-Basis.   Start: ab sofort Ende: 6 Monate Kapazität: Vollzeit Volumen: 120 Tag(e) Einsatzort: Remote   Projektkontext: Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern. Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben. Aufgaben: ·Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen ·Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz ·Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen ·Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten ·Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring) ·Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD) ·Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation ·Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos ·Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe ·Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen ·Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen Anforderungen: ·lange SRE und operativer Erfahrung ·Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer ·Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage) ·Sehr gute Programmierkenntnisse in Go ·Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen ·Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen ·Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry ·Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten ·Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme

Für unseren Kunden aus der IT-Branche suchen wir einen "Site Reliability Engineer (m/w/d)" auf Contracting-Basis.

 

Start: ab sofort

Ende: 6 Monate

Kapazität: Vollzeit

Volumen: 120 Tag(e)

Einsatzort: Remote

 

Projektkontext:

Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern.

Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben.


Aufgaben:

  • Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen
  • Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz
  • Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen
  • Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten
  • Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring)
  • Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD)
  • Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation
  • Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos
  • Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe
  • Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen
  • Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen


Anforderungen:

  • lange SRE und operativer Erfahrung
  • Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer
  • Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage)
  • Sehr gute Programmierkenntnisse in Go
  • Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen
  • Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen
  • Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry
  • Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten
  • Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme

map Remote date_range asap update Freiberuflich
Site Reliability Engineer DevOps Kubernetes Go SLI SLO
Direkter Kontakt

Francesca Hameister

Senior Recruiterin
mail f.hameister@1st-solution-group.com
phone +49 211 15 98 35 - 53


Kein passender Job? Senden Sie uns eine Nachricht!

Kein passender Job für Sie dabei? Kein Problem! Senden Sie uns einfach Ihren Namen, Ihre E-Mail sowie eine kurze Beschreibung Ihres Jobwunsches. Wir melden uns umgehend mit passenden Vorschlägen!