Site Reliability Engineer (m/w/d)

Finden Sie den Job, der Ihnen gefällt!

NIS 2
KRITIS
Site Reliability Engineer
DevOps
Kubernetes
Go
SLI
SLO
Chemie
Kran-/Staplerführerschein
Schichtbetrieb
Arbeitssicherheit
SPC
SAFe
RTE
Test
Selenium
Spock
Ditnesse
E2E Test
JSON
Java
Angular
Spring Boot
Maven
REST
agil
PL
SAP S/4 HANA
SAP Activate
ETL
DWH
AWS
BI
SQL
Python
Jira
Confluence
JQL
Buchhaltung
HGB
IFRS
SAP ERP 6.0
Excel
Bank
Kreditorenbuchhaltung
Rechnungsvalidierung
Reisekosten
Dynamics
Coupa
GIS
Genehmigung
Festnetz
Telko
SME
Projektmanagement
Financial Accountant
SAP FI/CO
VIM
S4/HANA
KAFKA
GITLAB
PYTHON
SLM
KPI
Kundenbetreuung
Telekommunikation
Mobilfunk
Internet
KI
AI
Chatbots
Bahn
Data Engineering
Docker

Passt das zu Ihnen?

Site Reliability Engineer (m/w/d) (DE)

[16101]

Für unseren Kunden aus der IT-Branche suchen wir einen "Site Reliability Engineer (m/w/d)" auf Contracting-Basis. Start: ab sofort Ende: 6 Monate Kapazität: Vollzeit Volumen: 120 Tag(e) Einsatzort: Remote Projektkontext: Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern. Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben. Aufgaben: ·Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen ·Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz ·Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen ·Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten ·Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring) ·Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD) ·Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation ·Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos ·Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe ·Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen ·Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen Anforderungen: ·lange SRE und operativer Erfahrung ·Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer ·Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage) ·Sehr gute Programmierkenntnisse in Go ·Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen ·Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen ·Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry ·Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten ·Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme

Für unseren Kunden aus der IT-Branche suchen wir einen "Site Reliability Engineer (m/w/d)" auf Contracting-Basis.

Start: ab sofort

Ende: 6 Monate

Kapazität: Vollzeit

Volumen: 120 Tag(e)

Einsatzort: Remote

Projektkontext:

Das Projekt umfasst den Betrieb, die Weiterentwicklung und Stabilisierung hochkomplexer, cloud-nativer Plattformen auf Kubernetes-Basis. Ziel ist es, die Verfügbarkeit, Stabilität und Skalierbarkeit der Plattformen gemäß den Prinzipien des Site Reliability Engineering (SRE) sicherzustellen und kontinuierlich zu verbessern.

Der Fokus liegt auf der Automatisierung des Plattform- und Komponentenbetriebs, der Einführung und Weiterentwicklung von SLI-/SLO-basierten Betriebsmodellen sowie dem Aufbau eines leistungsfähigen Observability-Stacks. Die Plattformen bilden die technologische Grundlage für geschäftskritische Anwendungen und werden in enger Zusammenarbeit mit Plattform-, Entwicklungs- und Betriebsteams betrieben.

Aufgaben:

Automatisierung des Betriebs und der Bereitstellung von Plattform- und Applikationskomponenten in Kubernetes-Umgebungen
Unterstützung bei der Stabilisierung und Optimierung bestehender Komponenten hinsichtlich Verfügbarkeit, Performance und Resilienz
Analyse von Incidents und Durchführung von Root-Cause-Analysen sowie Ableitung nachhaltiger Verbesserungsmaßnahmen
Aufbau, Umbau und Pflege von SLI- und SLO-Definitionen gemäß SRE-Konzepten
Implementierung und Weiterentwicklung von Observability-Lösungen (Metrics, Logs, Traces, Synthetic Monitoring)
Nutzung und Weiterentwicklung des O11y-Stacks (Prometheus, Grafana, OpenTelemetry, FluxCD)
Unterstützung bei der Vervollständigung und Pflege der technischen Komponentendokumentation
Betrieb, Wartung und Optimierung hochkomplexer Plattformkomponenten wie KubeVirt, Cilium, Ceph und Talos
Enge Zusammenarbeit mit Entwicklungs- und Plattformteams zur Erhöhung der Betriebsstabilität und Reduzierung manueller Eingriffe
Umsetzung von GitOps- und Infrastructure-as-Code-Ansätzen
Dokumentation aller relevanten Ergebnisse in den im Projekt genutzten Werkzeugen

Anforderungen:

lange SRE und operativer Erfahrung
Praktische Erfahrung als Site Reliability Engineer, DevOps Engineer oder Platform Engineer
Sehr gute Kenntnisse in Kubernetes (Clusterbetrieb, Troubleshooting, Networking, Storage)
Sehr gute Programmierkenntnisse in Go
Mehrjährige Erfahrung in der Automatisierung von Betriebsprozessen
Fundierte Kenntnisse im Aufbau und Betrieb von Observability- und Monitoring-Lösungen
Praktische Erfahrung mit Prometheus, Grafana und OpenTelemetry
Erfahrung in der Definition und Anwendung von SLI-, SLO- und Error-Budget-Konzepten
Erfahrung im produktiven Betrieb hochverfügbarer, geschäftskritischer Systeme

Remote asap Freiberuflich

Site Reliability Engineer DevOps Kubernetes Go SLI SLO

Direkter Kontakt

Francesca Hameister

Senior Recruiterin

f.hameister@1st-solution-group.com

+49 211 15 98 35 - 53

Kein passender Job? Senden Sie uns eine Nachricht!

Kein passender Job für Sie dabei? Kein Problem! Senden Sie uns einfach Ihren Namen, Ihre E-Mail sowie eine kurze Beschreibung Ihres Jobwunsches. Wir melden uns umgehend mit passenden Vorschlägen!

Finden Sie den Job, der Ihnen gefällt!

Passt das zu Ihnen?