H/F Lead Site Reliability Engineer

🏆 Paris sportifs

 
 
 
CDI - Paris - 3 jours de remote / semaine  
Publiée le 26/06/2024 REF #01P111528
 
70 à 85K€

L'ENTREPRISE

Rejoignez un acteur majeur du pari sportif, 1200 personnes en tout, une équipe tech de 400 personnes, organisées en features teams. Vous vous inscrirez dans la stratégie de transformation du SI du Groupe et interviendrez sur des problématiques Web, Mobile, IoT.

LE POSTE / LES MISSIONS

A la direction d'une équipe de 4 personnes, vous aurez pour rôle de garantir la disponibilité de l’infrastructure, sa robustesse et de proposer des solutions innovantes pour la faire évoluer.

Cela passera par :
- La supervision de l’équipe SRE : diriger l’équipe responsable de la fiabilité, disponibilité et performances des systèmes.
- La conception d’architectures robustes : collaborer avec les développeurs pour créer et maintenir des architectures évolutives et résilientes.
- L'automatisation et outillage : mettre en place des pipelines CI/CD et développer des outils pour automatiser et améliorer l’efficacité opérationnelle.
- La surveillance et alerting : instaurer des systèmes de surveillance avancés et configurer des alertes pour une détection proactive des problèmes.
- La gestion des incidents : coordonner les réponses aux incidents majeurs et mener des analyses post-mortem pour prévenir les incidents futurs.
- L'optimisation des performances : identifier les points faibles des systèmes et mettre en œuvre des solutions pour les améliorer.
- La sécurité et conformité : assurer la conformité aux normes de sécurité en collaboration avec les équipes spécialisées.
- La formation et mentorat : encadrer et former l’équipe SRE, tout en partageant les meilleures pratiques et favorisant le développement professionnel.

Environnement technique : AWS, Unix, Terraform, Gitlab CI, Puppet, Sonar, Maven, Jenkins, Docker, Kubernetes, Python, Shell, HCL

PROFIL RECHERCHÉ

Vous avez :
- Au moins 5 ans en tant qu'ingénieur SRE ou similaire, avec une première expérience en gestion d’équipe.
- Des compétences solides en scripting Python, Go, Rust ou Shell
- Une maitrise en IaC avec des outils type Terraform, Ansible, Puppet, etc.
- Une expertise en principes et pratiques de fiabilité des systèmes pour optimiser la gestion des incidents.