Senior Site Reliability Engineer- Fleet
-
Lieu :Offsite, Toronto, Ontario, Canada
-
Centre d'intérêtIngénieur - logiciels
-
Type de posteExpérimenté
-
Intérêt pour la technologieDéveloppement de logiciel, tests
-
ID de poste1433311
Cisco Meraki, une division de Cisco Networking, est une entreprise spécialisée dans la gestion infonuagique des technologies informatiques et une cheffe de file dans les solutions de Wi-Fi, de routage et de sécurité contrôlées en nuage. Notre plateforme intuitive permet aux organisations de toutes tailles d’offrir des expériences client et employé à grande échelle. Pour fournir des technologies de pointe à nos clients, nous avons créé une culture d’entreprise inégalée pour nos employés. Une culture où les parcours, perspectives et expériences diversifiés influencent notre travail et alimentent notre évolution. Une culture collaborative, flexible et inclusive qui offre aux employés l'autonomie nécessaire pour développer une technologie accessible et sécurisée pour tous.
Nous sommes à la recherche d’un expert chevronné de la fiabilité des sites qui se joindra à notre équipe dynamique de SRE Fleet, qui sera responsable d’assurer la stabilité, l’évolutivité et l’efficacité de notre infrastructure. Vous jouerez un rôle essentiel dans la maintenance et l’amélioration d’un groupe de plus de 2000 machines dans un environnement cloud mondial. Ce poste est hautement axé sur la collaboration, ce qui implique une interaction étroite avec les équipes d’ingénierie et de SRE au Royaume-Uni et à San Francisco pour faire évoluer et optimiser notre infrastructure.
Responsabilités
- Développer et maintenir le code d’automatisation pour les processus de maintenance en nuage à l’aide d’Ansible et de Ruby.
- Déboguer et résoudre des scénarios de défaillance complexes dans des systèmes à grande échelle, assurant ainsi une disponibilité et une fiabilité élevées.
- Concevoir, implémenter et optimiser les filières GitLab CI pour simplifier les flux de travail de déploiement et de test.
- Collaborer avec les équipes d’ingénierie pour cerner et résoudre les goulots d’étranglement de la performance et les défis de l’évolutivité.
- Résoudre les problèmes de manière proactive dans l’ensemble du groupe en tirant parti d'une compréhension approfondie des systèmes et du réseau Linux.
- Contribuer à la création de tests unitaires robustes et de suites de tests d’infrastructure avec RSpec.
- Participer à des projets de collaboration pour améliorer l’efficacité, l’évolutivité et l’observabilité des infrastructures.
- Travailler de manière interfonctionnelle avec des équipes se trouvant dans différents fuseaux horaires, en encourageant une culture de responsabilité partagée et de fiabilité.
- Développer et maintenir des outils automatisés pour la collecte de données sur l’infrastructure afin de répondre aux exigences de conformité.
- Simplifier les processus de conformité en réduisant les surdébits manuels grâce à l’automatisation.
Vous êtes un candidat idéal si :
- vous avez cinq ans ou plus d’expérience en ingénierie de fiabilité de site, en DevOps, ou dans un rôle similaire dans des environnements infonuagiques à grande échelle;
- vous avez une solide expertise avec :
- Ansible pour l’automatisation des infrastructures;
- les cadres de programmation et de test Ruby comme RSpec;
- l'administration et la résolution de problèmes de sytèmes Linux;
- les filières CI/CD, en particulier GitLab CI;
- vous avez une expérience confirmée en résolution de problèmes et en débogage de systèmes distribués;
- vous avez de l'expérience en gestion et en optimisation de groupes de milliers de machines;
- vous avez d'excellentes compétences en collaboration et la capacité de travailler efficacement avec des équipes réparties sur plusieurs fuseaux horaires;
- vous êtes passionné par l'automatisation, l’évolutivité et l'infrastructure en tant que code.
Des atouts supplémentaires si :
- vous connaissez bien les fournisseurs de services infonuagiques (AWS, GCP ou similaires).
- vous connaissez des outils de supervision et d’observabilité.
- vous avez de l'expérience en stratégies de reprise sur sinistre et de haute disponibilité.
Chez Cisco Meraki, nous défions le statu quo grâce à la puissance de la diversité, de l’inclusion et de la collaboration. Lorsque nous mettons en relation différentes perspectives, nous pouvons imaginer de nouvelles possibilités, inspirer l’innovation et libérer le plein potentiel de nos employés. Nous créons une expérience pour les employés qui inclut l’acceptation, l’appartenance, la croissance et des objectifs pour tous.
Cisco est un employeur d’action affirmative et d’égalité des chances, et tous les candidats qualifiés seront pris en considération pour un emploi sans égard à la race, à la couleur, à la religion, au sexe, à l’orientation sexuelle, à l’origine nationale, aux caractéristiques génétiques, à l’âge, à l’invalidité, au statut d’ancien combattant ou à tout autre motif protégé par la loi. Cisco envisagera pour l’emploi, au cas par cas, des candidats qualifiés avec des dossiers d’arrestation et de condamnation.
****************************************************************************************************
Cisco Meraki, a division of Cisco Networking, is a cloud-managed IT company and leader in cloud-controlled Wi-Fi, routing, and security. Our intuitive platform enables organizations of all sizes to deliver customer and employee experiences at scale. To provide best-in-class technologies to our customers, we’ve created an unrivaled company culture for our employees. One where diverse backgrounds, perspectives, and experiences shape our work and fuel our evolution. One that is collaborative, flexible, and inclusive and provides employees with the autonomy to develop technology that’s accessible and secure for everyone.
We are seeking a Senior Site Reliability Engineer (SRE) to join our dynamic SRE Fleet team, which is responsible for ensuring the stability, scalability, and efficiency of our infrastructure. You will play a critical role in maintaining and improving a fleet of over 2000+ machines across a global cloud environment. This role is highly collaborative, involving close interaction with engineering and SRE teams in the UK and San Francisco to scale and optimize our infrastructure.
Responsibilities
- Develop and maintain automation code for cloud maintenance processes using Ansible and Ruby.
- Debug and resolve complex failure scenarios across large-scale systems, ensuring high availability and reliability.
- Design, implement, and optimize GitLab CI pipelines to streamline deployment and testing workflows.
- Collaborate with engineering teams to identify and address performance bottlenecks and scaling challenges.
- Proactively troubleshoot issues across the fleet, using a deep understanding of Linux systems and networking.
- Contribute to the creation of robust unit tests and infrastructure testing suites with RSpec.
- Participate in collaborative projects to improve infrastructure efficiency, scalability, and observability.
- Work cross-functionally with teams in different time zones, fostering a culture of shared ownership and reliability.
- Develop and maintain automated tools for collecting infrastructure data to support compliance requirements.
- Streamline compliance processes by reducing manual overhead through automation.
You are an ideal candidate if you:
- 5+ years of experience in Site Reliability Engineering, DevOps, or a similar role in large-scale cloud environments.
- Strong expertise in:
- Ansible for infrastructure automation.
- Ruby programming and testing frameworks like RSpec.
- Linux systems administration and troubleshooting.
- CI/CD pipelines, particularly GitLab CI.
- Demonstrated experience troubleshooting and debugging in complex distributed systems.
- Experience managing and optimizing fleets of thousands of machines.
- Excellent collaboration skills and the ability to work effectively across teams in multiple time zones.
- Passion for automation, scalability, and infrastructure as code.
Bonus points for:
- Familiarity with cloud providers (AWS, GCP, or similar).
- Knowledge of monitoring and observability tools.
- Experience with disaster recovery and high availability strategies.
At Cisco Meraki, we’re challenging the status quo with the power of diversity, inclusion, and collaboration. When we connect different perspectives, we can imagine new possibilities, inspire innovation, and release the full potential of our people. We’re building an employee experience that includes appreciation, belonging, growth, and purpose for everyone.
Cisco is an Affirmative Action and Equal Opportunity Employer and all qualified applicants will receive consideration for employment without regard to race, color, religion, gender, sexual orientation, national origin, genetic information, age, disability, veteran status, or any other legally protected basis. Cisco will consider for employment, on a case by case basis, qualified applicants with arrest and conviction records.
Lorsqu’elle est disponible, la fourchette salariale affichée pour ce poste reflète l’échelle d’embauche prévue pour les salaires des nouveaux embauchés aux États-Unis et au Canada. Pour les postes non liés à la vente, les fourchettes d’embauche reflètent uniquement le salaire de base; les employés sont également admissibles à des primes annuelles. Les fourchettes d’embauche pour les postes de vente comprennent la rémunération de base et la rémunération incitative. La rémunération individuelle est déterminée par le lieu d’embauche du candidat et par d’autres facteurs, incluant, sans s’y limiter, les compétences, l’expérience et les études, certifications ou formations pertinentes. Les candidats pourraient ne pas être admissibles à la fourchette salariale complète selon leur lieu d’embauche aux États-Unis ou au Canada. Le recruteur peut fournir plus d’informations sur la rémunération du poste dans votre lieu au cours du processus de recrutement.
Les employés américains ont accès à une assurance médicale, dentaire et visuelle de qualité, à un régime 401(k) avec une contribution équivalente de Cisco, à une couverture d’invalidité à court et à long terme, à une assurance vie de base et à de nombreuses prestations de bien-être.
Les employés reçoivent jusqu’à douze jours fériés payés par année civile, ce qui comprend un jour férié flottant (pour les employés non exemptés), plus un jour de congé pour leur anniversaire. Les nouveaux employés non exemptés accumulent jusqu’à 16 jours de congés annuels, à raison de 4,92 heures par période de paie. Les nouveaux employés exemptés participent à la politique de congés annuels flexibles de Cisco qui ne fixe pas de limite précise quant au nombre de jours de congé pouvant être pris par les employés admissibles. Cependant, cette flexibilité dépend de la disponibilité et de certaines contraintes opérationnelles. Tous les nouveaux employés sont admissibles aux congés de maladie, sous réserve de la Politique relative aux congés de maladie de Cisco. Ils auront droit à quatre-vingts (80) heures de congés de maladie à leur date d’embauche et le 1er janvier de chaque année par la suite. Jusqu’à 80 heures de congés de maladie non utilisées seront reportées d’une année civile à l’autre, de sorte que le nombre maximal d’heures de congé de maladie dont un employé peut disposer est de 160 heures. Les employés de l’Illinois bénéficient d’un programme spécifique de congés spécialement conçu pour répondre aux exigences locales. Tous les employés disposent également de congés payés pour faire face à des situations critiques ou d'urgence. Nous offrons des heures supplémentaires rémunérées pour faire du bénévolat et rendre service à la communauté.
Les employés participant à des plans de vente reçoivent, en plus de leur salaire de base, une rémunération incitative fondée sur les performances, qui est répartie entre les composantes sur quota et non. Pour la rémunération incitative basée sur des quotas, Cisco paie généralement comme suit :
0,75 % de l'incitatif cible pour chaque tranche de 1 % du chiffre d’affaires atteint jusqu’à concurrence de 50 % du quota;
1,5 % de l'incitatif cible pour chaque tranche de 1 % du chiffre d'affaires atteint entre 50 % et 75 %;
1 % de l'incitatif cible pour chaque tranche de 1 % du chiffre d'affaires atteint entre 75 % et 100 %; et lorsque le rendement dépasse 100 % d’atteinte, les taux incitatifs sont égaux ou supérieurs à 1 % pour chaque tranche de 1 % du chiffre d'affaires atteint, sans limites de rémunération incitative.
Pour les éléments de performance de vente non basés sur les quotas, tels que les objectifs de vente stratégiques, Cisco peut payer jusqu’à 125 % de l’objectif. Les plans de vente de Cisco ne prévoient pas de seuil minimum de performance pour le versement de la rémunération incitative pour les ventes.
Renseignements confidentiels de Cisco