Home Job Listings Categories Locations

Senior Machine Learning Operations Engineer - Inference, AI/ML Platform

📍 Canada

Business PowerToFly

Job Description

Job Requisition ID # 26WD94525

The French translation can be found below!/La traduction en français se trouve plus bas!

Position Overview Autodesk, a global leader in 3D design, engineering, manufacturing, and entertainment software, is seeking a skilledSenior MLOpsDeveloper to join our AI/ML Platform team. This role is pivotal in ensuring the smooth operationalization of machine learning models and the overall efficiency of ournext-generation AI/ML platform used in the development of machine learning and generative AI solutions powering Autodesk’s suite of products and services. You will collaborate with research and product engineering from various domains including design, construction, manufacturing, and media &entertainment totosupport platform operations.

Responsibilities

Operational Efficiency:Drive the operational excellence of our AI/ML Platform by implementing andoptimizingMLOpspractices

Deployment Automation:Design and implement automated deployment pipelines for machine learning models, ensuring seamless transitions from development to production

Scalable Infrastructure:Collaborate with cross-functional teams to design, implement, andmaintainscalable infrastructure for model training, inference, and data processing

Monitoring and Logging:Develop andmaintainrobust monitoring and logging systems to track model performance, system health, and overall platform efficiency

Collaboration with Data Developers:Work closely with data developers to ensure efficient data pipelines for model training and validation

Version Control and Model Governance:Implement version control systems for machine learning models and contribute to model governance practices

Governance and Trust:Contribute to the implementation of robust model governance practices, version control systems, and adherence to compliance standards. Uphold data privacy and ethical considerations, fostering trust in our AI/ML solutions

Security and Compliance:Enforce security best practices and compliance standards in all aspects ofMLOps, ensuring data privacy and platform security

Continuous Improvement:Identifyopportunities for process automation, optimization, and implement strategies to enhance the overallMLOpslifecycle

Troubleshooting and Incident Response:Play a key role inidentifyingand resolving operational issues, contributing to incident response and system recovery

Minimum Qualifications

Educational Background:BS or MS in Computer Science, or related field

MLOpsExperience:5+ years of hands-on experience in DevOps andMLOps, with a focus on deploying and managing machine learning models in production environments

Infrastructure as Code (IaC):Proficiencyin implementing Infrastructure as Code practices using tools such as Terraform or Ansible

Containerization:Strongexpertisein containerization technologies (Docker, Kubernetes) for orchestrating and scaling machine learning workloads

CI/CD:Demonstratedexperience in setting up and managing Continuous Integration and Continuous Deployment (CI/CD) pipelines for machine learning projects

Scripting and Automation:Strong scripting skills in Python, Bash, or similar languages for automating operational processes

Monitoring Tools:Familiarity with monitoring and logging tools (e.g., Prometheus, Grafana, ELK Stack) for tracking system and model performance

Security Awareness:Understanding ofsecurity best practices inMLOps, including data encryption, access controls, and compliance standards

Collaboration Skills:Excellent collaboration and communication skills, working effectively with cross-functional teams including data developers, software developers, and researchers

Problem-solving Skills:Proven ability to troubleshoot and resolve complex operational issuesin a timely manner

Preferred Qualifications

Cloud Experience:Experience with cloud platforms, especially AWS or Azure, for deploying and managing machine learning infrastructure

Database Knowledge:Familiarity with databases and data storage solutions commonly used inMLOps, such as SQL, NoSQL, or data lakes

Machine Learning Frameworks:Exposure to popular machine learning frameworks (TensorFlow,PyTorch) and their integration intoMLOpsprocesses

Collaboration Tools:Previousexperience with collaboration tools like Git for version control and Jira for project management

Agile Methodology:Familiarity with Agile development methodologies and working in an iterative, collaborative environment

Description du poste Autodesk, leader mondial des logiciels de conception, d'ingénierie, de fabrication et de divertissement en 3D, recherche un ingénieur MLOps senior compétent pour rejoindre notre équipe AI/ML Platform. Ce poste est essentiel pour garantir le bon fonctionnement des modèles d'apprentissage automatique et l'efficacité globale de notre plateforme AI/ML de nouvelle génération utilisée dans le développement de solutions d'apprentissage automatique et d'IA générative qui alimentent la suite de produits et services d'Autodesk. Vous collaborerez avec les équipes de recherche et d'ingénierie produit de divers domaines, notamment la conception, la construction, la fabrication et les médias et divertissements, afin de soutenir les opérations de la plateforme.

Responsabilités

Efficacité opérationnelle :promouvoir l'excellence opérationnelle de notre plateforme IA/ML en mettant en œuvre et en optimisant les pratiques MLOps

Automatisation du déploiement :concevoir et mettre en œuvre des pipelines de déploiement automatisés pour les modèles d'apprentissage automatique, en assurant une transition fluide entre le développement et la production

Infrastructure évolutive :collaborer avec des équipes interfonctionnelles pour concevoir, mettre en œuvre et maintenir une infrastructure évolutive pour la formation des modèles, l'inférence et le traitement des données

Surveillance et journalisation :développer et maintenir des systèmes de surveillance et de journalisation robustes pour suivre les performances des modèles, la santé du système et l'efficacité globale de la plateforme

Collaboration avec les ingénieurs de données :travailler en étroite collaboration avec les ingénieurs de données afin de garantir l'efficacité des pipelines de données pour la formation et la validation des modèles

Contrôle des versions et gouvernance des modèles : mettre en œuvre des systèmes de contrôle des versions pour les modèles d'apprentissage automatique et contribuer aux pratiques de gouvernance des modèles

Gouvernance et confiance : contribuer à la mise en œuvre de pratiques robustes de gouvernance des modèles, de systèmes de contrôle des versions et au respect des normes de conformité. Respecter la confidentialité des données et les considérations éthiques, en favorisant la confiance dans nos solutions d'IA/ML

Sécurité et conformité :appliquer les meilleures pratiques en matière de sécurité et les normes de conformité dans tous les aspects du MLOps, en garantissant la confidentialité des données et la sécurité de la plateforme

Amélioration continue :identifier les opportunités d'automatisation et d'optimisation des processus, et mettre en œuvre des stratégies visant à améliorer le cycle de vie global du MLOps

Dépannage et réponse aux incidents :jouer un rôle clé dans l'identification et la résolution des problèmes opérationnels, en contribuant à la réponse aux incidents et à la restauration du système

Qualifications minimales

Formation :licence ou master en informatique ou dans un domaine connexe.

Expérience en MLOps : plus de 5 ans d'expérience pratique en DevOps et MLOps, avec un accent sur le déploiement et la gestion de modèles d'apprentissage automatique dans des environnements de production

Infrastructure as Code (IaC) : maîtrise de la mise en œuvre des pratiques Infrastructure as Code à l'aide d'outils tels que Terraform ou Ansible

Conteneurisation : solide expertise dans les technologies de conteneurisation (Docker, Kubernetes) pour l'orchestration et la mise à l'échelle des charges de travail d'apprentissage automatique

CI/CD : expérience avérée dans la mise en place et la gestion de pipelines d'intégration continue et de déploiement continu (CI/CD) pour des projets d'apprentissage automatique

Scripting et automatisation : solides compétences en scripting en Python, Bash ou dans des langages similaires pour l'automatisation des processus opérationnels

Outils de surveillance : connaissance des outils de surveillance et de journalisation (par exemple, Prometheus, Grafana, ELK Stack) pour le suivi des performances du système et des modèles

Sensibilisation à la sécurité :Compréhension des meilleures pratiques en matière de sécurité dans le domaine du MLOps, notamment le chiffrement des données, les contrôles d'accès et les normes de conformité

Compétences en matière de collaboration :Excellentes compétences en matière de collaboration et de communication, capacité à travailler efficacement avec des équipes interfonctionnelles, notamment des ingénieurs de données, des développeurs de logiciels et des chercheurs

Compétences en matière de résolution de problèmes :Capacité avérée à dépanner et à résoudre des problèmes opérationnels complexes en temps opportun

Qualifications souhaitées

Expérience du cloud :expérience des plateformes cloud, en particulier AWS ou Azure, pour le déploiement et la gestion d'infrastructures d'apprentissage automatique

Ready to Apply?

Don't miss this opportunity! Apply now and join our team.

Job Details

Posted Date: March 1, 2026
Job Type: Business
Location: Canada
Company: PowerToFly

Ready to Apply?

Don't miss this opportunity! Apply now and join our team.