Descrição da Vaga
Atuar na arquitetura, construção e evolução do Data Lake e dos produtos de dados desenvolvidos pelo time, incluindo soluções de Analytics, agentes e modelos de machine learning.
Trabalhará em conjunto com o especialista de engenharia de dados na definição e implementação de arquiteturas, modelagem e disponibilização de dados em ambientes distribuídos, utilizando tecnologias como AWS, Spark, Trino e Athena, além de viabilizar o consumo eficiente dessas informações por ferramentas como o Metabase.
Será responsável por desenvolver e otimizar pipelines de dados, garantindo performance, escalabilidade, qualidade e governança das informações. Espera-se que o profissional atue com alta autonomia técnica, contribuindo para decisões de arquitetura e para a evolução contínua do ecossistema de dados, assegurando que as soluções atendam às necessidades analíticas e de inteligência dos produtos com robustez e confiabilidade.
O QUE VOCÊ VAI FAZER:
Atuar na construção e evolução da arquitetura do Data Lake e dos produtos de dados do time (Analytics, agentes e modelos);
Desenvolver, otimizar e manter pipelines de dados escaláveis e confiáveis em ambiente AWS;
Modelar e estruturar dados para consumo analítico e operacional, garantindo qualidade, performance e governança;
Trabalhar em conjunto com o especialista de engenharia na definição de padrões, arquiteturas e boas práticas de dados;
Implementar e otimizar consultas e camadas de acesso a dados utilizando Athena e Trino;
Processar e transformar grandes volumes de dados utilizando Spark;
Garantir a disponibilização eficiente de datasets para consumo em ferramentas analíticas como Metabase;
Monitorar, diagnosticar e otimizar o desempenho de pipelines, queries e tabelas no Data Lake;
Assegurar qualidade, integridade e rastreabilidade dos dados ao longo de todo o pipeline;
Apoiar a definição de estratégias de particionamento, versionamento e organização de dados;
Contribuir com a documentação técnica e evolução das boas práticas de engenharia de dados;
Acompanhar tendências e propor melhorias contínuas no ecossistema de dados e nas tecnologias
O QUE ESPERAMOS DE VOCÊ:
Graduação completa em Engenharia, Ciência da Computação, Sistemas de Informação ou áreas correlatas;
Experiência sólida em engenharia de dados, construção e manutenção de pipelines de dados em larga escala;
Domínio de SQL avançado para manipulação e otimização de grandes volumes de dados;
Experiência prática com processamento distribuído utilizando Spark;
Experiência com serviços de dados na AWS (ex: S3, Glue, Athena, IAM, entre outros);
Experiência com engines de consulta distribuída, como Athena e/ou Trino;
Conhecimento em infraestrutura como Código (Terraform)
Experiência em streaming de dados em tempo real (Apache Kafka)
Conhecimento em bancos relacionais (PostgreSQL), não relacionais (MongoDB) e vetoriais (Milvus, Pinecone, S3 Vector)
Experiência em governança de dados (Apache Ranger)
Conhecimento em Data lake/lakehouse moderno (Iceberg, PyIceberg)
Conhecimento em boas práticas de qualidade, governança e organização de dados;
Experiência trabalhando em conjunto com times multidisciplinares (dados, produto e engenharia);
Capacidade de estruturar soluções de dados escaláveis e de alta performance.
SERIA LEGAL SE TIVESSE:
Experiência com disponibilização de dados para ferramentas de BI, como Metabase, Power BI ou Tableau;
Vivência com otimização de queries e particionamento de tabelas em Data Lake;
Experiência com orquestração de pipelines (ex: Airflow ou similares);
Conhecimento em arquitetura de Data Lake;
Experiência prévia suportando times de Ciência de Dados e Machine Learning;
Conhecimento em práticas de DataOps e observabilidade de pipelines;
Ready to Apply?
Don't miss this opportunity! Apply now and join our team.
Detalhes da Vaga
Data de Publicação:
March 8, 2026
Tipo de Vaga:
Tecnologia
Localização:
Brazil
Company:
TOTVS
Ready to Apply?
Don't miss this opportunity! Apply now and join our team.