[Trace Finance] – Site Realiability Engineer (SRE) (Pleno/Senior)

27 de janeiro de 2026
Aplicar Agora

Descrição da oportunidade

#Por que ser Site Reliability Engineer (SRE) na Trace Finance:

  • A Trace Finance está construindo uma nova camada de infraestrutura financeira para empresas que operam globalmente, unificando fiat, cripto e pagamentos cross-border em uma única abstração técnica. Nosso foco não é lançar funcionalidades superficiais, mas resolver problemas profundos de confiabilidade, liquidação, consistência de saldo e previsibilidade operacional em sistemas financeiros de missão crítica.
  • Estamos em um momento de crescimento acelerado, preparando a empresa para Series A, com desafios técnicos que exigem maturidade e capacidade de tomar decisões com impacto real. Aqui, engenharia não é um departamento de execução — engenharia é parte central da estratégia do produto.
  • Atuamos em um contexto de alto impacto, onde disponibilidade, segurança e qualidade de entrega não são opcionais — são parte central do produto.
  • Nosso produto é parte do core operacional dos clientes — quando a Trace falha, a operação para. Isso muda completamente o papel de confiabilidade, observabilidade e engenharia de produção.
  • Nesta fase do negócio, crescimento, complexidade e criticidade já caminham juntos e por isso atraímos competências na consolidação e evolução da estratégia de confiabilidade e observabilidade, ajudando a Trace a crescer sem perder previsibilidade, controle e aprendizado contínuo.

#O seu desafio na Trace Finance será:

No curto prazo (primeiros 3 a 6 meses):

  • Assumir protagonismo na estratégia de observabilidade da organização, estabelecendo padrões claros de métricas, logs e traces.
  • Organizar e evoluir o uso das ferramentas de observabilidade (Datadog, Grafana, Prometheus), garantindo sinal de qualidade — não ruído.
  • Construir dashboards e alertas que realmente reflitam saúde sistêmica, impacto no negócio e experiência do cliente.
  • Apoiar a gestão de incidentes, trazendo método, clareza e disciplina para resposta, comunicação e análise.
  • Introduzir e formalizar práticas de post-mortem sem culpabilização, com foco em aprendizado real e melhoria sistêmica.

No médio e longo prazo (primeiro ano e além):

  • Definir e consolidar SLIs, SLOs e error budgets como ferramentas de decisão, não apenas métricas de status.
  • Elevar o nível de maturidade da engenharia em confiabilidade, influenciando arquitetura, desenho de serviços e padrões de deploy.
  • Padronizar a instrumentação de serviços across teams, garantindo consistência e rastreabilidade ponta a ponta.
  • Atuar como referência técnica em troubleshooting de sistemas distribuídos e cenários de alta complexidade.
  • Ajudar a Trace a operar com mais escala, menos surpresa e mais previsibilidade — mesmo sob pressão de crescimento.

#O que você vai fazer todos os dias:

  • Evoluir a estratégia e o ecossistema de observabilidade da Trace.
  • Criar, manter e revisar dashboards e alertas orientados a impacto real.
  • Trabalhar junto com engenharia e produto para traduzir comportamento sistêmico em decisões técnicas melhores.
  • Participar ativamente da gestão e análise de incidentes.
  • Conduzir post-mortems, documentar aprendizados e transformar falhas em melhorias estruturais.
  • Apoiar times de engenharia na instrumentação correta de serviços, métricas e traces.
  • Disseminar boas práticas de confiabilidade, observabilidade e engenharia orientada a dados.

#Estamos atraindo vivências e experiências em:

  • Observabilidade e monitoramento em ambientes de média a alta complexidade.
  • Infraestrutura cloud e sistemas distribuídos.
  • Definição prática de SLIs, SLOs e error budgets.
  • Automação e Infrastructure as Code.
  • Troubleshooting profundo de sistemas complexos.
  • Atuação colaborativa e didática, influenciando times técnicos de forma construtiva.

#Se você conhecer e souber fazer também… sua curva de aprendizado será acelerada:

  • OpenTelemetry e padrões modernos de instrumentação.
  • Práticas de Chaos Engineering.
  • Arquiteturas baseadas em microsserviços.
  • Kubernetes e ambientes orquestrados.
  • Engenharia de confiabilidade aplicada a produtos financeiros ou sistemas de missão crítica.