#Por que ser Site Reliability Engineer (SRE) na Trace Finance:
A Trace Finance está construindo uma nova camada de infraestrutura financeira para empresas que operam globalmente, unificando fiat, cripto e pagamentos cross-border em uma única abstração técnica. Nosso foco não é lançar funcionalidades superficiais, mas resolver problemas profundos de confiabilidade, liquidação, consistência de saldo e previsibilidade operacional em sistemas financeiros de missão crítica.
Estamos em um momento de crescimento acelerado, preparando a empresa para Series A, com desafios técnicos que exigem maturidade e capacidade de tomar decisões com impacto real. Aqui, engenharia não é um departamento de execução — engenharia é parte central da estratégia do produto.
Atuamos em um contexto de alto impacto, onde disponibilidade, segurança e qualidade de entrega não são opcionais — são parte central do produto.
Nosso produto é parte do core operacional dos clientes — quando a Trace falha, a operação para. Isso muda completamente o papel de confiabilidade, observabilidade e engenharia de produção.
Nesta fase do negócio, crescimento, complexidade e criticidade já caminham juntos e por isso atraímos competências na consolidação e evolução da estratégia de confiabilidade e observabilidade, ajudando a Trace a crescer sem perder previsibilidade, controle e aprendizado contínuo.
#O seu desafio na Trace Finance será:
No curto prazo (primeiros 3 a 6 meses):
Assumir protagonismo na estratégia de observabilidade da organização, estabelecendo padrões claros de métricas, logs e traces.
Organizar e evoluir o uso das ferramentas de observabilidade (Datadog, Grafana, Prometheus), garantindo sinal de qualidade — não ruído.
Construir dashboards e alertas que realmente reflitam saúde sistêmica, impacto no negócio e experiência do cliente.
Apoiar a gestão de incidentes, trazendo método, clareza e disciplina para resposta, comunicação e análise.
Introduzir e formalizar práticas de post-mortem sem culpabilização, com foco em aprendizado real e melhoria sistêmica.
No médio e longo prazo (primeiro ano e além):
Definir e consolidar SLIs, SLOs e error budgets como ferramentas de decisão, não apenas métricas de status.
Elevar o nível de maturidade da engenharia em confiabilidade, influenciando arquitetura, desenho de serviços e padrões de deploy.
Padronizar a instrumentação de serviços across teams, garantindo consistência e rastreabilidade ponta a ponta.
Atuar como referência técnica em troubleshooting de sistemas distribuídos e cenários de alta complexidade.
Ajudar a Trace a operar com mais escala, menos surpresa e mais previsibilidade — mesmo sob pressão de crescimento.
#O que você vai fazer todos os dias:
Evoluir a estratégia e o ecossistema de observabilidade da Trace.
Criar, manter e revisar dashboards e alertas orientados a impacto real.
Trabalhar junto com engenharia e produto para traduzir comportamento sistêmico em decisões técnicas melhores.
Participar ativamente da gestão e análise de incidentes.
Conduzir post-mortems, documentar aprendizados e transformar falhas em melhorias estruturais.
Apoiar times de engenharia na instrumentação correta de serviços, métricas e traces.
Disseminar boas práticas de confiabilidade, observabilidade e engenharia orientada a dados.
#Estamos atraindo vivências e experiências em:
Observabilidade e monitoramento em ambientes de média a alta complexidade.
Infraestrutura cloud e sistemas distribuídos.
Definição prática de SLIs, SLOs e error budgets.
Automação e Infrastructure as Code.
Troubleshooting profundo de sistemas complexos.
Atuação colaborativa e didática, influenciando times técnicos de forma construtiva.
#Se você conhecer e souber fazer também… sua curva de aprendizado será acelerada:
OpenTelemetry e padrões modernos de instrumentação.
Práticas de Chaos Engineering.
Arquiteturas baseadas em microsserviços.
Kubernetes e ambientes orquestrados.
Engenharia de confiabilidade aplicada a produtos financeiros ou sistemas de missão crítica.