Robbin levanta USD 108 milhões com rodada Seed e FIDC Saiba mais
← Voltar ao blog
Engenharia 7 min

Jornada do Robbinson: Construindo um Agente de IA para Produção

Como projetamos nosso agente de IA conversacional, com escalabilidade, segurança e observabilidade desde o dia um.

por Rafael Hiller

Na Robbin, acreditamos que a inteligência artificial pode transformar a forma como empresas se relacionam com clientes e parceiros. Para tornar essa visão realidade, adotamos uma abordagem de engenharia sólida desde o início, com foco em escalabilidade, segurança e performance.

Foi assim que nasceu o Robbinson, nosso agente de IA conversacional, projetado para operar em ambiente de produção desde o dia um. Desde a concepção, buscamos superar os desafios comuns de soluções improvisadas ou low-code/no-code, priorizando uma arquitetura que nos permitisse crescer com confiança. Entre os pontos críticos da nossa abordagem estão:

  • Gestão de prompts: o controle centralizado dos prompts permite experimentação estruturada, testes de regressão e evolução contínua da experiência conversacional.
  • Baixa latência: a arquitetura elimina camadas desnecessárias de processamento, reduzindo gargalos e garantindo tempo de resposta adequado mesmo em cenários de alta demanda.
  • Segurança desde a base: tokens, dados sensíveis e logs são tratados dentro de políticas claras de criptografia, auditoria e controle de acesso, assegurando conformidade e confiança.

Essa fundação nos permitiu evoluir o Robbinson como um produto pronto para escalar.

O que é o Robbinson?

O Robbinson é uma plataforma de agentes inteligentes que se conectam a múltiplos canais (como WhatsApp e Slack) e conseguem atuar em diferentes contextos de negócio, principalmente auxiliando os vendedores dos parceiros da Robbin com informações de clientes e no auxílio de venda de produtos. Nosso objetivo principal é criar uma base arquitetural sólida que permita:

  • Escalar para múltiplos canais e marcas.
  • Garantir segurança e governança em cada interação.
  • Aprimorar continuamente a qualidade das respostas através de observabilidade e avaliação.

Alguns casos de uso podem ser vistos abaixo:

User: Esse cliente já tem conta habilitada?

Robbinson: A cliente Mariana Lopes Silva, com CNPJ 12.345.678/0001-90 (empresa BRASIL TECH LTDA), possui conta habilitada desde agosto de 2025. As informações são:

  • Nome: Mariana Lopes Silva
  • CPF: 123.456.789-00
  • CNPJ: 12.345.678/0001-90
  • E-mail: mariana@brasiltech.com
  • Limite total: R$ 85.000,00
  • Limite disponível: R$ 74.320,50

User: Qual é a data de fechamento da fatura?

Robbinson: A fatura do cliente João Carlos Pereira fecha todo dia 12. A próxima data de fechamento será em 12/11/2025. Se precisar, também consigo trazer a data de vencimento.

User: Já realizou alguma compra no Pix no crédito?

Robbinson: O cliente Carla Menezes, com CNPJ 98.765.432/0001-10, realizou 3 transações registradas na última fatura de setembro/2025, totalizando R$ 12.340,00. As compras foram feitas em:

  • Fornecedor A: R$ 7.000,00
  • Fornecedor B: R$ 4.000,00
  • Fornecedor C: R$ 1.340,00

User: Qual é o valor médio das faturas dele?

Robbinson: O valor médio das faturas pagas pelo cliente Pedro Henrique Souza nos últimos 3 meses é de aproximadamente R$ 18.200,00. Posso detalhar mês a mês, se preferir.

User: Qual é o limite disponível agora?

Robbinson: O cliente Ana Beatriz Oliveira possui um limite total de R$ 150.000,00, com R$ 92.500,00 ainda disponíveis para uso.

Desafios de Engenharia

Evoluir de uma POC para um sistema de produção trouxe desafios interessantes de engenharia.

Conexão multicanal via API única

Diferentes canais de comunicação se conectam a uma API interna da Robbin central. Essa API possui um middleware de autenticação, responsável por garantir que o token do usuário acompanhe todas as chamadas feitas para ferramentas (tools) e MCPs. Essa validação acontece em uma camada externa ao modelo de linguagem, assegurando a consistência e a segurança das interações.

Pipeline assíncrono com filas

Cada mensagem recebida é publicada em uma fila, permitindo que workers especializados processem a requisição de forma escalável. Esses workers aplicam guard rails, verificam contexto, fazem chamadas às ferramentas necessárias e garantem que a resposta final seja consistente.

Observabilidade

Um dos pilares do Robbinson é a observabilidade de ponta a ponta precisamos entender quanto custa, quão rápido e quão bem o agente está respondendo.

Mas antes mesmo de implementar ferramentas de observabilidade, foi essencial alinhar com os times de negócio e produto quais seriam as métricas de sucesso do Robbinson, como:

  • Quantidade de interações: o agente está de fato sendo usado e gerando valor?
  • Tempo médio de resposta ao cliente: a experiência está rápida o suficiente para não gerar frustração?
  • Custo por usuário: quanto cada cliente que interage com o Robbinson representa em consumo de LLMs?

Essas métricas, combinadas com as ferramentas, guiam o time de engenharia em pontos de melhoria em função de um objetivo final.

Monitoramento de custo por usuário e por modelo

Cada chamada à LLM tem um custo associado. Para evitar surpresas, rastreamos o consumo por usuário final e também por modelo utilizado, o que nos permite tomar decisões de roteamento inteligente (ex.: usar um modelo mais barato em tarefas simples e reservar os mais avançados para cenários críticos). Na prática, utilizamos o GPT-5.1 como modelo principal do agente, enquanto o GPT-4.1-nano é direcionado para tarefas de guard rails — uma combinação que equilibra qualidade de resposta com eficiência de custo.

Métricas de tempo de resposta

O tempo médio de resposta é acompanhado em dashboards. Isso ajuda a identificar gargalos em filas, workers ou integrações externas.

Além disso, o tempo de resposta também influencia diretamente na escolha do modelo. Por exemplo:

  • Modelos mais rápidos e leves (ex.: GPT-4.1-nano, GPT-4.1-mini) são bons para interações simples, FAQs ou casos onde a latência precisa ser mínima (ex.: atendimento via WhatsApp).
  • Modelos mais robustos e com reasoning avançado (ex.: GPT-5, GPT-5.1) oferecem respostas melhores em cenários complexos, mas podem aumentar a latência.

Isso leva a trade-offs importantes:

  • Velocidade vs. Precisão: nem sempre o modelo mais sofisticado é o ideal; muitas vezes a experiência do usuário se beneficia mais de uma resposta rápida do que de uma resposta perfeita.
  • Contexto do canal: em canais síncronos (WhatsApp, Slack), a tolerância para esperar é menor; em canais assíncronos (e-mail, ticket), o usuário aceita esperar mais.
  • Configurações do modelo: features como reasoning steps, temperature e max tokens afetam diretamente a latência. Por exemplo, habilitar reasoning profundo pode aumentar o tempo médio de resposta de segundos para dezenas de segundos.

Avaliações de qualidade (evaluations)

As respostas do Robbinson são avaliadas continuamente através de métricas automáticas e também com scores calculados a partir de frameworks de evaluation. Assim, conseguimos medir clareza, relevância e aderência ao contexto esperado. Um ponto importante é o uso de AI-as-a-Judge — isto é, utilizar outro LLM para avaliar a saída do agente. Isso permite aplicar métricas de qualidade de forma escalável e mais próxima da percepção humana, reduzindo a dependência exclusiva de avaliações manuais.

Para um chatbot conversacional, alguns tipos de evaluations adequados são:

  • Relevance (Relevância): garante que a resposta realmente atende à intenção do usuário.
  • Faithfulness (Fidelidade): mede se o agente se manteve fiel ao contexto e não inventou informações (hallucination check).
  • Conciseness (Objetividade): verifica se o agente evitou redundâncias e foi direto ao ponto.
  • Tone & Helpfulness (Tom e Utilidade): especialmente importante em canais como WhatsApp ou Slack, onde a comunicação precisa ser natural e acolhedora.

Esse conjunto de métricas não só garante transparência no funcionamento do agente, mas também nos dá insumos para evoluí-lo com base em dados concretos, entendendo quais dimensões da qualidade precisam de ajustes.

Feedback em tempo real

A resposta final do agente é publicada em um tópico no Kafka. Um consumidor então atribui um score de qualidade à mensagem e envia esse feedback para a plataforma de observabilidade e também para um canal interno no Slack, onde o time acompanha a performance quase em tempo real.

Arquitetura do Robbinson

O que vem pela frente

O Robbinson já está em fase de amadurecimento e, hoje, vai além de responder perguntas: ele também atua de forma proativa, notificando os vendedores dos parceiros sobre resultados de análise de crédito e aprovações de crédito em tempo real. Essa capacidade transforma o agente de uma ferramenta reativa em um verdadeiro assistente de vendas, que antecipa informações relevantes e acelera o ciclo comercial. Entre os próximos passos estão:

  • Expandir a proatividade do Robbinson para novos cenários, como sugestões de vendas personalizadas de acordo com o limite de crédito do cliente e alertas sobre oportunidades de upsell.
  • Implementar mecanismos cada vez mais sofisticados de evaluation — combinando testes automatizados, feedback humano e métricas contínuas.

O Robbinson nasceu como um protótipo simples, mas já se transformou em uma peça-chave da nossa visão de futuro: um agente de IA multiagente, multicanal e confiável, que conecta a Robbin às empresas parceiras e aos clientes de forma inteligente.