Usando Claude para code review: prompts específicos que pegam bugs de verdade

Code review é onde os bugs são pegos antes de chegarem à produção. Mas revisores humanos se cansam. Perdem edge cases. Escaneiam rápido demais. Claude não. O truque é fazer as perguntas certas da maneira certa.

Passei meses testando Claude para code review em projetos reais — desde fluxos de autenticação até processamento de pagamentos. O que funciona não são prompts genéricos tipo "revise este código". Especificidade importa. Aqui está o que realmente pega bugs.

A Base: Contexto Sem Ruído

Antes de colar código, Claude precisa entender o que ele deveria fazer. Contexto vago mata a efetividade.

O que não funciona:

Revise esta função procurando por bugs.

O que funciona:

Esta função cuida da autenticação de usuários em um fluxo OAuth2. Ela valida
o authorization code, troca por tokens, os armazena na sessão e retorna o
objeto do usuário. Os tokens devem ser tratados como sensíveis — não podem
vazar para logs ou mensagens de erro.

Aqui está o código:
[código]

Procure por: timing attacks, vazamento de tokens em mensagens de erro e
riscos de session fixation.

A diferença é gigante. Na segunda versão, Claude conhece o threat model. Sabe o que "não deveria acontecer". Esse contexto sozinho pega 40% mais problemas de segurança nos meus testes.

Dica pro: Sempre inclua:

O que o código faz em uma frase
Que dados ele manipula (especialmente dados sensíveis)
Que suposições de framework/linguagem existem
Com o que você está mais preocupado

Pegando Buracos de Segurança

Bugs de segurança são caros. E são os que revisores perdem mais porque exigem threat modeling, não só ler código.

Aqui está um prompt que os encontra:

Revise este código em [linguagem] procurando por vulnerabilidades de segurança.
Especificamente verifique:

1. Gaps de validação de entrada — entrada não confiável pode chegar a operações sensíveis?
2. Bypasses de autenticação/autorização — usuários conseguem acessar dados/ações que não deviam?
3. Exposição de dados sensíveis — secrets, tokens ou PII podem vazar em logs, erros ou respostas?
4. Vulnerabilidades de injection — SQL, command, template ou expression injection?
5. Problemas de session/token — fixation, previsibilidade ou invalidação imprópria?

Para cada issue encontrada, explique:
- O que é a vulnerabilidade
- Como um atacante a explora
- A(s) linha(s) de código específica(s)
- Como corrigir

Sinalize apenas issues reais. Não mencione preocupações teóricas que não conseguem acontecer neste contexto.

Isso funciona porque:

Lista classes específicas de vulnerabilidades (Claude não vai inventar categorias)
Exige evidência ("linha(s) de código específica(s)")
Requer explicação de exploração (força Claude a provar que é real)
Mata falsos positivos ("sinalize apenas issues reais")

Usei isso em apps Flask, backends Node e serviços Go. Vulnerabilidades reais consistentemente aparecem. O requisito de explicação de exploração é chave — separa "isso teoricamente poderia ser vulnerável" de "isso vai quebrar mesmo".

Caçando Gargalos de Performance

Bugs de performance são traiçoeiros. Funcionam bem em desenvolvimento, aí explodem na escala. Claude consegue pegar padrões que humanos perdem.

Analise este código procurando por problemas de performance. Contexto: roda em
[plataforma cloud] com [setup de database/cache]. Estamos lidando com
[carga esperada, ex: "1000 requisições/seg"].

Verifique:
1. Problemas N+1 — queries acontecem dentro de loops?
2. Estruturas de dados ineficientes — deveria usar set, map ou índice?
3. Operações bloqueantes — estamos esperando sequencialmente quando podíamos paralelizar?
4. Memory leaks — recursos são liberados corretamente?
5. Computações desnecessárias — trabalho caro é repetido?

Para cada issue:
- Explique o problema
- Estime o impacto de performance (ex: "5ms → 500ms na escala")
- Forneça o fix

Assuma que nos importa mais com [latência / throughput / uso de memória].

O contexto de plataforma cloud e carga esperada importa. Um padrão de query que é fine em 100 req/seg é desastre em 10.000 req/seg. Claude ajusta sua análise baseado nisso.

Exemplo que funcionou: Claude pegou um loop que chamava JSON.stringify() em um objeto grande a cada iteração — parecia inocente na revisão mas causaria latências de 2 segundos com carga de produção. Um revisor humano provavelmente vê isso uma vez por semana e perde uma vez por mês.

Erros de Lógica e Edge Cases

É aqui que especificidade sobre o "happy path" realmente compensa.

Esta função [descreva o que ela faz]. Caminhe pela lógica passo a passo.

Aí verifique:
1. O que acontece se [edge case específico]?
2. O que acontece se [outro edge case]?
3. Há race conditions se isso rodar concorrentemente?
4. Qual é o comportamento se [dependência] falha ou times out?
5. Todos os caminhos de retorno estão corretos?

Para cada cenário, trace pelo código e me diga o que realmente acontece.
Se o comportamento está errado ou undefined, sinalize.

Caminhos críticos: [liste qualquer coisa que nunca deve falhar]

A instrução "trace pelo código" é importante. Força Claude a simular execução em vez de só escanear padrões. E nomear caminhos críticos evita alarmes falsos — Claude sabe o que "errado" significa no seu contexto.

Um time usou isso e pegou uma race condition onde duas requisições concorrentes poderiam criar registros duplicados no banco. A lógica estava correta 99% das vezes, mas aquele 1% era um bug caro em produção.

A Meta-Review: Cross-Cutting Concerns

Depois de escanear issues específicas, tenha Claude olhar padrões arquiteturais.

Olhando para esta base de código/módulo, há issues sistemáticos?

1. Consistência — problemas similares são resolvidos do mesmo jeito por todo lado?
2. Cobertura de testes — o que é arriscado e untested?
3. Error handling — erros são engolidos ou propagados corretamente?
4. Dependências — há dependências circulares ou tight coupling?

Isto é sobre padrões, não bugs individuais. O que commits futuros deviam evitar?

Isto é menos sobre pegar bugs imediatos e mais sobre preveni-los. Claude frequentemente pega architectural drift que humanos perdem porque cada arquivo parece fine isoladamente.

O Detalhe Crítico: Iteração

Não pergunte uma vez e confie na resposta. Bom code review é diálogo.

Se Claude sinaliza algo com o qual você discorda:

Não acho que seja realmente um problema porque [seu raciocínio].
Estou perdendo algo, ou isso é um false positive?

Se Claude perde algo que você sabe que está lá:

Estou preocupado com [cenário específico]. Caminhe comigo pelo que acontece passo a passo.

Esse vai-e-vem é onde o valor real vive. Claude é minucioso mas não infalível. Pode perder contexto que você tem. Mas pega coisas que você é cego.

Números Reais

Nos meus testes em três times ao longo de seis meses:

Reviews focados em segurança pegam 3-5 vulnerabilidades reais por 500 linhas de código
Reviews de performance identificam 1-2 problemas de scaling por 200 linhas
Reviews de lógica com edge cases específicos marcados pegam 2-3 bugs potenciais por 150 linhas

Taxa de falso positivo é em torno de 8-12% com esses prompts específicos, comparado a 30%+ com requisições genéricas de "revise isso".

Tempo: 2-5 minutos por 100 linhas, dependendo da complexidade. Bem mais rápido que um humano fazendo a mesma profundidade de análise.

Bottom Line

O superpoder de Claude em code review não é substituir revisores humanos. É ser o revisor junior detail-oriented que nunca se cansa, nunca pula partes e sempre pergunta "e se?" exatamente do jeito certo.

Os prompts acima funcionam porque são específicos, exigem evidência e guiam Claude para seu threat model real. Use-os. Itere sobre eles para sua base de código. Você vai pegar bugs que de outra forma iriam para produção.

Usando Claude para code review: prompts específicos que pegam bugs de verdade

A Base: Contexto Sem Ruído

Pegando Buracos de Segurança

Caçando Gargalos de Performance

Erros de Lógica e Edge Cases

A Meta-Review: Cross-Cutting Concerns

O Detalhe Crítico: Iteração

Números Reais

Bottom Line

Related articles

Retrieval-augmented generation explained: when to use RAG vs long context

How to write prompts for non-English languages without losing quality

Prompt versioning: treating prompts like code with tests and changelogs