Como ajustar o comportamento do Claude com exemplos few-shot no seu prompt

Few-shot prompting é uma das técnicas mais subestimadas para fazer o Claude se comportar exatamente como você quer. Em vez de torcer para suas instruções serem claras o suficiente, você mostra ao Claude como é o sucesso fornecendo 2-5 exemplos concretos. É mais rápido que fine-tuning, não requer um modelo separado e funciona imediatamente em seus prompts de produção.

Aqui está o que você precisa saber para implementar isso de forma efetiva.

Por que Exemplos Few-Shot Vencem Instruções Sozinhas

Quando você diz ao Claude "escreva em um tom casual" ou "extraia dados em formato JSON", você está descrevendo um conceito abstrato. O Claude interpreta essa descrição através dos padrões dos dados de treinamento. Mas quando você mostra ao Claude exatamente o que quer—um exemplo real de tom casual ou uma estrutura JSON—você elimina a ambiguidade.

Já vi equipes lutando com saídas inconsistentes por meses, apenas para resolver em dias com três bons exemplos. Os exemplos funcionam como uma âncora comportamental mais poderosa que qualquer instrução escrita.

A Anatomia de um Exemplo Few-Shot Efetivo

Um exemplo few-shot forte tem três componentes:

Input: O cenário ou pergunta que você está pedindo ao Claude para processar Processamento: Passos intermediários ou raciocínio opcional (se relevante) Output: O formato, tom e conteúdo exatos que você quer

Aqui está um exemplo concreto. Digamos que você precisa que o Claude revise feedback de clientes e extraia sentimento:


Exemplo 1:
Input: "Seu produto quebrou após duas semanas e o atendimento ao cliente me ignorou."
Output: {
"sentiment": "negative",
"intensity": "high",
"key_issue": "product_quality",
"actionable": true
}

Exemplo 2:
Input: "Funciona bem, faz o que deveria fazer."
Output: {
"sentiment": "neutral",
"intensity": "low",
"key_issue": null,
"actionable": false
}

Note que o formato de output é idêntico a cada vez. Essa consistência ensina ao Claude a estrutura exata que você espera.

Quantos Exemplos Você Precisa?

O número mágico geralmente é 2-5 exemplos. Aqui está a hierarquia:

1 exemplo: Mal melhor que instruções sozinhas. Use apenas se estiver testando ou severamente limitado pela contagem de tokens.
2-3 exemplos: Ponto ideal para a maioria das tarefas. Suficiente para estabelecer um padrão sem queimar tokens. Bom para tarefas de formatação diretas.
4-5 exemplos: Recomendado para comportamentos complexos, especialmente se você precisar de tratamento de casos extremos ou tom matizado.
6+ exemplos: Retornos decrescentes. Você provavelmente está excessivamente complexificando.

A qualidade importa mais que a quantidade. Um exemplo bem escolhido vence cinco desajeitados.

Posicionando Exemplos no Seu Prompt

A estrutura importa. Aqui está o padrão que funciona melhor:


[Sua descrição de tarefa]

[Exemplos few-shot]

[Instruções ou limitações adicionais]

[A requisição real]

Colocar exemplos após sua instrução principal, mas antes de requisições específicas, ajuda o Claude a aplicá-los à sua tarefa real.


Você está analisando tickets de atendimento ao cliente.

Exemplo:
Input: "Não consigo mais fazer login"
Output: {
"category": "authentication",
"urgency": "high",
"requires_password_reset": true
}

Exemplo:
Input: "A interface é confusa, mas funciona"
Output: {
"category": "ux",
"urgency": "low",
"requires_password_reset": false
}

Agora analise este ticket:
"O app trava quando faço upload de arquivos maiores que 50MB"

Cinco Técnicas para Amplificar a Efetividade do Few-Shot

1. Combine seus exemplos com casos extremos Inclua um exemplo que cubra o cenário complicado que você realmente encontra. Se 30% de seus inputs são ambíguos, não carregue todos os exemplos com casos óbvios. Inclua um exemplo ambíguo mostrando como você quer que seja tratado.

2. Mostre o padrão de rejeição Inclua um exemplo do que você não quer. Isso é particularmente poderoso para trabalho de tom ou estilo.


O que NÃO fazer:
Input: "Adorei este produto!"
Saída Ruim: "Este cliente está feliz. Gosta muito do produto."
Saída Boa: {
"sentiment": "positive",
"confidence": 0.95
}

3. Use dados realistas Seus exemplos devem parecer com inputs reais que você processará. Exemplos genéricos não ancoram o comportamento tão efetivamente. Se seus dados reais são desorganizados, seus exemplos também devem ser.

4. Inclua casos extremos progressivamente Se você tem 4 exemplos, estruture-os do simples para o complexo. Isso ensina ao Claude a fundação primeiro, depois como lidar com complicações.

5. Comente seus exemplos Para outputs complexos, adicione breves comentários inline explicando por que você escolheu aquela estrutura de output.


Output: {
"needs_escalation": true, // Cliente de alto valor + tom irritado
"response_time": "urgent"
}

Quando Few-Shot Não é Suficiente

Few-shot prompting tem limites. Você saberá que atingiu quando:

Seus exemplos são tão numerosos (8+) que você está queimando tokens significativos
Seu comportamento desejado requer raciocínio multi-etapas que exemplos não conseguem demonstrar completamente
Você precisa de consistência em 50+ tipos de output distintos
Está implantando em escala massiva e custos de token importam significativamente

Nesses casos, você pode explorar o fine-tuning real através da API do Claude, mas honestamente, few-shot resolve 80% dos problemas do mundo real.

Testando Seus Exemplos Few-Shot

Antes de implantar, execute estas verificações:

Teste de consistência: Execute 5 inputs similares através do seu prompt e verifique que os outputs seguem o padrão
Teste de caso extremo: Tente inputs que não correspondem aos seus exemplos e veja se o Claude se adapta corretamente ou fica confuso
Auditoria de tokens: Verifique que seus exemplos não o empurram além da contagem de tokens razoável para seu caso de uso
Teste de variação: Reformule ligeiramente seus exemplos e re-execute para garantir que é o padrão, não as palavras exatas, o que importa

Exemplo do Mundo Real: Construindo um Classificador de Bug Report

Aqui está como eu implementaria few-shot prompting para um sistema de classificação de bug reports de produção:


Você classifica relatórios de bugs por severidade e categoria.

Exemplo 1:
Input: "Página de login não carrega para ninguém"
Output: {"severity": "critical", "category": "authentication", "affects_all_users": true}

Exemplo 2:
Input: "Erro de digitação no rótulo do menu de configurações"
Output: {"severity": "low", "category": "ux", "affects_all_users": true}

Exemplo 3:
Input: "Gráficos renderizam lentamente para mim quando tenho 10000+ pontos de dados"
Output: {"severity": "medium", "category": "performance", "affects_all_users": false}

Classifique este relatório:
"Quando exporto para PDF com fontes customizadas, o arquivo de saída fica corrompido"

Isso ensina ao Claude três níveis de severidade diferentes, mostra como lidar com problemas de performance e estabelece a estrutura JSON exata esperada.

A Conclusão

Few-shot prompting é seu caminho mais rápido para comportamento consistente do Claude. Não é impressionante, mas é confiável, imediato e não requer mudanças de infraestrutura. Comece com 2-3 exemplos bem escolhidos, teste-os contra seus casos de uso reais e itere. Você verá a consistência comportamental melhorar dentro de sua primeira implantação.

Os profissionais que estão obtendo mais valor do Claude não estão usando prompts mais complexos—estão usando exemplos mais inteligentes.

Sources: Language Models are Few-Shot Learners (Brown et al., 2020) · Few-Shot Prompting — Prompt Engineering Guide · Prompt engineering — Anthropic Docs