Por que deletamos os sinais grade A
Contraintuitivo: tirar os setups mais fortes do livro intradiário deixou o sleeve mais lucrativo, mais estável e mais fácil de dimensionar. Os dados de comparação e o raciocínio a que chegamos depois de um ano rodando A e B lado a lado.
Nos primeiros dezoito meses do sleeve intradiário - cuja forma mais ampla está em como operamos níveis - rodamos um modelo de confluência com gradação em três níveis: A, B e C. Cada nível era uma combinação de sinais que tinham que se alinhar no nível - acordo multi-timeframe, volume profile, contexto de estrutura de mercado, postura de funding. A significava “todos concordam fortemente”. B significava “a maioria concorda, com uma divergência leve”. C era exploratório e nunca operou ao vivo.
A intuição era difícil de contestar. Grade A é mais raro, mais limpo, mais convicto; você esperaria win rate maior, R médio mais gordo e drawdown mais quieto. Foi exatamente isso que esperávamos no começo.
Por três trimestres rodamos A e B lado a lado, ambos ao vivo, ambos em tamanho pequeno. Mesmo conjunto de instrumentos, mesma stack de execução, mesma lógica de saída. Só o filtro de entrada diferia. No fim do terceiro trimestre, a planilha estava assim:
| Grade A | Grade B | |
|---|---|---|
| Operações / 90d | ~14 | ~78 |
| Win rate | 52.9% | 54.8% |
| Avg R / trade | +0.21 | +0.18 |
| Stddev R | 0.94 | 0.71 |
| 90d R total | +2.9 | +14.0 |
| Max drawdown | -3.4 R | -2.1 R |
O A tinha um R médio um pouco mais gordo e um win rate ligeiramente pior, mas o número que incomodava era o desvio padrão. A variância por trade do A era 33% mais ampla que a do B, em 18% da cadência. Quando você compõe isso ao longo de um trimestre, A é mais barulhento, mais lento e termina com o pior Sharpe dos dois. Tiramos o A do livro ao vivo no trimestre seguinte.
A primeira explicação que consideramos e descartamos foi o poder estatístico. Grade A te dá ~14 operações por trimestre - não é o suficiente para sizing com confiança. O sizer Sharpe-weighted precisa de algumas dezenas de observações para os pesos estabilizarem. Só com A, o sizing estava sempre atrasando o regime em duas a três semanas; com B e ~78 operações, o sizer ficava normalmente dentro de uma semana do ótimo. Isso a gente esperava; isso, sozinho, não explica o gap de variância.
A segunda explicação explica. Sinais A se aglomeram. Quando a tape macro se alinha, você recebe três entradas A em ativos correlacionados em poucas horas. O portfolio acha que tem três edges independentes; na verdade tem um edge expresso três vezes. Drawdowns no A eram sempre mais agudos que no B exatamente por isso - quando o driver compartilhado ia contra, as três posições perdiam ao mesmo tempo. As trades B disparam de forma mais constante numa janela mais ampla e não se agrupam do mesmo jeito.
A terceira explicação é a que levou um ano para a gente admitir para si mesmo: a vantagem informacional vive na divergência. A é “tudo concorda”, o que por definição é o consenso. B é “a maioria concorda, com uma divergência leve” - e a divergência é a parte da operação que ainda não está precificada no consenso. As trades B que dão certo dão certo porque a divergência era a verdade e o consenso era a multidão. O B tem mais upside condicional a estar certo, porque estar certo no B significa que a multidão estava errada. As trades A que dão certo dão certo porque o consenso estava certo - o que tudo bem, exceto pelo fato de que o consenso já moveu o preço antes da gente chegar lá.
Deixamos a maquinaria de grading no lugar. Só paramos de operar A. O grader continua calculando A; usamos como sinal de supressão - quando um grade A dispara, as entradas B naquele instrumento são puladas pelas próximas quatro horas, porque o consenso já se moveu. Essa supressão vale uns +0.04 R em média por trade pulado, a diferença entre B sozinho e B-com-supressão-do-A nos mesmos dados. É um lembrete de que um modelo descartado ainda pode pagar o aluguel como filtro num modelo diferente.
O cap de tamanho também mexeu. Com o A fora do livro, o cap por trade caiu de 1.0 R para 0.6 R, porque B dispara com mais frequência e o notional do sleeve precisa estar limitado num cluster de B’s correlacionados, não só por trade.
A lição geral é desconfortável. Se você roda um modelo onde dá para graduar os próprios sinais - A até D, 1 até 5, como você quiser - o tier mais forte provavelmente não é o lugar para morar. O tier mais forte é o consenso, e o consenso é por definição a parte do movimento que já aconteceu. O tier seguinte para baixo - é onde a divergência mora, e a divergência - é onde o edge mora.
A mesma lógica quase certamente se aplica ao long sleeve, mas em outra escala temporal. O modelo de regime macro tem seu próprio análogo do A grade - momentos em que cada input concorda com um regime. Esses momentos também são quando o consenso está mais precificado. Estamos estudando se o alocador do sleeve deveria fazer o fade de leituras unânimes de regime em vez de seguir. Backtest preliminar é animador. Mais sobre isso quando tivermos um trimestre de dados forward.
- inite team
- 2026-04-10Como operamos níveis
Engine de zonas, confluência MTF, entrada limit em maker mode, sizing por Sharpe, overlay de funding. O lado intradiário, de ponta a ponta.
- 2026-05-03A engine de regime, em uma nota
O que está no coração do sleeve balanceado: um HMM de três estados sobre um vetor de observações escolhido a dedo, com tetos de exposição condicionais ao regime em vez de apostas condicionais ao regime.
- 2026-05-06Drawdown como acelerador, não freio
Por que o long sleeve corta risco em -8% - bem antes da banda-alvo de -15% - e por que o corte é parcial em vez de total. A matemática, a filosofia e os casos limítrofes que quebraram nossos três primeiros designs.