← Notas
Por que deletamos os sinais grade A
strategy·trading·execution·research

Por que deletamos os sinais grade A

Contraintuitivo: tirar os setups mais fortes do livro intradiário deixou o sleeve mais lucrativo, mais estável e mais fácil de dimensionar. Os dados de comparação e o raciocínio a que chegamos depois de um ano rodando A e B lado a lado.

· Mikhail Savchenko · Atualizado

Nos primeiros dezoito meses do sleeve intradiário - cuja forma mais ampla está em como operamos níveis - rodamos um modelo de confluência com gradação em três níveis: A, B e C. Cada nível era uma combinação de sinais que tinham que se alinhar no nível - acordo multi-timeframe, volume profile, contexto de estrutura de mercado, postura de funding. A significava “todos concordam fortemente”. B significava “a maioria concorda, com uma divergência leve”. C era exploratório e nunca operou ao vivo.

A intuição era difícil de contestar. Grade A é mais raro, mais limpo, mais convicto; você esperaria win rate maior, R médio mais gordo e drawdown mais quieto. Foi exatamente isso que esperávamos no começo.

Por três trimestres rodamos A e B lado a lado, ambos ao vivo, ambos em tamanho pequeno. Mesmo conjunto de instrumentos, mesma stack de execução, mesma lógica de saída. Só o filtro de entrada diferia. No fim do terceiro trimestre, a planilha estava assim:

Grade AGrade B
Operações / 90d~14~78
Win rate52.9%54.8%
Avg R / trade+0.21+0.18
Stddev R0.940.71
90d R total+2.9+14.0
Max drawdown-3.4 R-2.1 R

O A tinha um R médio um pouco mais gordo e um win rate ligeiramente pior, mas o número que incomodava era o desvio padrão. A variância por trade do A era 33% mais ampla que a do B, em 18% da cadência. Quando você compõe isso ao longo de um trimestre, A é mais barulhento, mais lento e termina com o pior Sharpe dos dois. Tiramos o A do livro ao vivo no trimestre seguinte.

A primeira explicação que consideramos e descartamos foi o poder estatístico. Grade A te dá ~14 operações por trimestre - não é o suficiente para sizing com confiança. O sizer Sharpe-weighted precisa de algumas dezenas de observações para os pesos estabilizarem. Só com A, o sizing estava sempre atrasando o regime em duas a três semanas; com B e ~78 operações, o sizer ficava normalmente dentro de uma semana do ótimo. Isso a gente esperava; isso, sozinho, não explica o gap de variância.

A segunda explicação explica. Sinais A se aglomeram. Quando a tape macro se alinha, você recebe três entradas A em ativos correlacionados em poucas horas. O portfolio acha que tem três edges independentes; na verdade tem um edge expresso três vezes. Drawdowns no A eram sempre mais agudos que no B exatamente por isso - quando o driver compartilhado ia contra, as três posições perdiam ao mesmo tempo. As trades B disparam de forma mais constante numa janela mais ampla e não se agrupam do mesmo jeito.

A terceira explicação é a que levou um ano para a gente admitir para si mesmo: a vantagem informacional vive na divergência. A é “tudo concorda”, o que por definição é o consenso. B é “a maioria concorda, com uma divergência leve” - e a divergência é a parte da operação que ainda não está precificada no consenso. As trades B que dão certo dão certo porque a divergência era a verdade e o consenso era a multidão. O B tem mais upside condicional a estar certo, porque estar certo no B significa que a multidão estava errada. As trades A que dão certo dão certo porque o consenso estava certo - o que tudo bem, exceto pelo fato de que o consenso já moveu o preço antes da gente chegar lá.

Deixamos a maquinaria de grading no lugar. Só paramos de operar A. O grader continua calculando A; usamos como sinal de supressão - quando um grade A dispara, as entradas B naquele instrumento são puladas pelas próximas quatro horas, porque o consenso já se moveu. Essa supressão vale uns +0.04 R em média por trade pulado, a diferença entre B sozinho e B-com-supressão-do-A nos mesmos dados. É um lembrete de que um modelo descartado ainda pode pagar o aluguel como filtro num modelo diferente.

O cap de tamanho também mexeu. Com o A fora do livro, o cap por trade caiu de 1.0 R para 0.6 R, porque B dispara com mais frequência e o notional do sleeve precisa estar limitado num cluster de B’s correlacionados, não só por trade.

A lição geral é desconfortável. Se você roda um modelo onde dá para graduar os próprios sinais - A até D, 1 até 5, como você quiser - o tier mais forte provavelmente não é o lugar para morar. O tier mais forte é o consenso, e o consenso é por definição a parte do movimento que já aconteceu. O tier seguinte para baixo - é onde a divergência mora, e a divergência - é onde o edge mora.

A mesma lógica quase certamente se aplica ao long sleeve, mas em outra escala temporal. O modelo de regime macro tem seu próprio análogo do A grade - momentos em que cada input concorda com um regime. Esses momentos também são quando o consenso está mais precificado. Estamos estudando se o alocador do sleeve deveria fazer o fade de leituras unânimes de regime em vez de seguir. Backtest preliminar é animador. Mais sobre isso quando tivermos um trimestre de dados forward.

  • inite team
Notas relacionadas
Todas as notas →