Mierzenie i optymalizacja edge'a

Wprowadzenie

Mierzenie edge'a oznacza ilościowe określenie — wraz z przedziałami ufności — czy Twoje wyniki na żywo różnią się od losowych. Optymalizacja edge'a to zmiana reguł w celu poprawy przyszłych wyników. Rób to w tej kolejności: strategia, której 95% przedział ufności dla wartości oczekiwanej (EV) wciąż przecina zero, nie jest jeszcze edge'em gotowym do optymalizacji.

Ta lekcja omawia minimalną wielkość próby potrzebną do wnioskowania, różnicę między pomiarem a optymalizacją, sparowany test A/B oddzielający realną poprawę od szumu oraz pułapki overfittingu, przez które większość "ulepszeń" znika poza próbą.

Wyjdziesz z:

Definicją zmierzonego edge'a i zoptymalizowanego edge'a
Regułami progowymi opartymi na przedziałach ufności, a nie na ludowej mądrości
Protokołem A/B z sparowanym bootstrapem do oceny zmian reguł
Listą kontrolną fałszywych pozytywów, dzięki której odróżnisz umiejętność od wariancji

Pomiar a optymalizacja

To dwie odrębne dyscypliny, które bywają mylone pod hasłem "ulepszanie". Wymagają przeciwstawnych nastawień.

Aspekt	Pomiar	Optymalizacja
Cel	Określić ilościowo pewność co do bieżącego edge'a	Poprawić przyszły edge
Ryzyko	Błąd wnioskowania typu I / typu II	Przeuczenie do szumu
Narzędzia	Bootstrapowe CI, testy t, walk-forward	Sparowane testy A/B, próby trzymane z boku
Nastawienie	Sceptyczne	Powściągliwe
Wymóg próby	n >= 200, by ograniczyć EV z dala od zera	n >= 300 sparowanych transakcji, by wykryć różnicę 0,1R
Kiedy stosować	Stale	Rzadko, jeden parametr na raz

Dlaczego pomiar wyprzedza optymalizację

Wariancja wyników transakcji jest duża w porównaniu z edge'em na transakcję. Typowa strategia o EV 0,3R ma odchylenie standardowe na transakcję rzędu 1R. Błąd standardowy średniej maleje z pierwiastkiem wielkości próby, więc:

Przy n = 50 95% CI dla EV wynosi z grubsza +/- 0,28R — dodatnia próba jest spójna z zerowym prawdziwym edge'em.
Przy n = 100 CI to mniej więcej +/- 0,20R — wciąż dość szeroki, by pomylić rzut monetą z edge'em.
Przy n = 400 CI wynosi około +/- 0,10R — dopiero teraz możesz wiarygodnie wykryć poprawę o 0,1R.

Dopóki Twój CI dla EV nie wyklucza zera, nie masz jeszcze zmierzonego edge'a. Strojenie parametrów przed tym punktem jest z definicji dopasowywaniem do szumu. (Zob. López de Prado, Advances in Financial Machine Learning, rozdz. 11–12, o przeuczeniu backtestów i deflowanym wskaźniku Sharpe'a.)

Krok 1: Potwierdź, że masz edge

Ten krok bazuje na lekcji Czym jest edge w tradingu i zakłada, że prowadziłeś dziennik tego samego setupu z tymi samymi regułami. Zanim zaczniesz mierzyć, powinieneś mieć:

Co najmniej 200 zalogowanych transakcji jednej strategii/setupu (poprzednia reguła "100 transakcji" jest zbyt mała, by ograniczyć EV z dala od zera przy typowych wielkościach efektu)
Jasno zdefiniowane wejście, stop i cel
Konsekwentne wykonanie z minimalnymi odchyleniami
Nietknięte dane out-of-sample — odłóż na bok najnowsze 30%, zanim policzysz jakikolwiek próg

Kluczowe metryki z wytycznymi co do wielkości próby

Każda metryka ma zakres wartości, które są wiarygodnie "dobre", oraz minimalną próbę, zanim ta wartość stanie się statystycznie istotna. Krótka lista metryk poniżej to zajawka do pogłębionego materiału w 17 najważniejszych metrykach tradingowych.

Metryka	Akceptowalny zakres	Min. n dla 95% CI	Częsta pułapka
Profit Factor	>1,3 z dolną granicą 95% CI z bootstrapu >1,0	>=200	Cytowanie sztywnego progu PF dla wszystkich stylów
Wartość oczekiwana (EV)	Dodatnia z CI ograniczonym z dala od 0	>=200	Ogłaszanie dodatniego EV z 50 transakcji
Win rate	Spójny z payoff (R:R)	>=100	Optymalizacja win rate bez sprawdzania payoff
Payoff (R:R)	Dopasowany do klasy strategii	>=100	Porównywanie R:R scalpera do R:R swing tradera
Max drawdown	W granicach Twojej tolerancji i CI	pełna próba	Traktowanie zrealizowanego MaxDD jako najgorszego przypadku

Dobry profit factor zależy od stylu. Scalper z >5 transakcji dziennie może być rentowny przy PF 1,1; swing trader z jedną transakcją tygodniowo zwykle potrzebuje PF >1,5, by uzasadnić czas. Carver, Systematic Trading, rozdz. 5, omawia to szczegółowo.

Krok 2: Zidentyfikuj słabe punkty za pomocą metryk

To są diagnostyczne tabele "nie-zmieniaj-jeszcze-niczego". Użyj ich, by ustalić, co zbadać, zanim cokolwiek zmienisz.

Słabość	Metryka, która ją ujawnia
Zbyt wczesne wyjścia	Wysoki MFE vs niska średnia wygrana
Zbyt szerokie stopy	Niski MAE vs duży zakres stop-loss
Overtrading lub przypadkowe wejścia	Niski win rate + niski EV
Zależność od outlierów	Jedna ogromna wygrana zawyża zysk netto
Problemy z kontrolą ryzyka	Duże straty > średnia strata

Te sygnały mówią Ci, co zbadać. Nie mówią jeszcze, co zmienić. Słabość zaznaczona tutaj staje się hipotezą-kandydatem do Kroku 3 — a nie zielonym światłem do strojenia.

Krok 3: Wprowadzaj zmiany we właściwy sposób (sparowane A/B + bootstrap)

Reguła "jedna zmiana na raz" jest słuszna, ale to dopiero pierwszy krok. Sparuj ją z testem statystycznym, bo inaczej będziesz nieustannie adoptować szum.

Jedna zmiana na raz. Zarejestruj hipotezę na piśmie, zanim spojrzysz na dane (np. "przesunięcie TP z 2R do 2,5R zwiększy EV o co najmniej 0,05R").
Prowadź jako sparowany log A/B. Dla każdego sygnału na żywo zapisuj dwa wirtualne wyjścia: bieżącą regułę i proponowaną. Śledź różnicę na transakcję (nowe − stare) w R.
Czekaj na >=300 sparowanych transakcji. Przy mniejszej liczbie sparowanych transakcji bootstrapowy 95% CI dla różnicy prawie zawsze przetnie zero.
Bootstrapuj rozkład różnic. Przepróbkuj różnice na transakcję 10 000 razy ze zwracaniem. Policz percentyle 2,5 i 97,5 średniej.
Adoptuj tylko, gdy oba warunki są spełnione: 95% CI dla (nowe − stare) wyklucza zero, oraz mediana różnicy przekracza 0,1R na transakcję.

Przykład: setup daje średnio 0,18R/transakcję, SD 1,2R, na 150 transakcjach. Proponowana reguła daje średnio 0,27R/transakcję na tych samych sygnałach. Sparowany 95% CI dla różnicy z bootstrapu = [−0,02, 0,21]. Werdykt: nie można odrzucić zera — zbieraj dalej sparowane dane, nie przełączaj na żywo.

Ten protokół jest wolniejszy, niż się wydaje, że powinien być. Taki jest sens. (Bailey, Borwein, López de Prado, Zhu (2014), "Pseudo-Mathematics and Financial Charlatanism", formalizują, jak strojenie parametrów zawyża pozorny edge, gdy ten protokół zostaje pominięty.)

Typowe błędy, których należy unikać

Wprowadzanie wielu zmian naraz
Wprowadzanie zmian w trakcie drawdownu (regresja do średniej udaje odbicie)
Wprowadzanie zmian w trakcie wygrywającej passy (regresja do średniej udaje rozpad edge'a)
Założenie, że jeden dobry tydzień = trwała poprawa
Strojenie systemu pod dane historyczne — patrz overfitting poniżej

Overfitting, mechanicznie

Każdy strojony parametr dodaje stopień swobody. Dostrój cztery parametry po osiem wartości każdy, a przeszukasz 4096 kombinacji. Najlepsza kombinacja w próbie będzie wyglądać świetnie czysto przypadkowo — nawet na danych losowych. Carver w Systematic Trading zaleca ograniczenie się do 3–5 reguł handlowych łącznie, by utrzymać karę za wielokrotne porównania w ryzach. Zarezerwuj ostatnie 30% rekordu transakcji jako nietknięte out-of-sample i przetestuj wybrane parametry tam dokładnie raz.

Problem fałszywych pozytywów

Jeśli przetestujesz 20 kandydujących korekt na standardowym poziomie ufności 95%, czysto przypadkowo oczekuj ~1 "istotnej" poprawy, nawet jeśli żadna naprawdę nie pomaga. To pułapka wielokrotnych porównań i właśnie dlatego większość detalicznych "optymalizacji" nie powtarza się poza próbą.

Trzy reguły, by zachować uczciwość wobec siebie:

Pre-rejestruj zmianę, którą zamierzasz testować, zanim spojrzysz na dane.
Zaostrz próg, gdy testowałeś kilka pomysłów. Jeśli rozważałeś 10 kandydujących zmian, użyj 99% CI zamiast 95%.
Waliduj na danych trzymanych z boku jeden raz. Nie testuj ponownie na tym samym zbiorze out-of-sample po porażce — zużyłeś go już do selekcji.

Co optymalizować jako pierwsze?

Trzymaj się tej kolejności priorytetów. Klasyfikuje ona elementy według oczekiwanego wpływu w stosunku do ryzyka overfittingu i wielkości próby potrzebnej do walidacji.

Element	Oczekiwany wpływ	Ryzyko overfittingu	Wielkość próby do walidacji
Umiejscowienie stopa	Duży	Średnie	~300 sparowanych transakcji
Timing wyjść	Duży	Średnio-wysokie	~300 sparowanych transakcji
Filtry wejścia	Średni	Wysokie (każdy filtr dodaje stopień swobody)	~400 sparowanych transakcji
Godziny tradingu	Średni	Niskie (zależne od reżimu)	~200 transakcji na sesję
Wielkość pozycji	Wariancja, nie EV	Niskie	pełna krzywa kapitału

Zachowaj nienaruszoną strukturę swojego core setupu. Udoskonalaj jedynie elementy wykonania — i tylko po tym, jak sparowany test A/B przejdzie pomyślnie.

Mierz dalej, nawet gdy wygrywasz

Największym błędem skutecznych traderów jest zatrzymanie pętli zwrotnej, gdy idzie dobrze. Trzymaj się harmonogramu ze stałym miesięcznym przeglądem.

Lista kontrolna miesięcznego przeglądu (30 minut)

Przelicz ponownie kroczące EV na 100, profit factor i max drawdown.
Porównaj każdą metrykę z poprzednim miesiącem. Zaznacz każdą metrykę poza jej 95% CI.
Otaguj 5 najgorszych transakcji i zaklasyfikuj każdy błąd: złamanie reguły, porażka setupu lub wariancja.
Zdecyduj na kolejny miesiąc: utrzymać wielkość, zmniejszyć o połowę albo wstrzymać trading.
Nie wprowadzaj nowych reguł w miesiącu przeglądu. Pre-rejestruj je do następnego przeglądu.

Celem przeglądu jest wczesne wychwycenie dryfu reżimu, a nie wymyślanie ulepszeń w locie.

FAQ

Ile transakcji potrzebuję, zanim potwierdzę, że mam edge w tradingu?

Zaplanuj co najmniej 200 transakcji, zanim potraktujesz próbę jako informatywną, a najlepiej 400+, zanim ogłosisz, że poprawa EV rzędu 0,1R jest realna. Użyj bootstrapowego przedziału ufności zamiast sztywnej reguły wielkości próby — właściwa liczba zależy od Twojego odchylenia standardowego na transakcję i wielkości efektu, który Cię interesuje.

Jaki profit factor wskazuje na dobrą strategię tradingową?

Nie ma jednej liczby. Scalper handlujący wielokrotnie w ciągu dnia może być rentowny przy profit factor 1,1, podczas gdy swing trader potrzebuje około 1,5+, by uzasadnić czas i ryzyko ogonowe. Uczciwy test to: zbootstrapuj listę transakcji i wymagaj, by dolna granica 95% CI dla profit factor przekraczała 1,0 na n>=200 transakcjach.

Skąd mam wiedzieć, czy optymalizuję, czy przeuczam?

Jeśli przetestowałeś wiele wariantów na tych samych danych i adoptowałeś najlepszy, przeuczasz, chyba że zwalidowałeś też na trzymanej z boku, nietkniętej próbie. Pre-rejestruj zmianę, uruchom sparowane A/B z bootstrapowymi CI i potwierdź na danych out-of-sample dokładnie raz. Jeśli te kroki zostały pominięte, potraktuj pozorną poprawę jako szum.

Czy powinienem wprowadzać zmiany w strategii tradingowej w trakcie drawdownu?

Nie. Drawdowny to moment, gdy błędy overfittingu i regresji do średniej są najbardziej prawdopodobne — nie wiesz, czy kandydująca zmiana jest naprawdę lepsza, czy oryginalna reguła zaraz wróci do średniej. Poczekaj, aż krzywa kapitału się ustabilizuje, potem uruchom protokół sparowanego A/B.

Co powinienem optymalizować jako pierwsze w mojej strategii tradingowej?

Priorytetyzuj umiejscowienie stopa i timing wyjść, ponieważ zwykle mają najwyższy oczekiwany wpływ przy umiarkowanym ryzyku overfittingu. Filtry wejścia i cięcia godzin tradingu są kolejne. Unikaj zmian w strukturze core setupu — udoskonalaj jedynie elementy wykonania i tylko po tym, jak sparowane A/B przejdzie pomyślnie.

Powiązane lekcje

Wymagana wcześniej: Czym jest edge w tradingu
Wymagana wcześniej: Dziennik dla rozwoju
Materiał referencyjny: 17 najważniejszych metryk tradingowych
Powiązane: Drawdowns i wariancja
Powiązane: Ryzyko na transakcję i wielkość pozycji

Bottom Line

Zmierzony edge to taki, którego 95% CI dla EV jest ograniczony z dala od zera. Zoptymalizowany edge to taki, którego proponowana zmiana pobiła bazę odniesienia na trzymanej z boku próbie, z pre-rejestrowaną hipotezą i sparowanym testem bootstrap.

Wszystko inne to opowiadanie historii o wariancji. Większość optymalizacji nie powtarza się poza próbą — dyscyplina polega na wprowadzaniu nielicznych zmian, rygorystycznym pomiarze i akceptacji, że większość tego, co spróbujesz, zostanie odrzucona. Doskonalenie to proces o niskiej częstotliwości i wysokiej konwikcji.