Mierzenie i optymalizacja edge'a
8 min czytania
Jak mierzyć swój edge w czasie i optymalizować go bez wpadania w pułapkę overfittingu.
8 min czytania
Jak mierzyć swój edge w czasie i optymalizować go bez wpadania w pułapkę overfittingu.
Mierzenie edge'a oznacza ilościowe określenie — wraz z przedziałami ufności — czy Twoje wyniki na żywo różnią się od losowych. Optymalizacja edge'a to zmiana reguł w celu poprawy przyszłych wyników. Rób to w tej kolejności: strategia, której 95% przedział ufności dla wartości oczekiwanej (EV) wciąż przecina zero, nie jest jeszcze edge'em gotowym do optymalizacji.
Ta lekcja omawia minimalną wielkość próby potrzebną do wnioskowania, różnicę między pomiarem a optymalizacją, sparowany test A/B oddzielający realną poprawę od szumu oraz pułapki overfittingu, przez które większość "ulepszeń" znika poza próbą.
Wyjdziesz z:
To dwie odrębne dyscypliny, które bywają mylone pod hasłem "ulepszanie". Wymagają przeciwstawnych nastawień.
| Aspekt | Pomiar | Optymalizacja |
|---|---|---|
| Cel | Określić ilościowo pewność co do bieżącego edge'a | Poprawić przyszły edge |
| Ryzyko | Błąd wnioskowania typu I / typu II | Przeuczenie do szumu |
| Narzędzia | Bootstrapowe CI, testy t, walk-forward | Sparowane testy A/B, próby trzymane z boku |
| Nastawienie | Sceptyczne | Powściągliwe |
| Wymóg próby | n >= 200, by ograniczyć EV z dala od zera | n >= 300 sparowanych transakcji, by wykryć różnicę 0,1R |
| Kiedy stosować | Stale | Rzadko, jeden parametr na raz |
Wariancja wyników transakcji jest duża w porównaniu z edge'em na transakcję. Typowa strategia o EV 0,3R ma odchylenie standardowe na transakcję rzędu 1R. Błąd standardowy średniej maleje z pierwiastkiem wielkości próby, więc:
Dopóki Twój CI dla EV nie wyklucza zera, nie masz jeszcze zmierzonego edge'a. Strojenie parametrów przed tym punktem jest z definicji dopasowywaniem do szumu. (Zob. López de Prado, Advances in Financial Machine Learning, rozdz. 11–12, o przeuczeniu backtestów i deflowanym wskaźniku Sharpe'a.)
Ten krok bazuje na lekcji Czym jest edge w tradingu i zakłada, że prowadziłeś dziennik tego samego setupu z tymi samymi regułami. Zanim zaczniesz mierzyć, powinieneś mieć:
Każda metryka ma zakres wartości, które są wiarygodnie "dobre", oraz minimalną próbę, zanim ta wartość stanie się statystycznie istotna. Krótka lista metryk poniżej to zajawka do pogłębionego materiału w 17 najważniejszych metrykach tradingowych.
| Metryka | Akceptowalny zakres | Min. n dla 95% CI | Częsta pułapka |
|---|---|---|---|
| Profit Factor | >1,3 z dolną granicą 95% CI z bootstrapu >1,0 | >=200 | Cytowanie sztywnego progu PF dla wszystkich stylów |
| Wartość oczekiwana (EV) | Dodatnia z CI ograniczonym z dala od 0 | >=200 | Ogłaszanie dodatniego EV z 50 transakcji |
| Win rate | Spójny z payoff (R:R) | >=100 | Optymalizacja win rate bez sprawdzania payoff |
| Payoff (R:R) | Dopasowany do klasy strategii | >=100 | Porównywanie R:R scalpera do R:R swing tradera |
| Max drawdown | W granicach Twojej tolerancji i CI | pełna próba | Traktowanie zrealizowanego MaxDD jako najgorszego przypadku |
Dobry profit factor zależy od stylu. Scalper z >5 transakcji dziennie może być rentowny przy PF 1,1; swing trader z jedną transakcją tygodniowo zwykle potrzebuje PF >1,5, by uzasadnić czas. Carver, Systematic Trading, rozdz. 5, omawia to szczegółowo.
To są diagnostyczne tabele "nie-zmieniaj-jeszcze-niczego". Użyj ich, by ustalić, co zbadać, zanim cokolwiek zmienisz.
| Słabość | Metryka, która ją ujawnia |
|---|---|
| Zbyt wczesne wyjścia | Wysoki MFE vs niska średnia wygrana |
| Zbyt szerokie stopy | Niski MAE vs duży zakres stop-loss |
| Overtrading lub przypadkowe wejścia | Niski win rate + niski EV |
| Zależność od outlierów | Jedna ogromna wygrana zawyża zysk netto |
| Problemy z kontrolą ryzyka | Duże straty > średnia strata |
Te sygnały mówią Ci, co zbadać. Nie mówią jeszcze, co zmienić. Słabość zaznaczona tutaj staje się hipotezą-kandydatem do Kroku 3 — a nie zielonym światłem do strojenia.
Reguła "jedna zmiana na raz" jest słuszna, ale to dopiero pierwszy krok. Sparuj ją z testem statystycznym, bo inaczej będziesz nieustannie adoptować szum.
Przykład: setup daje średnio 0,18R/transakcję, SD 1,2R, na 150 transakcjach. Proponowana reguła daje średnio 0,27R/transakcję na tych samych sygnałach. Sparowany 95% CI dla różnicy z bootstrapu = [−0,02, 0,21]. Werdykt: nie można odrzucić zera — zbieraj dalej sparowane dane, nie przełączaj na żywo.
Ten protokół jest wolniejszy, niż się wydaje, że powinien być. Taki jest sens. (Bailey, Borwein, López de Prado, Zhu (2014), "Pseudo-Mathematics and Financial Charlatanism", formalizują, jak strojenie parametrów zawyża pozorny edge, gdy ten protokół zostaje pominięty.)
Każdy strojony parametr dodaje stopień swobody. Dostrój cztery parametry po osiem wartości każdy, a przeszukasz 4096 kombinacji. Najlepsza kombinacja w próbie będzie wyglądać świetnie czysto przypadkowo — nawet na danych losowych. Carver w Systematic Trading zaleca ograniczenie się do 3–5 reguł handlowych łącznie, by utrzymać karę za wielokrotne porównania w ryzach. Zarezerwuj ostatnie 30% rekordu transakcji jako nietknięte out-of-sample i przetestuj wybrane parametry tam dokładnie raz.
Jeśli przetestujesz 20 kandydujących korekt na standardowym poziomie ufności 95%, czysto przypadkowo oczekuj ~1 "istotnej" poprawy, nawet jeśli żadna naprawdę nie pomaga. To pułapka wielokrotnych porównań i właśnie dlatego większość detalicznych "optymalizacji" nie powtarza się poza próbą.
Trzy reguły, by zachować uczciwość wobec siebie:
Trzymaj się tej kolejności priorytetów. Klasyfikuje ona elementy według oczekiwanego wpływu w stosunku do ryzyka overfittingu i wielkości próby potrzebnej do walidacji.
| Element | Oczekiwany wpływ | Ryzyko overfittingu | Wielkość próby do walidacji |
|---|---|---|---|
| Umiejscowienie stopa | Duży | Średnie | ~300 sparowanych transakcji |
| Timing wyjść | Duży | Średnio-wysokie | ~300 sparowanych transakcji |
| Filtry wejścia | Średni | Wysokie (każdy filtr dodaje stopień swobody) | ~400 sparowanych transakcji |
| Godziny tradingu | Średni | Niskie (zależne od reżimu) | ~200 transakcji na sesję |
| Wielkość pozycji | Wariancja, nie EV | Niskie | pełna krzywa kapitału |
Zachowaj nienaruszoną strukturę swojego core setupu. Udoskonalaj jedynie elementy wykonania — i tylko po tym, jak sparowany test A/B przejdzie pomyślnie.
Największym błędem skutecznych traderów jest zatrzymanie pętli zwrotnej, gdy idzie dobrze. Trzymaj się harmonogramu ze stałym miesięcznym przeglądem.
Celem przeglądu jest wczesne wychwycenie dryfu reżimu, a nie wymyślanie ulepszeń w locie.
Zaplanuj co najmniej 200 transakcji, zanim potraktujesz próbę jako informatywną, a najlepiej 400+, zanim ogłosisz, że poprawa EV rzędu 0,1R jest realna. Użyj bootstrapowego przedziału ufności zamiast sztywnej reguły wielkości próby — właściwa liczba zależy od Twojego odchylenia standardowego na transakcję i wielkości efektu, który Cię interesuje.
Nie ma jednej liczby. Scalper handlujący wielokrotnie w ciągu dnia może być rentowny przy profit factor 1,1, podczas gdy swing trader potrzebuje około 1,5+, by uzasadnić czas i ryzyko ogonowe. Uczciwy test to: zbootstrapuj listę transakcji i wymagaj, by dolna granica 95% CI dla profit factor przekraczała 1,0 na n>=200 transakcjach.
Jeśli przetestowałeś wiele wariantów na tych samych danych i adoptowałeś najlepszy, przeuczasz, chyba że zwalidowałeś też na trzymanej z boku, nietkniętej próbie. Pre-rejestruj zmianę, uruchom sparowane A/B z bootstrapowymi CI i potwierdź na danych out-of-sample dokładnie raz. Jeśli te kroki zostały pominięte, potraktuj pozorną poprawę jako szum.
Nie. Drawdowny to moment, gdy błędy overfittingu i regresji do średniej są najbardziej prawdopodobne — nie wiesz, czy kandydująca zmiana jest naprawdę lepsza, czy oryginalna reguła zaraz wróci do średniej. Poczekaj, aż krzywa kapitału się ustabilizuje, potem uruchom protokół sparowanego A/B.
Priorytetyzuj umiejscowienie stopa i timing wyjść, ponieważ zwykle mają najwyższy oczekiwany wpływ przy umiarkowanym ryzyku overfittingu. Filtry wejścia i cięcia godzin tradingu są kolejne. Unikaj zmian w strukturze core setupu — udoskonalaj jedynie elementy wykonania i tylko po tym, jak sparowane A/B przejdzie pomyślnie.
Powiązane lekcje
Zmierzony edge to taki, którego 95% CI dla EV jest ograniczony z dala od zera. Zoptymalizowany edge to taki, którego proponowana zmiana pobiła bazę odniesienia na trzymanej z boku próbie, z pre-rejestrowaną hipotezą i sparowanym testem bootstrap.
Wszystko inne to opowiadanie historii o wariancji. Większość optymalizacji nie powtarza się poza próbą — dyscyplina polega na wprowadzaniu nielicznych zmian, rygorystycznym pomiarze i akceptacji, że większość tego, co spróbujesz, zostanie odrzucona. Doskonalenie to proces o niskiej częstotliwości i wysokiej konwikcji.