The Prisoner's Dilemma and Market Behavior
8 min czytania
Understand how crowd psychology, fear, and incentive structures fuel volatility and create exploitable market behavior.
8 min czytania
Understand how crowd psychology, fear, and incentive structures fuel volatility and create exploitable market behavior.
Dylemat więźnia w tradingu: jak indywidualnie racjonalna defekcja prowadzi do zbiorowo destrukcyjnych skutków — i dlaczego zatłoczone pozycje, short squeeze i kaskady zmiatania stopów mają tę samą strukturę wypłat.
Dylemat więźnia to model z teorii gier, w którym dwóch graczy ma strategię dominującą polegającą na defekcji, mimo że wzajemna kooperacja dałaby obu lepszy wynik. Na rynkach ta sama struktura pojawia się wszędzie tam, gdzie wyjście jest indywidualnie racjonalne, ale zbiorowo destrukcyjne — zatłoczone longi przed publikacją danych, short squeeze, runy na banki. Ta lekcja przekłada model na trading i pokazuje, co z tego przełożenia wynika praktycznie.
Bazując na myśleniu o sumie zerowej, jest to pierwsza struktura o sumie niezerowej, w której indywidualna racjonalność i dobro grupy się rozjeżdżają.
Dwóch podejrzanych jest przetrzymywanych w osobnych pokojach. Każdy może kooperować (milczeć) albo defektować (zeznawać przeciw drugiemu).
| Gracz A \ Gracz B | B kooperuje | B defektuje |
|---|---|---|
| A kooperuje | -1, -1 (R, R) | -3, 0 (S, T) |
| A defektuje | 0, -3 (T, S) | -2, -2 (P, P) |
Lata w więzieniu; mniej znaczy lepiej. Cztery wyniki są oznaczone według ich roli w teorii gier:
Gra jest ścisłym dylematem więźnia, gdy wypłaty spełniają T > R > P > S oraz 2R > T + S. Pierwsza nierówność czyni defekcję strategią dominującą — defekcja bije kooperację niezależnie od tego, co zrobi przeciwnik. Druga sprawia, że wzajemna kooperacja jest Pareto-lepsza od naprzemiennego wykorzystywania.
(Defekcja, Defekcja) to równowaga Nasha — żaden gracz nie zyskuje, jednostronnie zmieniając ruch. Ale jest to Pareto-suboptymalne: obaj gracze woleliby (Kooperacja, Kooperacja). Centralna obserwacja teorii gier brzmi: równowaga i dobrobyt to różne rzeczy — rynki respektują pierwsze, nie drugie. (Formalizacja zawdzięczana von Neumannowi i Morgensternowi, Theory of Games and Economic Behavior, 1944.)
Zagrana raz, defekcja wygrywa. Zagrana wielokrotnie z tymi samymi kontrahentami, obraz się zmienia.
W turniejach Roberta Axelroda z 1984 roku (The Evolution of Cooperation) strategią, która wygrywała w setkach pojedynków jeden na jeden, była tit-for-tat: kooperuj w pierwszym ruchu, potem powtarzaj to, co zrobił przeciwnik. Tit-for-tat jest miły (nigdy nie defektuje pierwszy), odwetowy (karze defekcję natychmiast), wybaczający (wraca do kooperacji, gdy przeciwnik wraca) i czytelny (łatwo go odczytać).
| Jednokrotny PD | Iterowany PD | |
|---|---|---|
| Strategia dominująca | Defekcja | Klasa tit-for-tat |
| Równowaga | (D, D) | Kooperacja może się wyłonić |
| Odpowiednik w tradingu | Paniczne wyjście | Trzymaj-i-odbudowuj relacje |
Rynki to gry powtarzane wśród zmieniających się populacji agentów — dlatego kooperacja (trzymanie pozycji, brak paniki) czasem przetrwa — i dlatego ujęcia jednokrotne przeszacowują, jak często tłum faktycznie defektuje.
Rynki to gry N-osobowe, o ciągłej przestrzeni strategii i z anonimowymi graczami — ścisły PD jest 2-osobowym modelem o akcjach binarnych. Traktuj to, co następuje, jako użyteczną metaforę dynamiki zatłoczonych pozycji, a nie dosłowną macierz wypłat. Metafora zarabia na siebie, gdy:
Runy na banki, short squeeze i zatłoczone longi przed znanym katalizatorem pasują. Większość zwykłego price action nie. (Diamond i Dybvig, 1983, sformalizowali argument run-jako-porażka-koordynacji, który jest najbliższym analogiem rynkowym.)
Konsolidacja się zacieśnia. Każdy long zgadza się, że dolny swing low to właściwy stop. Ten wspólny stop jest teraz macierzą wypłat — pierwszy, który zamknie pozycję, unika knota, ale jeśli nikt nie zamknie, nic się nie dzieje. Knot jest wynikiem (Defekcja, Defekcja). Wiedząc o tym, nie ustawiasz stopu tam, gdzie wszyscy inni.
Short squeeze jest mniej więcej tak blisko podręcznikowego PD, jak rynki w ogóle bywają. Każdy krótki zyskuje, gdy nikt nie pokrywa, ale każdy krótki indywidualnie zyskuje na pokryciu przed innymi. Obserwowanie krótkich tłoczących się przy poziomie to obserwowanie więźniów piszących własne zeznania. Squeeze odpala, gdy pierwszy defektor łamie równowagę.
Każde to kaskada defekcji wywołana przez indywidualnie racjonalnych agentów działających na tej samej informacji.
Okazja o kształcie PD ma trzy obserwowalne odciski palca:
Jeśli wszystkie trzy są spełnione, gracz o strategii dominującej wychodzi pierwszy. Twoim zadaniem jest być tym pierwszym albo fadować kaskadę po panice — i zostawać poza rynkiem, gdy te trzy odciski palca nie są obecne. Bez nich obstawiasz metaforę.
Gdy potrafisz dostrzec kształt PD, operacyjną postacią jest myślenie adwersaryjne. Zapytaj:
Potem rozważ, czy przeciwny trade ma dodatnią wartość oczekiwaną (EV) po slippage i po uwzględnieniu wielu sytuacji, w których tłum ma rację, a trend trwa. „Fade tłumu" to heurystyka z realnym wskaźnikiem fałszywych sygnałów, nie reguła. Rynki potrafią pozostawać zatłoczone dłużej niż ty wypłacalny.
| Setup | Warunek PD, który musi być spełniony | Typowy tryb porażki |
|---|---|---|
| Sweep + reclaim | Tłum używa jednego poziomu stopu pod ceną | Późna absorpcja — sweep trwa dalej |
| Breakout-fade | Retail zalewa jeden kierunek na znanym poziomie | Trend trwa; „fade" zostaje zmiażdżony |
| Pułapka → konsolidacja → pułapka | Dwustronne tłoczenie wokół zakresu | Zakres się rozszerza zamiast kompresować |
Nie przewidujesz ceny. Przewidujesz, co zrobi mierzalny podzbiór agentów pod presją — i sizujesz pozycję pod prawdopodobieństwo, że się mylisz.
Trzy tryby porażki przy stosowaniu PD do rynków:
T > R > P > S, to nie jest PD — to po prostu popularny trade.Najczystszy sygnał, że rozumowanie PD zawodzi: nie ma wspólnego punktu koordynacji, katalizator jest nieznany albo rozłożony w czasie, albo dostawcy płynności absorbują niezbalansowanie, zanim się propaguje. W każdym z tych przypadków „fade tłumu" to rzut monetą ubrany w teorię gier.
Nie. Ścisły PD to gra 2-osobowa, o akcjach binarnych, jednokrotna i z symetryczną informacją; rynki są N-osobowe, o ciągłej przestrzeni strategii, powtarzane i z asymetryczną informacją. PD jest użyteczną metaforą zatłoczonych pozycji, które dzielą punkt koordynacji, wspólny bodziec wyjścia i bliski katalizator — nie opisem price action w ogólności.
Tit-for-tat to strategia w iterowanym PD, spopularyzowana przez turnieje Axelroda z 1984 roku: kooperuj w pierwszym ruchu, a potem w każdym kolejnym ruchu rób to, co przeciwnik zrobił ostatnio. Jest miła, odwetowa, wybaczająca i czytelna — i bije znacznie bardziej wyrafinowane strategie w grach powtarzanych, bo podtrzymuje kooperację, jednocześnie karząc defekcję.
Bo każdy uczestnik indywidualnie zyskuje na wyjściu przed innymi, a bliski katalizator wymusza decyzję. Nikt nie zamierza stworzyć pułapki; indywidualnie racjonalny wybór każdego — defektować pierwszy, przed innymi — produkuje zbiorową utratę edge. To wynik (Defekcja, Defekcja) widoczny na wykresie.
Gdy struktura wypłat nie spełnia T > R > P > S, gdy nie ma wspólnego punktu koordynacji, gdy katalizator jest nieznany albo rozłożony w czasie, albo gdy dostawcy płynności po cichu absorbują niezbalansowanie. W tych warunkach trade „fade tłumu" nie ma edge'u — dylematu po prostu nie ma.
Dylemat więźnia uczy, że rynek nie porusza się dlatego, że wszyscy się mylą. Porusza się, bo każdy próbuje mieć rację — w strachu, że inni będą mieli rację pierwsi. Ten konflikt jest miejscem, w którym rodzi się i ginie edge.
Dalej: Równowaga Nasha i brak arbitrażu formalizuje pojęcie równowagi wprowadzone tutaj, a myślenie adwersaryjne zamienia ten model w selekcję tradów.