The Prisoner's Dilemma and Market Behavior

Dylemat więźnia w tradingu: jak indywidualnie racjonalna defekcja prowadzi do zbiorowo destrukcyjnych skutków — i dlaczego zatłoczone pozycje, short squeeze i kaskady zmiatania stopów mają tę samą strukturę wypłat.

Czym jest dylemat więźnia?

Dylemat więźnia to model z teorii gier, w którym dwóch graczy ma strategię dominującą polegającą na defekcji, mimo że wzajemna kooperacja dałaby obu lepszy wynik. Na rynkach ta sama struktura pojawia się wszędzie tam, gdzie wyjście jest indywidualnie racjonalne, ale zbiorowo destrukcyjne — zatłoczone longi przed publikacją danych, short squeeze, runy na banki. Ta lekcja przekłada model na trading i pokazuje, co z tego przełożenia wynika praktycznie.

Bazując na myśleniu o sumie zerowej, jest to pierwsza struktura o sumie niezerowej, w której indywidualna racjonalność i dobro grupy się rozjeżdżają.

Klasyczna konstrukcja

Dwóch podejrzanych jest przetrzymywanych w osobnych pokojach. Każdy może kooperować (milczeć) albo defektować (zeznawać przeciw drugiemu).

Gracz A \ Gracz B	B kooperuje	B defektuje
A kooperuje	-1, -1 (R, R)	-3, 0 (S, T)
A defektuje	0, -3 (T, S)	-2, -2 (P, P)

Lata w więzieniu; mniej znaczy lepiej. Cztery wyniki są oznaczone według ich roli w teorii gier:

T = Pokusa (defekcja, gdy przeciwnik kooperuje → wychodzisz wolny)
R = Nagroda (wzajemna kooperacja → 1 rok każdy)
P = Kara (wzajemna defekcja → 2 lata każdy)
S = Frajer (kooperacja, gdy przeciwnik defektuje → 3 lata)

Gra jest ścisłym dylematem więźnia, gdy wypłaty spełniają T > R > P > S oraz 2R > T + S. Pierwsza nierówność czyni defekcję strategią dominującą — defekcja bije kooperację niezależnie od tego, co zrobi przeciwnik. Druga sprawia, że wzajemna kooperacja jest Pareto-lepsza od naprzemiennego wykorzystywania.

Dlaczego ta równowaga jest zła

(Defekcja, Defekcja) to równowaga Nasha — żaden gracz nie zyskuje, jednostronnie zmieniając ruch. Ale jest to Pareto-suboptymalne: obaj gracze woleliby (Kooperacja, Kooperacja). Centralna obserwacja teorii gier brzmi: równowaga i dobrobyt to różne rzeczy — rynki respektują pierwsze, nie drugie. (Formalizacja zawdzięczana von Neumannowi i Morgensternowi, Theory of Games and Economic Behavior, 1944.)

Iterowany PD: most do rynków

Zagrana raz, defekcja wygrywa. Zagrana wielokrotnie z tymi samymi kontrahentami, obraz się zmienia.

W turniejach Roberta Axelroda z 1984 roku (The Evolution of Cooperation) strategią, która wygrywała w setkach pojedynków jeden na jeden, była tit-for-tat: kooperuj w pierwszym ruchu, potem powtarzaj to, co zrobił przeciwnik. Tit-for-tat jest miły (nigdy nie defektuje pierwszy), odwetowy (karze defekcję natychmiast), wybaczający (wraca do kooperacji, gdy przeciwnik wraca) i czytelny (łatwo go odczytać).

	Jednokrotny PD	Iterowany PD
Strategia dominująca	Defekcja	Klasa tit-for-tat
Równowaga	(D, D)	Kooperacja może się wyłonić
Odpowiednik w tradingu	Paniczne wyjście	Trzymaj-i-odbudowuj relacje

Rynki to gry powtarzane wśród zmieniających się populacji agentów — dlatego kooperacja (trzymanie pozycji, brak paniki) czasem przetrwa — i dlatego ujęcia jednokrotne przeszacowują, jak często tłum faktycznie defektuje.

Paralela rynkowa — i jej granice

Rynki to gry N-osobowe, o ciągłej przestrzeni strategii i z anonimowymi graczami — ścisły PD jest 2-osobowym modelem o akcjach binarnych. Traktuj to, co następuje, jako użyteczną metaforę dynamiki zatłoczonych pozycji, a nie dosłowną macierz wypłat. Metafora zarabia na siebie, gdy:

Wyjście jest strategią dominującą jeśli inni wychodzą
Wszyscy-trzymający dają zbiorowo lepszy wynik niż wszyscy-wychodzący
Istnieje wspólny punkt koordynacji (poziom, stop, wydarzenie)

Runy na banki, short squeeze i zatłoczone longi przed znanym katalizatorem pasują. Większość zwykłego price action nie. (Diamond i Dybvig, 1983, sformalizowali argument run-jako-porażka-koordynacji, który jest najbliższym analogiem rynkowym.)

Praktyczny przykład: pułapka wspólnego stopu

Konsolidacja się zacieśnia. Każdy long zgadza się, że dolny swing low to właściwy stop. Ten wspólny stop jest teraz macierzą wypłat — pierwszy, który zamknie pozycję, unika knota, ale jeśli nikt nie zamknie, nic się nie dzieje. Knot jest wynikiem (Defekcja, Defekcja). Wiedząc o tym, nie ustawiasz stopu tam, gdzie wszyscy inni.

Short squeeze jako niemal czysty PD

Short squeeze jest mniej więcej tak blisko podręcznikowego PD, jak rynki w ogóle bywają. Każdy krótki zyskuje, gdy nikt nie pokrywa, ale każdy krótki indywidualnie zyskuje na pokryciu przed innymi. Obserwowanie krótkich tłoczących się przy poziomie to obserwowanie więźniów piszących własne zeznania. Squeeze odpala, gdy pierwszy defektor łamie równowagę.

Trzy kaskady, które trader rozpozna

Wszyscy realizują zysk wcześnie przy tym samym celu → ruch zatrzymuje się przed nim
Wszyscy kupują ten sam poziom breakout → breakout robi fake-out
Wszyscy zaciskają stopy przy tym samym swingu → małe knoty wyrzucają ich wszystkich

Każde to kaskada defekcji wywołana przez indywidualnie racjonalnych agentów działających na tej samej informacji.

Rozpoznawanie tradu o kształcie PD

Okazja o kształcie PD ma trzy obserwowalne odciski palca:

Zatłoczone pozycjonowanie widoczne w funding rates, open interest, ankietach sentymentu albo odczytach asymetrii informacji
Wspólny poziom cenowy używany przez wszystkich jako ten sam stop, cel albo poziom unieważnienia
Bliski katalizator (CPI, FOMC, wyniki, wygaśnięcie) wymuszający okno decyzji

Jeśli wszystkie trzy są spełnione, gracz o strategii dominującej wychodzi pierwszy. Twoim zadaniem jest być tym pierwszym albo fadować kaskadę po panice — i zostawać poza rynkiem, gdy te trzy odciski palca nie są obecne. Bez nich obstawiasz metaforę.

Trading przeciw pętlom motywacyjnym tłumu

Gdy potrafisz dostrzec kształt PD, operacyjną postacią jest myślenie adwersaryjne. Zapytaj:

Kto ma motywację, by zamknąć pozycję wcześnie?
Kto desperacko chce uniknąć straty?
Kto myśli, że wszyscy inni zrobią X?

Potem rozważ, czy przeciwny trade ma dodatnią wartość oczekiwaną (EV) po slippage i po uwzględnieniu wielu sytuacji, w których tłum ma rację, a trend trwa. „Fade tłumu" to heurystyka z realnym wskaźnikiem fałszywych sygnałów, nie reguła. Rynki potrafią pozostawać zatłoczone dłużej niż ty wypłacalny.

Archetypy setupów (z warunkami)

Setup	Warunek PD, który musi być spełniony	Typowy tryb porażki
Sweep + reclaim	Tłum używa jednego poziomu stopu pod ceną	Późna absorpcja — sweep trwa dalej
Breakout-fade	Retail zalewa jeden kierunek na znanym poziomie	Trend trwa; „fade" zostaje zmiażdżony
Pułapka → konsolidacja → pułapka	Dwustronne tłoczenie wokół zakresu	Zakres się rozszerza zamiast kompresować

Nie przewidujesz ceny. Przewidujesz, co zrobi mierzalny podzbiór agentów pod presją — i sizujesz pozycję pod prawdopodobieństwo, że się mylisz.

Kiedy analogia PD się załamuje

Trzy tryby porażki przy stosowaniu PD do rynków:

Nazywanie każdego zatłoczonego trade'u dylematem PD bez sprawdzenia, że defekcja dominuje nad kooperacją. Jeśli wypłaty nie spełniają T > R > P > S, to nie jest PD — to po prostu popularny trade.
Ignorowanie iteracji. Większość interakcji rynkowych jest powtarzana; zachowania klasy tit-for-tat tłumią defekcję w normalnych reżimach.
Traktowanie „tłumu" jako jednego gracza, podczas gdy w rzeczywistości heterogeniczni agenci (HFT, fundusze, retail, market makerzy) mierzą się z różnymi macierzami wypłat i defektują na różnych sygnałach.

Najczystszy sygnał, że rozumowanie PD zawodzi: nie ma wspólnego punktu koordynacji, katalizator jest nieznany albo rozłożony w czasie, albo dostawcy płynności absorbują niezbalansowanie, zanim się propaguje. W każdym z tych przypadków „fade tłumu" to rzut monetą ubrany w teorię gier.

FAQ

Czy rynki są dosłownym dylematem więźnia?

Nie. Ścisły PD to gra 2-osobowa, o akcjach binarnych, jednokrotna i z symetryczną informacją; rynki są N-osobowe, o ciągłej przestrzeni strategii, powtarzane i z asymetryczną informacją. PD jest użyteczną metaforą zatłoczonych pozycji, które dzielą punkt koordynacji, wspólny bodziec wyjścia i bliski katalizator — nie opisem price action w ogólności.

Czym jest tit-for-tat?

Tit-for-tat to strategia w iterowanym PD, spopularyzowana przez turnieje Axelroda z 1984 roku: kooperuj w pierwszym ruchu, a potem w każdym kolejnym ruchu rób to, co przeciwnik zrobił ostatnio. Jest miła, odwetowa, wybaczająca i czytelna — i bije znacznie bardziej wyrafinowane strategie w grach powtarzanych, bo podtrzymuje kooperację, jednocześnie karząc defekcję.

Dlaczego zatłoczone pozycje się załamują?

Bo każdy uczestnik indywidualnie zyskuje na wyjściu przed innymi, a bliski katalizator wymusza decyzję. Nikt nie zamierza stworzyć pułapki; indywidualnie racjonalny wybór każdego — defektować pierwszy, przed innymi — produkuje zbiorową utratę edge. To wynik (Defekcja, Defekcja) widoczny na wykresie.

Kiedy rozumowanie PD zawodzi na rynkach?

Gdy struktura wypłat nie spełnia T > R > P > S, gdy nie ma wspólnego punktu koordynacji, gdy katalizator jest nieznany albo rozłożony w czasie, albo gdy dostawcy płynności po cichu absorbują niezbalansowanie. W tych warunkach trade „fade tłumu" nie ma edge'u — dylematu po prostu nie ma.

Co dalej

Dylemat więźnia uczy, że rynek nie porusza się dlatego, że wszyscy się mylą. Porusza się, bo każdy próbuje mieć rację — w strachu, że inni będą mieli rację pierwsi. Ten konflikt jest miejscem, w którym rodzi się i ginie edge.

Naucz się widzieć pętle strachu.
Potwierdź trzy odciski palca, zanim zadziałasz.
Wchodź, gdy tłum wyczerpuje się, próbując uniknąć bólu — i stój z boku, gdy struktura nie ma kształtu PD.

Dalej: Równowaga Nasha i brak arbitrażu formalizuje pojęcie równowagi wprowadzone tutaj, a myślenie adwersaryjne zamienia ten model w selekcję tradów.