Model wyboru binarnego zakłada zmienną ukrytą Un, użyteczność (lub korzyść netto), którą osoba n uzyskuje z podjęcia działania (w przeciwieństwie do niepodjęcia działania). Użyteczność, jaką osoba uzyskuje z podjęcia działania, zależy od jej cech, z których część jest obserwowana przez badacza, a część nie:
U n = β ⋅ s n + ε n {{displaysymbol U_{n}}= {{boldsymbol {{beta }}} +varepsilon _{n}}
gdzie β {{displaystyle {{boldsymbol {{beta}}}
jest zbiorem współczynników regresji, a s n {{displaystyle {{mathbf {s_{n}} }
jest zbiorem zmiennych niezależnych (zwanych również „cechami”) opisujących osobę n, które mogą być dyskretnymi „zmiennymi dummy” lub zwykłymi zmiennymi ciągłymi. ε n {displaystyle \varepsilon _{n}}
jest zmienną losową określającą „szum” lub „błąd” w przewidywaniach, z założenia rozkładającą się zgodnie z jakimś rozkładem. Zazwyczaj, jeśli istnieje parametr średniej lub wariancji w rozkładzie, nie można go zidentyfikować, więc parametry są ustawione na dogodne wartości – umownie zazwyczaj średnia 0, wariancja 1.
Osoba podejmuje działanie, yn = 1, jeśli Un > 0. Zakłada się, że nieobserwowany składnik, εn, ma rozkład logistyczny.
Specyfikacja jest zapisana zwięźle jako:
-
- Un = βsn + εn
- Y n = { 1 , jeśli U n > 0 , 0 , if U n ≤ 0 {{displaystyle Y_{n}={{begin{cases}1,&{tekst{if}U_{n}>0,&{tekst{if}U_{n}}leq 0}end{cases}}
- ε ∼ logistyczna, standardowa normalna, itp.
Zapiszmy to nieco inaczej:
-
- Un = βsn – en
- Y n = { 1 , jeśli U n > 0 , 0 , if U n ≤ 0 {{displaystyle Y_{n}={{begin{cases}1,&{tekst{if}U_{n}>0,&{tekst{if}U_{n}}leq 0}end{cases}}
- e ∼ logistyczna, standardowa normalna, itp.
W tym miejscu dokonaliśmy podstawienia en = -εn. Zmienia to zmienną losową na nieco inną, zdefiniowaną na zanegowanej dziedzinie. Tak się składa, że rozkłady błędów, które zwykle rozważamy (np. rozkład logistyczny, standardowy rozkład normalny, standardowy rozkład t-Studenta, itp.) są symetryczne względem 0, a więc rozkład na en jest identyczny z rozkładem na εn.
Zaznacz funkcję rozkładu skumulowanego (CDF) zmiennej e {{displaystyle e}}.
jako F e , {{displaystyle F_{e},}
oraz funkcję kwantyla (odwrotność CDF) e {{displaystyle e}
jako F e – 1 . {{displaystyle F_{e}^{-1}}.}
Zauważmy, że
Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n ≤ β ⋅ s n ) = F e ( β ⋅ s n ) { {disdisplaystyle {{begin{aligned}}}Pr(Y_{n}=1)&=Pr(U_{n}>0)} = Pr ( β ⋅ s n ) = Pr ( β ⋅ s n ) = Pr ( β ⋅ s n ) = Pr ( β ⋅ s n )e_{n}>0)\\&=\Pr(-e_{n}>-{e_{n}> – e_{n}> – e_{n}> 0)}}
Skoro Y n {{displaystyle Y_{n}}
jest próbą Bernoulliego, gdzie E = Pr ( Y n = 1 ) , { {displaystyle \mathbb {E} =Pr(Y_{n}=1)}
mamy E = F e ( β ⋅ s n ) {displaystyle \mathbb {E} =F_{e}({{boldsymbol {{beta}}} \mathbf {s_{n}} )}
albo równoważnie
F e – 1 ( E ) = β ⋅ s n . {{displaystyle F_{e}^{-1}(™mathbf {E} )={ ™moldsymbol {{beta}}}} β ⋅ s n . .}
Zauważmy, że jest to dokładnie równoważne modelowi regresji dwumianowej wyrażonemu w formalizmie uogólnionego modelu liniowego.
Jeżeli e n ∼ N ( 0 , 1 ) , {przykład e_{n}}}(0,1),}
tj. dystrybuowana jako standardowy rozkład normalny, wówczas Φ – 1 ( E ) = β ⋅ s n {displaysymbol \Phi ^{-1}(\mathbf {E} )={boldsymbol {\beta }} }
który jest dokładnie modelem probitowym.
Jeśli e n ∼ Logistic ( 0 , 1 ) , {displaystyle e_{n}} \sim \operatorname {Logistic} (0,1),}
tzn. rozłożony jako standardowy rozkład logistyczny ze średnią 0 i parametrem skali 1, wówczas odpowiadającą mu funkcją kwantylową jest funkcja logit, a logit ( E ) = β ⋅ s n {displaystyle \operatorname {logit} (™mathb {E} )={ ™boldsymbol { ™beta}} ˆmathbf {s_{n}} }
który jest dokładnie modelem logitowym.
Zauważ, że dwa różne formalizmy – uogólnione modele liniowe (GLM’s) i modele dyskretnego wyboru – są równoważne w przypadku prostych modeli wyboru binarnego, ale mogą być rozszerzone, jeśli różne sposoby:
- GLM’s mogą łatwo obsługiwać arbitralnie rozłożone zmienne odpowiedzi (zmienne zależne), nie tylko zmienne kategoryczne lub zmienne porządkowe, do których modele dyskretnego wyboru są ograniczone przez ich naturę. GLM’s również nie są ograniczone do funkcji łącza, które są funkcjami kwantylowymi jakiegoś rozkładu, w przeciwieństwie do użycia zmiennej błędu, która z założenia musi mieć rozkład prawdopodobieństwa.
- Z drugiej strony, ponieważ modele dyskretnego wyboru są opisane jako rodzaje modeli generatywnych, jest koncepcyjnie łatwiej rozszerzyć je do skomplikowanych sytuacji z wieloma, prawdopodobnie skorelowanymi, wyborami dla każdej osoby, lub innymi wariacjami.
.