En binær valgmodel forudsætter en latent variabel Un, den nytte (eller nettofordel), som person n opnår ved at foretage en handling (i modsætning til ikke at foretage handlingen). Den nytte, som personen opnår ved at foretage handlingen, afhænger af personens egenskaber, hvoraf nogle observeres af forskeren, og andre ikke:
U n = β ⋅ s n + ε n {\displaystyle U_{n}}={{\boldsymbol {\beta }}\cdot \mathbf {s_{n}} +\varepsilon _{n}}}
hvor β {\displaystyle {\boldsymbol {\beta }}}
er et sæt af regressionskoefficienter og s n {\displaystyle \mathbf {s_{n}} }
er et sæt af uafhængige variabler (også kaldet “features”), der beskriver person n, og som enten kan være diskrete “dummy-variabler” eller almindelige kontinuerte variabler. ε n {\displaystyle \varepsilon _{n}}}
er en tilfældig variabel, der angiver “støj” eller “fejl” i forudsigelsen, og som antages at være fordelt i henhold til en eller anden fordeling. Hvis der er en middelværdi eller variansparameter i fordelingen, kan den normalt ikke identificeres, så parametrene sættes til bekvemme værdier – efter konvention normalt middelværdi 0 og varians 1.
Personen foretager handlingen, yn = 1, hvis Un > 0. Det uobserverede udtryk, εn, antages at have en logistisk fordeling.
Specifikationen skrives kortfattet som:
-
- Un = βsn + εn
- Y n = { 1 , hvis U n > 0 , 0 , hvis U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{\text{if }}U_{n}>0,\\0,&{\text{if }}U_{n}\leq 0\end{cases}}}}
- ε ∼ logistisk, standard normal, osv.
Lad os skrive det lidt anderledes:
-
- Un = βsn – en
- Y n = { 1 , hvis U n > 0 , 0 , hvis U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{\text{if }}U_{n}>0,\\0,&{\text{if }}U_{n}\leq 0\end{cases}}}}
- e ∼ logistisk, standard normal, osv.
Her har vi foretaget substitutionen en = -εn. Dette ændrer en tilfældig variabel til en lidt anderledes variabel, der er defineret over et negeret domæne. Som det er, er de fejlfordelinger, vi normalt betragter (f.eks. logistisk fordeling, standard normalfordeling, standard Student’s t-fordeling osv.) symmetriske omkring 0, og derfor er fordelingen over en identisk med fordelingen over εn.
Noter den kumulative fordelingsfunktion (CDF) for e {\displaystyle e}
som F e , {{\displaystyle F_{e},}
og quantilefunktionen (omvendt CDF) af e {\displaystyle e}
som F e – 1 . {\displaystyle F_{e}^{-1}.}
Opmærksomheden henledes på, at
Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n ≤ β ⋅ s n ) = F e ( β ⋅ s n ) {\displaystyle {\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\\&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}}} -e_{n}>0)\\&=\Pr(-e_{n}>-{\boldsymbol {\beta }}}\cdot \mathbf {s_{n}} )\\&=\Pr(e_{n}\leq {\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\\&=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\end{aligned}}}
Som Y n {\displaystyle Y_{n}}}
er et Bernoulli-forsøg, hvor E = Pr ( Y n = 1 ) , {\displaystyle \mathbb {E} =\Pr(Y_{n}=1),}
har vi E = F e ( β ⋅ s n ) {\displaystyle \mathbb {E}} =F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}}} )}
eller tilsvarende
F e – 1 ( E ) = β ⋅ s n . {\displaystyle F_{e}^{-1}(\mathbb {E}} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}}} .}
Bemærk, at dette svarer nøjagtigt til den binomiale regressionsmodel udtrykt i formalismen for den generaliserede lineære model.
Hvis e n ∼ N ( 0 , 1 ) , {\displaystyle e_{n}\sim {\mathcal {N}}}(0,1),}
dvs. fordelt som en standard normalfordeling, så er Φ – 1 ( E ) = β ⋅ s n {\displaystyle \Phi ^{-1}(\mathbb {E}} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }
som netop er en probit-model.
Hvis e n ∼ Logistic ( 0 , 1 ) , {\displaystyle e_{n}\sim \operatornavn {Logistic} (0,1),}
dvs. er fordelt som en standard logistisk fordeling med middelværdi 0 og skalaparameter 1, så er den tilsvarende kvantilfunktion logit-funktionen, og logit ( E ) = β ⋅ s n {\displaystyle \operatorname {logit} (\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }
som netop er en logit-model.
Bemærk, at de to forskellige formalismer – generaliserede lineære modeller (GLM’er) og diskrete valgmodeller – er ækvivalente i tilfælde af simple binære valgmodeller, men kan udvides hvis forskellige måder:
- GLM’er kan nemt håndtere vilkårligt distribuerede responsvariable (afhængige variabler), ikke kun kategoriske variabler eller ordinale variabler, som diskrete valgmodeller er begrænset til af deres natur. GLM’er er heller ikke begrænset til linkfunktioner, der er kvantilfunktioner af en eller anden fordeling, i modsætning til brugen af en fejlvariabel, som pr. antagelse skal have en sandsynlighedsfordeling.
- På den anden side er det, fordi diskrete valgmodeller beskrives som typer af generative modeller, begrebsmæssigt lettere at udvide dem til komplicerede situationer med flere, eventuelt korrelerede, valg for hver person eller andre variationer.