Un model de alegere binară presupune o variabilă latentă Un, utilitatea (sau beneficiul net) pe care persoana n o obține din efectuarea unei acțiuni (spre deosebire de neefectuarea acțiunii). Utilitatea pe care persoana o obține din efectuarea acțiunii depinde de caracteristicile persoanei, dintre care unele sunt observate de către cercetător, iar altele nu:
U n = β ⋅ s n + ε n {\displaystyle U_{n}={{\boldsymbol {\beta }}\cdot \mathbf {s_{n}}. +\varepsilon _{n}}
unde β {\displaystyle {\boldsymbol {\beta }}}
este un set de coeficienți de regresie și s n {\displaystyle \mathbf {s_{n}} }
este un set de variabile independente (cunoscute și sub numele de „caracteristici”) care descriu persoana n, care pot fi fie „variabile fictive” discrete, fie variabile continue regulate. ε n {\displaystyle \varepsilon _{n}}}
este o variabilă aleatoare care specifică „zgomotul” sau „eroarea” din predicție, presupusă a fi distribuită în conformitate cu o anumită distribuție. În mod normal, în cazul în care există un parametru de medie sau de varianță în distribuție, acesta nu poate fi identificat, astfel încât parametrii sunt setați la valori convenabile – prin convenție, de obicei, media 0, varianța 1.
Persoana întreprinde acțiunea, yn = 1, dacă Un > 0. Se presupune că termenul neobservat, εn, are o distribuție logistică.
Specificația este scrisă succint astfel:
Specificația este scrisă succint ca:
-
- Un = βsn + εn
- Y n = { 1 , dacă U n > 0 , 0 , if U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{{\text{if }}U_{n}>0,\0,&{\text{if }}U_{n}\leq 0\end{cases}}}}}
- ε ∼ logistic, normal standard, etc.
Să o scriem puțin diferit:
-
- Un = βsn – en
- Y n = { 1 , dacă U n > 0 , 0 , dacă U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{{\text{if }}U_{n}>0,\0,&{\text{if }}U_{n}\leq 0\end{cases}}}}}
- e ∼ logistic, normal standard, etc.
Aici am făcut substituția en = -εn. Aceasta schimbă o variabilă aleatoare într-una ușor diferită, definită pe un domeniu negat. Așa cum se întâmplă, distribuțiile de eroare pe care le considerăm de obicei (de exemplu, distribuția logistică, distribuția normală standard, distribuția t standard a lui Student etc.) sunt simetrice în jurul lui 0 și, prin urmare, distribuția asupra lui en este identică cu distribuția asupra lui εn.
Denotați funcția de distribuție cumulativă (CDF) a lui e {\displaystyle e}
ca F e , {\displaystyle F_{e},}
și funcția cuantile (CDF inversă) a lui e {\displaystyle e}
ca F e – 1 . {\displaystyle F_{e}^{-1}.}
Rețineți că
Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n > – β ⋅ s n ) = Pr ( e n ≤ β ⋅ s n ) = F e ( β ⋅ s n ) {\displaystyle {\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}}} -e_{n}>0)\\&=\Pr(-e_{n}>-{\boldsymbol {\beta }}}\cdot \mathbf {s_{n}} )\&=\Pr(e_{n}\leq {\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\&=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\end{aligned}}}}
Din moment ce Y n {\displaystyle Y_{n}}
este un proces Bernoulli, unde E = Pr ( Y n = 1 ) , {\displaystyle \mathbb {E} =\Pr(Y_{n}=1),}
avem E = F e ( β ⋅ s n ) {\displaystyle \mathbb {E} =F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}}} )}
sau, în mod echivalent
F e – 1 ( E ) = β ⋅ s n . {\displaystyle F_{e}^{-1}(\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} .}
Rețineți că acest lucru este exact echivalent cu modelul de regresie binomial exprimat în formalismul modelului liniar generalizat.
Dacă e n ∼ N ( 0 , 1 ) , {\displaystyle e_{n}\sim {\mathcal {N}}(0,1),}
i.e. distribuită ca o distribuție normală standard, atunci Φ – 1 ( E ) = β ⋅ s n {\displaystyle \Phi ^{-1}(\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}}} }
care este exact un model probit.
Dacă e n ∼ Logistic ( 0 , 1 ) , {\displaystyle e_{n}\sim \operatorname {Logistic} (0,1),}
adică este distribuită ca o distribuție logistică standard cu media 0 și parametrul de scară 1, atunci funcția cuantică corespunzătoare este funcția logit, iar logit ( E ) = β ⋅ s n {\displaystyle \operatorname {logit} (\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }
care este exact un model logit.
Rețineți că cele două formalisme diferite – modelele liniare generalizate (GLM) și modelele de alegere discretă – sunt echivalente în cazul modelelor simple de alegere binară, dar pot fi extinse dacă moduri diferite:
- GLM-urile pot gestiona cu ușurință variabile de răspuns (variabile dependente) distribuite arbitrar, nu doar variabile categorice sau variabile ordinale, la care modelele de alegere discretă sunt limitate prin natura lor. GLM-urile nu sunt, de asemenea, limitate la funcții de legătură care sunt funcții cuantice ale unei anumite distribuții, spre deosebire de utilizarea unei variabile de eroare, care trebuie să aibă, prin ipoteză, o distribuție de probabilitate.
- Pe de altă parte, deoarece modelele de alegere discretă sunt descrise ca tipuri de modele generative, este mai ușor din punct de vedere conceptual să le extindem la situații complicate cu alegeri multiple, posibil corelate, pentru fiecare persoană, sau alte variații.