Un modello di scelta binaria presuppone una variabile latente Un, l’utilità (o beneficio netto) che la persona n ottiene dal compiere un’azione (rispetto al non compiere l’azione). L’utilità che la persona ottiene dal compiere l’azione dipende dalle caratteristiche della persona, alcune delle quali sono osservate dal ricercatore e altre no:
U n = β ⋅ s n + ε n {displaystyle U_{n}={boldsymbol {beta }}cdot \mathbf {s_{n}} +\varepsilon _{n}}
dove β {displaystyle {boldsymbol {beta }}
è un insieme di coefficienti di regressione e s n {displaystyle \mathbf {s_{n}} }
è un insieme di variabili indipendenti (note anche come “caratteristiche”) che descrivono la persona n, che possono essere sia “variabili dummy” discrete che variabili continue regolari. ε n {displaystyle \varepsilon _{n}}
è una variabile casuale che specifica il “rumore” o “l’errore” nella predizione, che si suppone essere distribuito secondo una qualche distribuzione. Normalmente, se c’è un parametro di media o varianza nella distribuzione, non può essere identificato, quindi i parametri sono impostati su valori convenienti – per convenzione di solito media 0, varianza 1.
La persona compie l’azione, yn = 1, se Un > 0. Il termine non osservato, εn, si assume abbia una distribuzione logistica.
La specificazione è scritta sinteticamente come:
-
- Un = βsn + εn
- Y n = { 1 , se U n > 0 , 0 , se U n ≤ 0 {displaystyle Y_{n}={begin{caso}1,&{testo{se}U_{n}>0,\\0,&{testo{se}U_{n}leq 0\fine}}}
- ε ∼ logistica, normale standard, ecc.
Scriviamo in modo leggermente diverso:
-
- Un = βsn – en
- Y n = { 1 , se U n > 0 , 0 , se U n ≤ 0 {displaystyle Y_{n}={begin{caso}1,&{testo{se}U_{n}>0,\\0,&{testo{se}U_{n}leq 0\fine}}}
- e ∼ logistica, normale standard, ecc.
Qui abbiamo fatto la sostituzione en = -εn. Questo cambia una variabile casuale in una leggermente diversa, definita su un dominio negato. Si dà il caso che le distribuzioni di errore che consideriamo di solito (ad esempio la distribuzione logistica, la distribuzione normale standard, la distribuzione t standard di Student, ecc.) sono simmetriche intorno a 0, e quindi la distribuzione su en è identica alla distribuzione su εn.
Nota la funzione di distribuzione cumulativa (CDF) di e {\displaystyle e}
come F e , {displaystyle F_{e},}
e la funzione quantile (CDF inversa) di e {displaystyle e}
come F e – 1 . {F_{e}^{-1}.}
Nota che
Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n ≤ β ⋅ s n ) = F e ( β ⋅ s n ) {\displaystyle {\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\&=\Pr({\boldsymbol {\beta }}cdot \mathbf {s_{n}} -e_{n}>0)\\&=\Pr(-e_{n}>-{)\2808>=Pr(e_{n}leq {boldsymbol {beta}}cdot \mathbf {s_{n}} )\2808>=F_{e}({boldsymbol {beta}}cdot \mathbf {s_{n}} )\fine{aligned}}
Siccome Y n {displaystyle Y_{n}}
è un processo di Bernoulli, dove E = Pr ( Y n = 1 ) , {\displaystyle \mathbb {E} =\Pr(Y_{n}=1),
abbiamo E = F e ( β ⋅ s n ) {\displaystyle \mathbb {E} =F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )}
o equivalente
F e – 1 ( E ) = β ⋅ s n . F_e}^{-1}(\mathbb {E} )={boldsymbol {{beta }}{cdot \mathbf {s_{n}} .}
Nota che questo è esattamente equivalente al modello di regressione binomiale espresso nel formalismo del modello lineare generalizzato.
Se e n ∼ N ( 0 , 1 ) , {\displaystyle e_{n}sim {\mathcal {N}}(0,1),}
cioè distribuita come una distribuzione normale standard, allora Φ – 1 ( E ) = β ⋅ s n {\displaystyle \Phi ^{-1}(\mathbb {E} )={boldsymbol {\beta }}cdot \mathbf {s_{n}} }
che è esattamente un modello probit.
Se e n ∼ Logistic ( 0 , 1 ) , {\displaystyle e_{n}\sim \operatorname {Logistic} (0,1),
cioè distribuita come una distribuzione logistica standard con media 0 e parametro di scala 1, allora la corrispondente funzione quantile è la funzione logit, e logit ( E ) = β ⋅ s n {displaystyle \operatorname {logit} (\mathbb {E} )={boldsymbol {{beta }}}cdot \mathbf {s_{n}} }
che è esattamente un modello logit.
Nota che i due diversi formalismi – modelli lineari generalizzati (GLM) e modelli a scelta discreta – sono equivalenti nel caso di semplici modelli di scelta binaria, ma possono essere estesi in modi diversi:
- Il GLM può facilmente gestire variabili di risposta distribuite arbitrariamente (variabili dipendenti), non solo variabili categoriche o ordinali, a cui i modelli a scelta discreta sono limitati per loro natura. I GLM non sono inoltre limitati a funzioni di collegamento che sono funzioni quantili di una qualche distribuzione, a differenza dell’uso di una variabile di errore, che deve avere, per ipotesi, una distribuzione di probabilità.
- D’altra parte, poiché i modelli a scelta discreta sono descritti come tipi di modelli generativi, è concettualmente più facile estenderli a situazioni complicate con scelte multiple, eventualmente correlate, per ogni persona, o altre variazioni.