Un modèle de choix binaire suppose une variable latente Un, l’utilité (ou bénéfice net) que la personne n obtient en prenant une action (par opposition à ne pas prendre l’action). L’utilité que la personne obtient en prenant l’action dépend des caractéristiques de la personne, dont certaines sont observées par le chercheur et d’autres non :

U n = β ⋅ s n + ε n {\displaystyle U_{n}={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} +\varepsilon _{n}}

U_{n}={\boldsymbol \beta }\cdot {\mathbf {s_{n}}+\varepsilon _{n}

où β {\displaystyle {\boldsymbol {\beta }}}

{\boldsymbol {\beta }}

est un ensemble de coefficients de régression et s n {\displaystyle \mathbf {s_{n}} }

{\mathbf {s_{n}}

est un ensemble de variables indépendantes (également appelées « caractéristiques ») décrivant la personne n, qui peuvent être des « variables muettes » discrètes ou des variables continues régulières. ε n {\displaystyle \varepsilon _{n}}

\varepsilon _{n}

est une variable aléatoire spécifiant le « bruit » ou « l’erreur » dans la prédiction, supposée être distribuée selon une certaine loi. Normalement, s’il y a un paramètre de moyenne ou de variance dans la distribution, il ne peut pas être identifié, donc les paramètres sont fixés à des valeurs commodes – par convention généralement moyenne 0, variance 1.

La personne entreprend l’action, yn = 1, si Un > 0. On suppose que le terme non observé, εn, a une distribution logistique.

La spécification s’écrit succinctement comme suit :

    • Un = βsn + εn
    • Y n = { 1 , si U n > 0 , 0 , si U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{\text{if }U_{n}>0,\0,&{\text{if }U_{n}\leq 0\end{cases}}
      Y_{n}={\begin{cases}1,&{\text{if }}U_{n}0,\0,&{\text{if }}U_{n}\leq 0\end{cases}}
    • ε ∼ logistique, normale standard, etc.

Ecrivons-le légèrement différemment :

    • Un = βsn – en
    • Y n = { 1 , si U n > 0 , 0 , si U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{\text{if }U_{n}>0,\0,&{\text{if }U_{n}\leq 0\end{cases}}
      Y_{n}={\begin{cases}1,&{\text{if }}U_{n}0,\0,&{\text{if }}U_{n}\leq 0\end{cases}}
    • e ∼ logistique, normale standard, etc.

On a fait ici la substitution en = -εn. Cela change une variable aléatoire en une variable légèrement différente, définie sur un domaine nié. Il se trouve que les distributions d’erreurs que nous considérons habituellement (par exemple, la distribution logistique, la distribution normale standard, la distribution t standard de Student, etc.) sont symétriques autour de 0, et donc la distribution sur en est identique à la distribution sur εn.

Dénotez la fonction de distribution cumulative (CDF) de e {\displaystyle e}.

e

comme F e , {\displaystyle F_{e},}

F_{e},

et la fonction quantile (CDF inverse) de e {\displaystyle e}.

e

comme F e – 1 . {\displaystyle F_{e}^{-1}.}

F_{e}^{{-1}}.

Notez que

Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n ≤ β ⋅ s n ) = F e ( β ⋅ s n ) {\displaystyle {\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\\&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} -e_{n}>0)\\&=\Pr(-e_{n}>-{\boldsymbol {\beta }}\cdot \mathbf {s_{n}}\&=\Pr(e_{n}\leq {\boldsymbol {\beta }}\cdot \mathbf {s_{n}}\&=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}}\end{aligned}}

{\begin{aligned}\Pr(Y_{n}=1)=\Pr(U_{n}0)\\=\Pr({\boldsymbol \beta }\cdot {\mathbf {s_{n}}}-e_{n}0)\\=\Pr(-e_{n}-{\boldsymbol \beta }\cdot {\mathbf {s_{n}})\=\Pr(e_{n}\leq {\boldsymbol \beta }\cdot {\mathbf {s_{n}} {s_{n}})\=F_{e}({\boldsymbol \beta }\cdot {\mathbf {s_{n}})\end{aligned}}

Since Y n {\displaystyle Y_{n}}

Y_{n}

est une épreuve de Bernoulli, où E = Pr ( Y n = 1 ) , {\displaystyle \mathbb {E} =\Pr(Y_{n}=1),

{\mathbb {E}}=\Pr(Y_{n}=1),

nous avons E = F e ( β ⋅ s n ) {\displaystyle \mathbb {E} =F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )}

{\mathbb {E}}=F_{e}({\boldsymbol \beta }\cdot {\mathbf {s_{n}})

ou de manière équivalente

F e – 1 ( E ) = β ⋅ s n . {\displaystyle F_{e}^{-1}(\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} .}

F_{e}^{-1}}({\mathbb {E}})={\boldsymbol \beta }\cdot {\mathbf {s_{n}}.

Notez que ceci est exactement équivalent au modèle de régression binomial exprimé dans le formalisme du modèle linéaire généralisé.

Si e n ∼ N ( 0 , 1 ) , {\displaystyle e_{n}\sim {\mathcal {N}}(0,1),}

e_{n}\sim {\mathcal {N}}(0,1),

c’est-à-dire. distribué selon une loi normale standard, alors Φ – 1 ( E ) = β ⋅ s n {\displaystyle \Phi ^{-1}(\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }

\Phi ^{-1}}({\mathbb {E}})={\boldsymbol \beta }\cdot {\mathbf {s_{n}}

qui est exactement un modèle probit.

Si e n ∼ Logistic ( 0 , 1 ) , {\displaystyle e_{n}\sim \operatorname {Logistic} (0,1),}

e_{n}\sim \operatorname {Logistic}(0,1),

c’est-à-dire distribuée comme une distribution logistique standard avec la moyenne 0 et le paramètre d’échelle 1, alors la fonction quantile correspondante est la fonction logit, et logit ( E ) = β ⋅ s n {\displaystyle \operatorname {logit} (\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }

\operatorname {logit}({\mathbb {E}})={\boldsymbol \beta }\cdot {\mathbf {s_{n}}}

qui est exactement un modèle logit.

Notez que les deux différents formalismes – modèles linéaires généralisés (GLM) et modèles de choix discrets – sont équivalents dans le cas de modèles de choix binaires simples, mais peuvent être étendus si différentes manières:

  • Les GLM peuvent facilement traiter des variables de réponse distribuées arbitrairement (variables dépendantes), pas seulement des variables catégorielles ou ordinales, auxquelles les modèles de choix discrets sont limités par leur nature. Les GLM ne sont pas non plus limités aux fonctions de liaison qui sont des fonctions quantiles d’une certaine distribution, contrairement à l’utilisation d’une variable d’erreur, qui doit par hypothèse avoir une distribution de probabilité.
  • D’autre part, parce que les modèles de choix discrets sont décrits comme des types de modèles génératifs, il est conceptuellement plus facile de les étendre à des situations compliquées avec des choix multiples, éventuellement corrélés, pour chaque personne, ou d’autres variations.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.