Een binomiaal keuzemodel gaat uit van een latente variabele Un, het nut (of nettovoordeel) dat persoon n verkrijgt door een actie te ondernemen (in tegenstelling tot het niet ondernemen van de actie). Het nut dat de persoon verkrijgt door de actie te ondernemen, hangt af van de kenmerken van de persoon, waarvan sommige door de onderzoeker worden geobserveerd en andere niet:

U n = β ⋅ s n + ε n {\displaystyle U_{n}={\boldsymbol {\beta }}} \mathbf {s_{n}} +varepsilon _{n}}

U_{n}={\boldsymbol {s_{n}}+\varepsilon _{n}

waar β {\displaystyle {\boldsymbol {s_{n}}}

{\boldsymbol {\beta }}

een verzameling regressiecoëfficiënten is en s n {\displaystyle \mathbf {s_{n}}} }

{\mathbf {s_{n}}

is een verzameling onafhankelijke variabelen (ook wel “kenmerken” genoemd) die persoon n beschrijven en die discrete “dummy-variabelen” of gewone continue variabelen kunnen zijn. ε n {{\displaystyle \varepsilon _{n}}

varepsilon _{n}

is een willekeurige variabele die “ruis” of “fout” in de voorspelling aangeeft en waarvan wordt aangenomen dat hij volgens een bepaalde verdeling is verdeeld. Als de verdeling een gemiddelde of variantieparameter heeft, kan deze gewoonlijk niet worden geïdentificeerd, zodat de parameters op geschikte waarden worden gesteld – bij conventie meestal gemiddelde 0, variantie 1.

De persoon onderneemt de actie, yn = 1, als Un > 0. De niet-waargenomen term, εn, wordt verondersteld een logistische verdeling te hebben.

De specificatie wordt beknopt geschreven als:

    • Un = βsn + εn
    • Y n = { 1 , if U n > 0 , 0 , als U n ≤ 0 {Displaystyle Y_{n}={\begin{cases}1,&{text{if }}U_{n}>0,\0,&{text{if }}U_{n}leq 0{end{cases}}
      Y_{n}={\begin{cases}1,&{text{if }}U_{n}0,\0,&{text{if }}U_{n}\leq 0{end{cases}}
    • ε ∼ logistic, standard normal, enz.

Laten we het iets anders schrijven:

    • Un = βsn – en
    • Y n = { 1 , als U n > 0 , 0 , als U n ≤ 0 {Displaystyle Y_{n}={begin{cases}1,&{text{if }}U_{n}>0,\0,&{text{if }}U_{n}leq 0{end{cases}}
      Y_{n}={\begin{cases}1,&{text{if }}U_{n}0,\0,&{text{if }}U_{n}\leq 0{end{cases}}
    • e ∼ logistic, standard normal, enz.

Hier hebben we de substitutie en = -εn aangebracht. Dit verandert een willekeurige variabele in een iets andere, gedefinieerd over een ontkend domein. De foutenverdelingen die we gewoonlijk beschouwen (b.v. logistische verdeling, standaardnormale verdeling, standaard Student’s t-verdeling, enz.) zijn symmetrisch over 0, en dus is de verdeling over en identiek aan de verdeling over εn.

Denk aan de cumulatieve verdelingsfunctie (CDF) van e {{displaystyle e}

e

als F e , {\displaystyle F_{e},}

F_{e},

en de quantielfunctie (inverse CDF) van e {\displaystyle e}

e

als F e – 1 . {\displaystyle F_{e}^{-1}.}

F_{e}^{{-1}}.

Merk op dat

Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n ≤ β ⋅ s n ) = F e ( β ⋅ s n ) {\displaystyle {begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} -.e_{n}>0)\\&=\Pr(-e_{n}>-{\boldsymbol {\beta }}}}\2808>=Pr(e_{n}}leq {\boldsymbol {\beta }}}}\mathbf {s_{n}} )\2808>=F_{e}({\boldsymbol {\beta }}}}}}}}}}}}}\2808>=F_{e}({\boldsymbol {\beta }}}}}}}}}}\2808>=F_{e_{e}}({\boldsymbol {\beta}}}}}}}}}}}}}}}}}}){e_{n}}}}}}}

{\begin{aligned}\Pr(Y_{n}=1)=\Pr(U_{n}0)\\=\Pr({\boldsymbol \beta }\cdot {\mathbf {s_{n}}}-e_{n}0)\\=\Pr(-e_{n}-{\boldsymbol \beta } } } }}(e_{n}}}\=Pr(e_{n}} {s_{n}})\=F_{e}({\boldsymbol \beta }\cdot {s_{n}}){aligned}

Sinds Y n {\displaystyle Y_{n}}

Y_{n}

een Bernoulli proef is, waarbij E = Pr ( Y n = 1 ) , {\displaystyle \mathbb {E} = Pr(Y_{n}=1),}

{\mathbb {E}}=\Pr(Y_{n}=1),

dan geldt E = F e ( β ⋅ s n ) {\displaystyle \mathbb {E} =F_{e}({\boldsymbol {\beta }}}}

{\mathbb {E}}=F_{e}({\boldsymbol \beta } } }cdot {mathbf {s_{n}})

of gelijkwaardig

F e – 1 ( E ) = β ⋅ s n . {\displaystyle F_{e}^{-1}(\mathbf {E} )={\boldsymbol {\beta }} .}

F_{e}^{{-1}}({\mathbb {E}})={\boldsymbol {\beta }}}}.

Merk op dat dit exact gelijkwaardig is aan het binomiale regressiemodel uitgedrukt in het formalisme van het gegeneraliseerd lineair model.

Als e n ∼ N ( 0 , 1 ) , {\displaystyle e_{n}\sim {N}(0,1),}

e_{n}\sim {N}(0,1),

d.w.z. verdeeld als een standaard normale verdeling, dan is Φ – 1 ( E ) = β ⋅ s n {\displaystyle \Phi ^{-1}(\mathbf {E} )={{\boldsymbol {\beta }} }

Phi ^{{-1}}(\mathbb {E}})={\boldsymbol \beta }}

wat precies een probit-model is.

Als e n ∼ Logistic ( 0 , 1 ) , {\boldsymbol e_{n} } } (0,1),}

e_{n}\sim \operatornaam {Logistic}(0,1),

d.w.z. verdeeld als een standaard logistische verdeling met gemiddelde 0 en schaalparameter 1, dan is de overeenkomstige kwantielfunctie de logitfunctie, en logit ( E ) = β ⋅ s n {{n}\operatornaam {logit} (\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }

>operatienaam {logit}({\mathbb {E}})={\boldsymbol \beta }}cdot {\mathbf {s_{n}}}

wat precies een logit-model is.

Merk op dat de twee verschillende formules – gegeneraliseerde lineaire modellen (GLM’s) en discrete keuzemodellen – gelijkwaardig zijn in het geval van eenvoudige binaire keuzemodellen, maar op verschillende manieren kunnen worden uitgebreid:

  • GLM’s kunnen gemakkelijk willekeurig verdeelde responsvariabelen (afhankelijke variabelen) verwerken, niet alleen categorische variabelen of ordinale variabelen, waartoe discrete keuzemodellen door hun aard beperkt zijn. GLM’s zijn ook niet beperkt tot koppelingsfuncties die kwantielfuncties zijn van een of andere verdeling, in tegenstelling tot het gebruik van een foutvariabele, die bij veronderstelling een waarschijnlijkheidsverdeling moet hebben.
  • Anderzijds, omdat discrete keuzemodellen worden beschreven als soorten generatieve modellen, is het conceptueel gemakkelijker om ze uit te breiden tot gecompliceerde situaties met meerdere, mogelijk gecorreleerde, keuzes voor elke persoon, of andere variaties.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.