Binomiregressio

Binomivalintamallissa oletetaan latentti muuttuja Un, hyöty (tai nettohyöty), jonka henkilö n saa ryhtymällä johonkin toimeen (vastakohtana sille, että ei ryhdy toimeen). Hyöty, jonka henkilö saa toimen suorittamisesta, riippuu henkilön ominaisuuksista, joista osaa tutkija havainnoi ja osaa ei:

U n = β ⋅ s n + ε n {\displaystyle U_{n}={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} +\varepsilon _{n}}

$U_{n}={\boldsymbol \beta }\cdot {\mathbf {s_{n}}}+\varepsilon _{n}$

jossa β {\displaystyle {\boldsymbol {\beta }}}

${\boldsymbol {\beta }}$

on joukko regressiokertoimia ja s n {\displaystyle \mathbf {s_{n}}} }

${\mathbf {s_{n}}}$

on joukko henkilö n:ää kuvaavia riippumattomia muuttujia (joita kutsutaan myös ”ominaisuuksiksi”), jotka voivat olla joko diskreettejä ”dummy-muuttujia” tai säännöllisiä jatkuvia muuttujia. ε n {\displaystyle \varepsilon _{n}}

$\varepsilon _{n}$

on satunnaismuuttuja, joka määrittää ennusteen ”kohinaa” tai ”virhettä” ja jonka oletetaan jakautuvan jonkin jakauman mukaisesti. Tavallisesti, jos jakaumassa on keskiarvo tai varianssiparametri, sitä ei voida tunnistaa, joten parametrit asetetaan sopiviin arvoihin – sopimuksen mukaan yleensä keskiarvo 0, varianssi 1.

Henkilö ryhtyy toimeen, yn = 1, jos Un > 0. Havaitsemattomalla termillä, εn, oletetaan olevan logistinen jakauma.

Espesifikaatio kirjoitetaan ytimekkäästi seuraavasti:

- Un = βsn + εn
- Y n = { 1 , jos U n > 0 , 0 , jos U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{\text{if }}U_{n}>0,\\\0,&{\text{if }}U_{n}\leq 0\end{cases}}}}
  $Y_{n}={\begin{cases}1,&{\text{if }}U_{n}0,\\\0,&{\text{if }}U_{n}\leq 0\end{cases}}}$
- ε ∼ logistinen, standardinormaali jne.

Kirjoitetaan se hieman eri tavalla:

- Un = βsn – en
- Y n = { 1 , jos U n > 0 , 0 , jos U n ≤ 0 {\displaystyle Y_{n}={\begin{cases}1,&{\text{if }}U_{n}>0,\\\0,&{\text{if }}U_{n}\leq 0\end{cases}}}}
  $Y_{n}={\begin{cases}1,&{\text{if }}U_{n}0,\\\0,&{\text{if }}U_{n}\leq 0\end{cases}}}$
- e ∼ logistinen, standardinormaali jne.

Tässä olemme tehneet korvauksen en = -εn. Tämä muuttaa satunnaismuuttujan hieman erilaiseksi satunnaismuuttujaksi, joka on määritelty negaatioalueen yli. Sattumalta tavallisesti tarkastelemamme virhejakaumat (esim. logistinen jakauma, vakionormaalijakauma, vakio Studentin t-jakauma jne.) ovat symmetrisiä 0:n suhteen, ja näin ollen jakauma en:n yli on identtinen jakauman εn:n yli.

Merkitään e:n kumulatiivinen jakaumafunktio (cumulative distribution function, CDF) {\displaystyle e}

$e$

muodossa F e , {\displaystyle F_{e},}

$F_{e},$

ja e:n kvantiilifunktio (käänteinen CDF) {\displaystyle e}

$e$

kuin F e – 1 . {\displaystyle F_{e}^{-1}.}

$F_{e}^{{-1}}.$

Huomaa, että

Pr ( Y n = 1 ) = Pr ( U n > 0 ) = Pr ( β ⋅ s n – e n > 0 ) = Pr ( – e n > – β ⋅ s n ) = Pr ( e n ≤ β β ⋅ s n ) = F e ( β ⋅ s n ) {\displaystyle {\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\\\&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} -e_{n}>0)\\&=\Pr(-e_{n}>-{\\&=\Pr(e_{n}\leq {\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\\\&=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}})\\\_end{aligned}}}}

${\begin{aligned}\Pr(Y_{n}=1)=\Pr(U_{n}0)\\=\Pr({\boldsymbol \beta }\cdot {\mathbf {s_{n}}}-e_{n}0)\\=\Pr(-e_{n}-{\boldsymbol \beta }\cdot {\mathbf {s_{n}})\\=\Pr(e_{n}\leq {\boldsymbol \beta }\cdot {\mathbf {{s_{n}})\\\=F_{e}({\boldsymbol \beta }\cdot {\mathbf {s_{n}}})\end{aligned}}}$

Jos Y n {\displaystyle Y_{n}}}

$Y_{n}$

on Bernoulli-kokeilu, jossa E = Pr ( Y n = 1 ) , {\displaystyle \mathbb {E} =\Pr(Y_{n}=1),}

${\mathbb {E}}=\Pr(Y_{n}=1),$

meillä on E = F e ( β ⋅ s n ) {\displaystyle \mathbb {E} =F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )}

${\mathbb {E}}=F_{e}({\boldsymbol \beta }\cdot {\mathbf {s_{n}}})$

tai vastaavasti

F e – 1 ( E ) = β ⋅ s n . {\displaystyle F_{e}^{-1}(\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} .}

$F_{e}^{{-1}}({\mathbb {E}})={\boldsymbol \beta }\cdot {\mathbf {s_{n}}}.$

Huomaa, että tämä vastaa täsmälleen binomista regressiomallia ilmaistuna yleistetyn lineaarisen mallin formalismilla.

Jos e n ∼ N ( 0 , 1 ) , {\displaystyle e_{n}\sim {\mathcal {N}}(0,1),}

$e_{n}\sim {\mathcal {N}}(0,1),$

ts. jakaantuu tavallisena normaalijakaumana, niin Φ – 1 ( E ) = β ⋅ s n {\displaystyle \Phi ^{-1}(\mathbb {E} )={\boldsymbol {\beta}}\cdot \mathbf {s_{n}} }

$\Phi ^{{-1}}({\mathbb {E}})={\boldsymbol \beta }\cdot {\mathbf {s_{n}}}$

joka on täsmälleen probit-malli.

Jos e n ∼ Logistinen ( 0 , 1 ) , {\displaystyle e_{n} \sim \operaattorinnimi {Logistic}} (0,1),}

$e_{n}\sim \operatorname {Logistic}(0,1),$

eli jakaantuu tavallisena logistisena jakaumana, jonka keskiarvo on 0 ja asteikkoparametri 1, niin vastaava kvantiilifunktio on logit-funktio, ja logit ( E ) = β ⋅ s n {\displaystyle \operatorname {logit} (\mathbb {E} )={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} }

$\operatorname {logit}({\mathbb {E}})={\boldsymbol \beta }\cdot {\mathbf {s_{n}}}$

joka on juuri logit-malli.

Huomaa, että kaksi eri formalismia – yleistetyt lineaariset mallit (GLM:t) ja diskreetit valintamallit – ovat ekvivalentteja yksinkertaisten binääristen valintamallien tapauksessa, mutta niitä voidaan laajentaa, jos eri tavoin:

GLM:t pystyvät helposti käsittelemään mielivaltaisesti jakaantuneita vastemuuttujia (riippuvaisia muuttujia), eivät vain kategorisia muuttujia tai ordinaalisia muuttujia, joihin diskreetit valintamallit rajoittuvat luonteeltaan. GLM:t eivät myöskään rajoitu linkkifunktioihin, jotka ovat jonkin jakauman kvanttifunktioita, toisin kuin virhemuuttujan käyttö, jolla on oletuksen mukaan oltava todennäköisyysjakauma.
Toisaalta, koska diskreettien valintojen mallit kuvataan eräänlaisina generatiivisina malleina, on käsitteellisesti helpompaa laajentaa niitä monimutkaisiin tilanteisiin, joissa on useita, mahdollisesti korreloivia valintoja kullekin henkilölle, tai muita variaatioita.

Alai

Binomiregressio

Vastaa Peruuta vastaus