Learning Outcomes

  • Käytä interpolointia ja ekstrapolointia

Palauta mieleesi tämä esimerkki aiemmasta sisällöstä:

Sattumanvarainen otos 11:stä tilastotieteen opiskelijasta tuotti seuraavanlaisen datan, jossa
x on kolmas tenttipistemäärä 80:stä ja y viimeinen tenttipiste 200:sta. Voitko ennustaa satunnaisen opiskelijan lopputentin pistemäärän, jos tiedät kolmannen tentin pistemäärän?

.

x (kolmannen kokeen pistemäärä) y (lopullisen kokeen pistemäärä)
65 175
67 133
71 185
71 163
66 126
75 198
67 153
70 163
71 159
69 151
69 159

Taulukko, jossa näkyvät loppukokeen pisteet kolmannen kokeen pisteiden perusteella.

Tämä on hajontakuvio annetuista tiedoista. Kolmannen kokeen pisteet on piirretty x-akselille ja loppukokeen pisteet y-akselille. Pisteet muodostavat vahvan, positiivisen, lineaarisen kuvion.Scatterplot, joka näyttää loppukokeen pisteet kolmannen kokeen pisteiden perusteella.

Tarkastelimme scatterplotia ja osoitimme, että korrelaatiokerroin on merkittävä. Löysimme parhaan sovitussuoran yhtälön loppukokeen arvosanalle kolmannen kokeen arvosanan funktiona. Voimme nyt käyttää pienimmän neliösumman regressiosuoraa ennustamiseen.

Esitellään, että haluatte arvioida tai ennustaa niiden tilastotieteen opiskelijoiden keskimääräisen lopputenttiarvosanan, jotka saivat kolmannesta tentistä arvosanan 73. Tenttipisteet (x-arvot) vaihtelevat välillä 65-75. Koska 73 on x-arvojen 65 ja 75 välissä, korvaa yhtälöön x = 73. Tällöin:

\displaystyle\hat{y}}=-{173.51}+{4.83}{({73})}={179.08}

Ennustamme, että tilastotieteen opiskelijat, jotka saivat kolmannesta tentistä arvosanan 73, saavat lopputentistä keskimäärin arvosanan 179.08.

Esimerkki

Käyttäkää yllä olevia tietoja tähän esimerkkiin:

  1. Mitä ennustaisitte loppukokeen arvosanaksi opiskelijalle, joka sai kolmannesta kokeesta arvosanan 66?
  2. Mitä ennustaisit loppukokeen pistemäärän olevan opiskelijalle, joka sai kolmannessa kokeessa 90 pistettä?

Ratkaisu:

  1. 145.27
  2. Aineiston x-arvot ovat välillä 65-75. Yhdeksänkymmentä on aineistossa havaittujen x-arvojen (riippumaton muuttuja) alueen ulkopuolella, joten et voi luotettavasti ennustaa tämän opiskelijan loppukokeen pistemäärää. (Vaikka on mahdollista syöttää 90 x:n yhtälöön ja laskea vastaava y-arvo, saamasi y-arvo ei ole luotettava.) Jotta todella ymmärtäisit, miten epäluotettava ennuste voi olla aineistossa havaittujen havaittujen x-arvojen ulkopuolella, tee yhtälöön korvaus x= 90. \displaystyle\hat{y}}=-{173.51}+{4.83}{({90})}={261.19}Loppukokeen pistemäärän ennustetaan olevan 261.19. Suurin lopputenttipistemäärä voi olla 200.

Huomautus

Prosessia, jossa ennustetaan aineistossa havaittujen havaittujen x-arvojen sisällä, kutsutaan interpoloinniksi. Prosessia, jossa ennustetaan aineistossa havaittujen havaittujen x-arvojen ulkopuolelle, kutsutaan ekstrapoloinniksi.

kokeile

Tietoja kerätään musiikkisoitinta harjoittelevien viikkotuntien lukumäärän ja matematiikan kokeesta saatujen pisteiden välisestä yhteydestä. Parhaan sovituksen viiva on seuraava:

\displaystyle\hat{{y}}={72.5}+{2.8}{x}

Minkä ennustaisit matematiikan kokeen pistemäärän olevan oppilaalla, joka harjoittelee soitinta viisi tuntia viikossa?

Tietoja Centers for Disease Control and Prevention -laitokselta.

Tietoja National Center for HIV, STD, and TB Prevention -laitokselta.

Tietoja Yhdysvaltain väestönlaskentatoimistosta. Saatavilla verkossa osoitteessa http://www.census.gov/compendia/statab/cats/transportation/motor_vehicle_accidents_and_fatalities.html

Data from the National Center for Health Statistics.

Konseptin tarkastelu

Kun olet todennut vahvan korrelaatiokertoimen olemassaolon ja laskenut parhaan sovituskertoimen (line of best fit), voit käyttää pienimmän neliösumman regressiosuoraa ennusteiden tekemiseen aineistostasi.

Vastaa

Sähköpostiosoitettasi ei julkaista.