Håll dig till det här exemplet från tidigare innehåll:
Ett slumpmässigt urval av 11 statistikstuderande producerade följande data, där
x är den tredje tentamenspoängen av 80, och y är den sista tentamenspoängen av 200. Kan du förutsäga den sista tentamenspoängen för en slumpmässig student om du känner till den tredje tentamenspoängen?
x (resultat på tredje provet) | y (resultat på sista provet) |
---|---|
65 | 175 |
67 | 133 |
71 | 185 |
71 | 163 |
66 | 126 |
75 | 198 |
67 | 153 |
70 | 163 |
71 | 159 |
69 | 151 |
69 | 159 |
Tabell som visar resultaten på slutprovet baserat på resultaten från det tredje provet.
Spridningsdiagram som visar poängen på slutprovet baserat på poängen från det tredje provet.
Vi undersökte spridningsdiagrammet och visade att korrelationskoefficienten är signifikant. Vi hittade ekvationen för den bäst passande linjen för betyget på slutprovet som en funktion av betyget på det tredje provet. Vi kan nu använda regressionslinjen för minsta kvadraters regression för förutsägelse.
Antag att du vill uppskatta, eller förutsäga, det genomsnittliga slutprovsbetyget för de statistikstudenter som fick 73 på det tredje provet. Tentamensresultaten (x-värdena) varierar mellan 65 och 75. Eftersom 73 ligger mellan x-värdena 65 och 75, ska du sätta in x = 73 i ekvationen. Då:
\displaystyle\hat{{y}}=-{173,51}+{4,83}{({73})}={179,08}
Vi förutspår att statistikstudenter som får betyget 73 på det tredje provet kommer att få betyget 179,08 på slutprovet, i genomsnitt.
Exempel
Använd uppgifterna ovan för det här exemplet:
- Vad skulle du förutsäga att betyget på slutprovet blir för en student som fick 66 på det tredje provet?
- Vad skulle du förutsäga att slutbetyget på provet blir för en elev som fick 90 poäng på det tredje provet?
Lösning:
- 145,27
- X-värdena i data ligger mellan 65 och 75. Nittio ligger utanför domänen för de observerade x-värdena i data (oberoende variabel), så du kan inte på ett tillförlitligt sätt förutsäga slutprovsresultatet för den här eleven. (Även om det är möjligt att skriva in 90 i ekvationen för x och beräkna ett motsvarande y-värde kommer det y-värde som du får inte att vara tillförlitligt.) För att verkligen förstå hur otillförlitlig förutsägelsen kan vara utanför de observerade x-värdena som observerats i data, gör substitutionen x= 90 i ekvationen. \displaystyle\hat{{y}}=-{173.51}+{4.83}{({90})}={261.19}Det slutliga tentamensresultatet förutses bli 261.19. Det största resultatet för den slutliga tentamen kan vara 200.
Note
Processen att förutsäga inuti de observerade x-värdena som observerats i data kallas för interpolation. Processen att förutsäga utanför de observerade x-värdena som observerats i data kallas extrapolation.
försök
Data samlas in om förhållandet mellan antalet timmar per vecka som man övar ett musikinstrument och resultaten på ett matematiskt test. Linjen för bästa anpassning är följande:
\displaystyle\hat{{y}}={72.5}+{2.8}{x}
Vad skulle du förutsäga att poängen på ett matematiskt prov skulle bli för en elev som övar på ett musikinstrument fem timmar i veckan?
Data från Centers for Disease Control and Prevention.
Data från National Center for HIV, STD, and TB Prevention.
Data från United States Census Bureau. Tillgänglig online på http://www.census.gov/compendia/statab/cats/transportation/motor_vehicle_accidents_and_fatalities.html
Data från National Center for Health Statistics.
Konceptgenomgång
När du har fastställt förekomsten av en stark korrelationskoefficient och beräknat linjen för bästa passform kan du använda regressionslinjen för minsta kvadraters regression för att göra förutsägelser om dina data.