Find dette eksempel tilbage fra tidligere indhold:

En tilfældig stikprøve af 11 statistikstuderende gav følgende data, hvor
x er den tredje eksamensscore ud af 80, og y er den endelige eksamensscore ud af 200. Kan du forudsige den endelige eksamensscore for en tilfældig studerende, hvis du kender den tredje eksamensscore?

x (karakter for tredje eksamen) y (karakter for sidste eksamen)
65 175
67 133
71 185
71 163
66 126
75 198
67 153
70 163
71 159
69 151
69 159

Tabel, der viser resultaterne ved den afsluttende prøve på grundlag af resultaterne fra den tredje prøve.

Dette er et spredningsdiagram af de leverede data. Scoren for den tredje eksamen er plottet på x-aksen, og scoren for den afsluttende eksamen er plottet på y-aksen. Punkterne danner et stærkt, positivt, lineært mønster.Spredningsdiagram, der viser scoren på den afsluttende eksamen baseret på scoren fra den tredje eksamen.

Vi undersøgte spredningsdiagrammet og viste, at korrelationskoefficienten er signifikant. Vi fandt ligningen for den bedst tilpassede linje for karakteren ved den afsluttende eksamen som en funktion af karakteren ved den tredje eksamen. Vi kan nu bruge regressionslinjen med mindste kvadraters regression til forudsigelse.

Sæt, at du ønsker at estimere, eller forudsige, den gennemsnitlige karakter til den afsluttende eksamen for de statistikstuderende, der fik 73 til den tredje eksamen. Eksamenskaraktererne (x-værdierne) varierer fra 65 til 75. Da 73 ligger mellem x-værdierne 65 og 75, skal du indsætte x = 73 i ligningen. Derefter:

\displaystyle\hat{{y}}}=-{173,51}+{4,83}{({73})}={179,08}

Vi forudsiger, at statistikstuderende, der får 73 til den tredje eksamen, i gennemsnit vil få 179,08 til den afsluttende eksamen.

Eksempel

Brug ovenstående data til dette eksempel:

  1. Hvad vil du forudsige, at den endelige eksamenskarakter vil være for en studerende, der fik 66 til den tredje eksamen?
  2. Hvad ville du forudsige, at den endelige eksamensscore ville være for en elev, der scorede 90 til den tredje eksamen?

Løsning:

  1. 145,27
  2. X-værdierne i dataene ligger mellem 65 og 75. 90 ligger uden for domænet for de observerede x-værdier i dataene (den uafhængige variabel), så du kan ikke forudsige den endelige eksamensscore for denne elev på pålidelig vis. (Selv om det er muligt at indtaste 90 i ligningen for x og beregne en tilsvarende y-værdi, vil den y-værdi, du får, ikke være pålidelig.) For virkelig at forstå, hvor upålidelig forudsigelsen kan være uden for de observerede x-værdier, der er observeret i dataene, skal du foretage substitutionen x= 90 i ligningen.\displaystyle\hat{{y}}=-{173,51}+{4,83}{({90})}={261,19}Den endelige eksamensscore forudsiges at være 261,19. Den største score for den endelige eksamensscore kan være 200.

Note

Processen med at forudsige inden for de observerede x-værdier observeret i dataene kaldes interpolation. Processen med at forudsige uden for de observerede x-værdier, der er observeret i dataene, kaldes ekstrapolation.

Data indsamles om forholdet mellem antallet af timer om ugen, hvor man øver et musikinstrument, og resultaterne i en matematikprøve. Linjen med den bedste tilpasning er som følger:

\displaystyle\hat{{y}}}={72.5}+{2.8}{x}

Hvad vil du forudsige, at scoren på en matematikprøve vil være for en elev, der øver et musikinstrument i fem timer om ugen?

Data fra Centers for Disease Control and Prevention.

Data fra National Center for HIV, STD, and TB Prevention.

Data fra United States Census Bureau. Tilgængelig online på http://www.census.gov/compendia/statab/cats/transportation/motor_vehicle_accidents_and_fatalities.html

Data fra National Center for Health Statistics.

Konceptgennemgang

Når du har fastslået tilstedeværelsen af en stærk korrelationskoefficient og beregnet linjen for bedste tilpasning, kan du bruge regressionslinjen for de mindste kvadraters regression til at foretage forudsigelser om dine data.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.