regressionsanalys
Analys av sambandet mellan en beroende
variabel och en eller flera oberoende variabler; för begreppen
beroende variabel respektive oberoende variabel, se under oberoende variabel.
Analysens syfte kan variera. Ibland kan man vilja beskriva
hur sambandet ser ut, ofta för att kunna förutsäga värden i den beroende
variabeln med hjälp av värden på den eller de oberoende variablerna.
Eller så vill man öka förståelsen för hur samband ser ut. Eller letar
man efter en så bra modell som möjligt för att beskriva ett samband. I
analysen kan det då vara så att man prövar olika kombinationer av
oberoende variabler och/eller olika matematiska modeller.
Här behandlas bara fallet med enkel linjär regression. Ordet
enkel syftar på att endast en oberoende variabel finns och ordet linjär
på att undersökningsmaterialet, åskådliggjort i ett punktdiagram,
ansluter väl till en tänkt linje; se figur under
linjärt samband. Anm: Förekommer
mer än en oberoende variabel talar man om multipel [multi´ppel]
regression och är regressionen (regressionssambandet) inte linjär(t)
används termen krökt regression.
Här är ett starkt förenklat exempel.
Ex: En sommarförsäljare av glass är intresserad av sambandet
mellan utetemperatur på morgonen och mängden såld glass under dagen. Med
ledning av temperaturen vill han kunna förutsäga den ungefärliga mängd
glass han ska ta med sig till sin strandkiosk. Temperaturen blir här den
oberoende variabeln, x, och mängden glass den beroende variabeln, y.
1. Data insamlas. Av populationens dagar en tidigare sommar
lottar han ut fem dagar och tar för dem fram uppgifter dels om
morgontemperaturen, dels om mängden såld glass i kg. För urvalet får han
talen i de två första kolumnerna i tabellen nedan; de två övriga tjänar
som hjälpkolumner för den beräkning av regressionsekvationen som strax
kommer. Anm: En naturlig invändning är frågan ”Varför gör han
inte beräkningen säkrare genom att ta alla dagar under sommaren?”.
Svaret är ”Jo, visst borde han det”, men då blir det inget enkelt
exempel!
|
|
x |
y |
x |
x2 |
|
|
|
|
|
|
|
|
|
|
14 |
56 |
784 |
196 |
|
|
|
6 |
35 |
210 |
36 |
|
|
|
18 |
60 |
1 080 |
324 |
|
|
|
15 |
48 |
720 |
225 |
|
|
|
22 |
70 |
1 540 |
484 |
|
|
|
|
|
|
|
|
|
S:a |
75 |
269 |
4 334 |
1 265 |
|
2. En regressionsekvation beräknas. Med hjälp av talen i tabellen
kan glassförsäljaren beräkna en regressionsekvation; denna blir hans
hjälpmedel när han vill förutsäga (predicera [predise´ra]) från
temperatur, x, till glassmängd, y. Ekvationen har det allmänna utseendet
y = a + bx
där de s.k. regressionskoefficienterna a och b kan bestämmas med hjälp av formlerna nedan; deras bakgrund
förbigås. Tecknet S i formlerna är den
grekiska bokstaven ”stora sigma” och läses ”summa(n av)”.
Glassförsäljaren får via tabellinnehållet ovan att
och att
vilket ger den ungefärliga ekvationen
y = 21,8 + 2,1x
Anm: För uträkningen a » 21,7643 har
ursprungsdata använts. Sätts b » 2,1357 ovan
in i formeln för a får man det något avvikande 21,7645.
I dag görs regressionsanalys praktiskt taget alltid med hjälp
av ett statistikprogram för dator. Detta är nödvändigt om man har flera
oberoende variabler och/eller en mer komplicerad matematisk modell än en
modell för linjär regression; beräkningar för hand skulle bli orimligt
arbetssamma.
3. Prediktion görs. Antag t.ex. att morgontemperaturen är 10°.
Försäljaren sätter då in x = 10 i ekvationen och får
y = 21,8 + 2,1·10
vilket ger y = 42,8.
Han bör alltså räkna med att under dagen sälja ungefär 43 kg glass. Det
bör betonas att en förutsägelse får göras bara innanför de gränser som
sätts av det minsta och det största x-värdet i undersökningen, här x = 6
respektive x = 22.
Regressionsekvationen kan avbildas som en
regressionslinje (ibland kallad regressionskurva) i koordinatsystemet. Prediktion kan sedan göras med hjälp av denna linje.
Teoretisk anmärkning
Regressionsekvationen
y = 21,8 + 2,1x ovan är en skattning av den ekvation man skulle få
om den beräknades för den population från vilken
urvalet dagar dragits.
För att betona dess karaktär av skattning skriver man den ibland som
ŷ = 21,8 + 2,1x
där
ŷ läses ”y tak” eller ”y hatt”. Ytterligare ett skrivsätt är y', som
läses ”y prim”. Ordet prim kommer av ett latinskt ord som betyder
främst.
Till slut en allmän kommentar: Man bör komma ihåg att
regressionssambandet i exemplet har beräknats med hjälp av värdena för
ett litet urval dagar. Säg att en eller annan av dagarna är ”otypisk”;
det samband man fått kan då vara ganska missvisande. Liksom när man
skattar medelvärdet i en population med ett
konfidensintervall kan man bestämma ett intervall för
regressionslinjens lutning med hjälp av det b-värde som beräknats.
Problemet att dra slutsatser från urvalet till populationen är lika
aktuellt här som i andra urvalsfall.
Utförligare och med figur i Ordbok i statistik.
Åter |