regressionsanalys
Analys av sambandet mellan en beroende variabel och en eller flera oberoende variabler; för begreppen beroende variabel respektive oberoende variabel, se under oberoende variabel.
    Analysens syfte kan variera. Ibland kan man vilja beskriva hur sambandet ser ut, ofta för att kunna förutsäga värden i den beroende variabeln med hjälp av värden på den eller de oberoende variablerna. Eller så vill man öka förståelsen för hur samband ser ut. Eller letar man efter en så bra modell som möjligt för att beskriva ett samband. I analysen kan det då vara så att man prövar olika kombinationer av oberoende variabler och/eller olika matematiska modeller.
    Här behandlas bara fallet med enkel linjär regression. Ordet enkel syftar på att endast en oberoende variabel finns och ordet linjär på att undersökningsmaterialet, åskådliggjort i ett punktdiagram, ansluter väl till en tänkt linje; se figur under linjärt samband. Anm: Förekommer mer än en oberoende variabel talar man om multipel [multi´ppel] regression och är regressionen (regressionssambandet) inte linjär(t) används termen krökt regression.

Här är ett starkt förenklat exempel.
Ex: En sommarförsäljare av glass är intresserad av sambandet mellan utetemperatur på morgonen och mängden såld glass under dagen. Med ledning av temperaturen vill han kunna förutsäga den ungefärliga mängd glass han ska ta med sig till sin strandkiosk. Temperaturen blir här den oberoende variabeln, x, och mängden glass den beroende variabeln, y.

1. Data insamlas. Av populationens dagar en tidigare sommar lottar han ut fem dagar och tar för dem fram uppgifter dels om morgontemperaturen, dels om mängden såld glass i kg. För urvalet får han talen i de två första kolumnerna i tabellen nedan; de två övriga tjänar som hjälpkolumner för den beräkning av regressionsekvationen som strax kommer. Anm: En naturlig invändning är frågan ”Varför gör han inte beräkningen säkrare genom att ta alla dagar under sommaren?”. Svaret är ”Jo, visst borde han det”, men då blir det inget enkelt exempel!
 
      x         y x    x2  
             
    14 56 784 196  
    6 35 210 36  
    18 60 1 080 324  
    15 48 720 225  
    22 70 1 540 484  
             
  S:a 75 269 4 334 1 265  

2. En regressionsekvation beräknas. Med hjälp av talen i tabellen kan glassförsäljaren beräkna en regressionsekvation; denna blir hans hjälpmedel när han vill förutsäga (predicera [predise´ra]) från temperatur, x, till glassmängd, y. Ekvationen har det allmänna utseendet

y = a + bx

där de s.k. regressionskoefficienterna a och b kan bestämmas med hjälp av formlerna nedan; deras bakgrund förbigås. Tecknet S i formlerna är den grekiska bokstaven ”stora sigma” och läses ”summa(n av)”.

                           

Glassförsäljaren får via tabellinnehållet ovan att

och att

vilket ger den ungefärliga ekvationen

y = 21,8 + 2,1x

Anm: För uträkningen a » 21,7643 har ursprungsdata använts. Sätts b » 2,1357 ovan in i formeln för a får man det något avvikande 21,7645.
    I dag görs regressionsanalys praktiskt taget alltid med hjälp av ett statistikprogram för dator. Detta är nödvändigt om man har flera oberoende variabler och/eller en mer komplicerad matematisk modell än en modell för linjär regression; beräkningar för hand skulle bli orimligt arbetssamma.
   
3. Prediktion görs. Antag t.ex. att morgontemperaturen är 10°. Försäljaren sätter då in x = 10 i ekvationen och får

y = 21,8 + 2,1·10

vilket ger y = 42,8.

Han bör alltså räkna med att under dagen sälja ungefär 43 kg glass. Det bör betonas att en förutsägelse får göras bara innanför de gränser som sätts av det minsta och det största x-värdet i undersökningen, här x = 6 respektive x = 22.
    Regressionsekvationen kan avbildas som en regressionslinje (ibland kallad regressionskurva) i koordinatsystemet. Prediktion kan sedan göras med hjälp av denna linje.

Teoretisk anmärkning
Regressionsekvationen y = 21,8 + 2,1x ovan är en skattning av den ekvation man skulle få om den beräknades för den population från vilken urvalet dagar dragits. För att betona dess karaktär av skattning skriver man den ibland som

ŷ = 21,8 + 2,1x

där ŷ läses ”y tak” eller ”y hatt”. Ytterligare ett skrivsätt är y', som läses ”y prim”. Ordet prim kommer av ett latinskt ord som betyder främst.

Till slut en allmän kommentar: Man bör komma ihåg att regressionssambandet i exemplet har beräknats med hjälp av värdena för ett litet urval dagar. Säg att en eller annan av dagarna är ”otypisk”; det samband man fått kan då vara ganska missvisande. Liksom när man skattar medelvärdet i en population med ett konfidensintervall kan man bestämma ett intervall för regressionslinjens lutning med hjälp av det b-värde som beräknats. Problemet att dra slutsatser från urvalet till populationen är lika aktuellt här som i andra urvalsfall.

Utförligare och med figur i Ordbok i statistik.

Åter