14.3 Metoden for minste kvadrater.

14.3 Metoden for minste kvadrater.

Metoden for minste kvadrater & # xB6;

Vi har tilbaketrukket trinnene som Galton og Pearson tok for a utvikle ligningen av regresjonslinjen som gar gjennom en fotballformet scatterplot. Men ikke alle scatter-plottene er fotballformede, ikke engang line re. Har hvert spredningsdiagram et «best» linje som gar gjennom den? Hvis ja, kan vi fortsatt bruke formlene for skraningen og avskj ringen som ble utviklet i forrige avsnitt, eller trenger vi nye?

For a lose disse sporsmalene trenger vi en rimelig definisjon av «best». Husk at formalet med linjen er a forutsi eller estimere verdier pa $ y $, gitt verdier pa $ x $. Estimater er vanligvis ikke perfekte. Hver og en er av den ekte verdien ved en feil. Et rimelig kriterium for en linje som er «best» er at den har den minste mulige samlede feilen blant alle rette linjer.

I dette avsnittet vil vi gjore dette kriteriet noyaktig og se om vi kan identifisere den beste rette linjen under kriteriet.

Vart forste eksempel er et datasett som har en rad for hvert kapittel i romanen «Little Women.» Malet er a estimere antall tegn (det vil si bokstaver, mellomromstegn, etc.) basert pa antall perioder. Husk at vi forsokte a gjore dette i forste forelesning av dette kurset.

. (44 rader utelatt)

For a utforske dataene ma vi bruke funksjonene korrelasjon, skraning, avskj ring og passform som er definert i forrige seksjon.

Spredningsdiagrammet er bemerkelsesverdig n r line rt, og korrelasjonen er mer enn 0,92.

Feil i estimering & # xB6;

Grafen nedenfor viser spredningsdiagrammet og linjen som vi utviklet i forrige seksjon. Vi vet enna ikke om det er det beste blant alle linjene. Vi ma forst si noyaktig hva «beste» midler.

Tilsvarer hvert punkt pa spredningsdiagrammet, er det en prediksjonsfeil beregnet som den faktiske verdien minus den forutsagte verdien. Det er den vertikale avstanden mellom punktet og linjen, med et negativt tegn hvis punktet er under linjen.

. (37 rader utelatt)

Vi kan bruke skraning og avskj ring for a beregne skraningen og avskj ringen av den tilpassede linjen. Grafen nedenfor viser linjen (i lysebla). Feilene som svarer til fire av punktene vises i rodt. Det er ikke noe spesielt med de fire punktene. De ble bare valgt for a fa klarhet i skjermen. Funksjonen lw_errors tar en skraning og en avspilling (i den rekkefolgen) som sine argumenter og tegner figuren.

Hadde vi brukt en annen linje for a lage vare estimater, hadde feilene v rt annerledes. Grafen nedenfor viser hvor stor feilen ville v re hvis vi skulle bruke en annen linje for estimering. Den andre grafen viser store feil oppnadd ved a bruke en linje som er rett og slett dum.

Root Mean Squared Error & # xB6;

Det vi trenger na er et samlet mal pa feil storrelse. Du vil gjenkjenne tiln rmingen til a lage dette & # x2013; Det er akkurat slik vi utviklet SD.

Hvis du bruker en hvilken som helst vilkarlig linje for a beregne estimatene dine, vil noen av feilene dine trolig v re positive og andre negative. For a unnga avbestilling nar vi maler grov storrelse pa feilene, vil vi ta gjennomsnittet av de kvadratiske feilene i stedet for gjennomsnittet av feilene selv.

Den gjennomsnittlige kvadratiske estimeringsfeilen er et mal pa omtrent hvor stor kvadratfeilene er, men som vi har nevnt tidligere, er enhetene vanskelig a tolke. Ved a ta kvadratroten blir det roten gjennomsnittlig kvadratfeil (rmse), som er i de samme enhetene som variabelen blir spadd og derfor mye lettere a forsta.

Minimerer den rode middelkvadratfeilen & # xB6;

Vare observasjoner sa langt kan oppsummeres som folger.

For a fa estimater pa $ y $ basert pa $ x $, kan du bruke hvilken som helst linje du vil ha. Hver linje har en estimert estimeringsfeil for roten. & Quot; Better & quot; linjer har mindre feil.

Er det et «best» linje? Det vil si, er det en linje som minimerer rotenes gjennomsnittlige kvadratfeil blant alle linjene?

For a svare pa dette sporsmalet, begynner vi med a definere en funksjon lw_rmse for a beregne rotenes gjennomsnittlige kvadratfeil pa en hvilken som helst linje gjennom Little Women-scatterdiagrammet. Funksjonen tar hellingen og avskj ringen (i den rekkefolgen) som sine argumenter.

Darlige linjer har store verdier av rmse, som forventet. Men rmse er mye mindre hvis vi velger en skraning og avskj r n r til regresjonslinjen.

Her er rotenes gjennomsnittlige kvadratfeil som korresponderer med regresjonslinjen. Ved et bemerkelsesverdig faktum av matematikk, kan ingen annen linje sla denne.

Regresjonslinjen er den unike rette linjen som minimerer gjennomsnittlig kvadratisk estimeringsfeil blant alle rette linjer.

Beviset for denne utsagnet krever abstrakt matematikk som ligger utenfor omfanget av dette kurset. Pa den annen side har vi et kraftig verktoy & # x2013; Python & # x2013; som utforer store numeriske beregninger med letthet. Sa vi kan bruke Python for a bekrefte at regresjonslinjen minimerer gjennomsnittlig kvadratfeil.

Numerisk optimalisering & # xB6;

Forst merk at en linje som minimerer rotenes gjennomsnittlige kvadratfeil ogsa er en linje som minimerer kvadratfeilen. Kvadratroten gjor ingen forskjell i minimeringen. Sa vi vil redde oss selv et trinn med beregning og bare minimere den gjennomsnittlige kvadratfeilen (mse).

Vi prover a forutsi antall tegn ($ y $) basert pa antall perioder ($ x $) i kapitlene Little Women. Hvis vi bruker linjen $$ \ mbox.

oks + b $$ det vil ha en mse som avhenger av hellingen $ a $ og avskj ringen $ b $. Funksjonen lw_mse tar skraningen og avskj rer som sine argumenter og returnerer tilsvarende mse.

La oss kontrollere at lw_mse far det riktige svaret for rotenes gjennomsnittlige kvadratfeil pa regresjonslinjen. Husk at lw_mse returnerer den gjennomsnittlige kvadratfeilen, sa vi ma ta kvadratroten for a fa rmse.

Det er det samme som verdien vi fikk ved a bruke lw_rmse tidligere:

Du kan bekrefte at lw_mse returnerer riktig verdi for andre bakker og avlyser ogsa. For eksempel er her rmse av den ekstremt darlige linjen som vi provde tidligere.

Og her er rmse for en linje som ligger n r regresjonslinjen.

Hvis vi eksperimenterer med forskjellige verdier, kan vi finne en lavfeilhelling og avskj re gjennom prove og feil, men det vil ta en stund. Heldigvis finnes det en Python-funksjon som gjor alt forsok og feil for oss.

Minimerfunksjonen kan brukes til a finne argumenter for en funksjon som funksjonen returnerer sin minimumsverdi. Python bruker en lignende prove-og-feil tiln rming, etter endringene som forer til trinnvis lavere utdataverdier.

Minimeringsargumentet er en funksjon som i seg selv tar numeriske argumenter og returnerer en numerisk verdi. For eksempel tar funksjonen lw_mse en numerisk helling og avskj rer som sine argumenter og returnerer tilsvarende mse.

Samtalen minimerer (lw_mse) returnerer en gruppe som bestar av skraningen og avskj ringen som minimerer mse. Disse minimeringsverdiene er gode tiln rminger tilveiebrakt av intelligent prove-og-feil, ikke eksakte verdier basert pa formler.

Disse verdiene er de samme som verdiene vi tidligere har beregnet ved hjelp av skraning og avskj ringsfunksjonene. Vi ser sma avvik pa grunn av den unoyaktige naturen til a minimere, men verdiene er i det vesentlige de samme.

Den minste kvadratlinjen & # xB6;

Derfor har vi ikke bare funnet at regresjonslinjen minimerer gjennomsnittlig kvadratfeil, men ogsa at minimering av gjennomsnittlig kvadratfeil gir oss regresjonslinjen. Regresjonslinjen er den eneste linjen som minimerer gjennomsnittlig kvadratfeil.

Derfor er regresjonslinjen noen ganger kalt «minste firkantlinjen». »