Hur man hittar korrelationskoefficienten med Excel

Hur man hittar korrelationskoefficienten med Excel

En av de enklaste och vanligaste statistiska Excel -beräkningar du kan göra är korrelation. Det är en enkel statistik, men det kan vara mycket informativt när du vill se om två variabler är relaterade. Om du känner till rätt kommandon är korreleringskoefficienten i Excel extremt lätt.





Vi tar en titt på vad korrelation är för att ge dig en uppfattning om den information som den ger dig. Sedan går vi vidare till att hitta korrelationskoefficient i Excel med två metoder och en bra graf för att titta på korrelationer. Slutligen ger jag dig en mycket snabb introduktion till linjär regression, en annan statistisk funktion som kan vara användbar när du tittar på korrelationer.





Vad är korrelation?

Innan vi börjar, låt oss diskutera definitionen av korrelation. Det är ett enkelt mått på hur saker och ting hänger ihop. Låt oss ta en titt på två variabler som inte har någon som helst korrelation.





Dessa två variabler (en ritad på X -axeln, en på Y) är helt slumpmässiga och är inte nära besläktade.

De två variablerna nedan är dock korrelerade:



I allmänhet, när en variabel stiger, så ökar den andra. Det är korrelation. (Observera att det kan vara tvärtom också, om en går upp och den andra går ner är det en negativ korrelation.)

Förstå korrelationskoefficienten

Korrelationskoefficienten berättar hur relaterade två variabler är. Koefficienten är mellan -1 och 1. En korrelationskoefficient på 0 betyder att det absolut inte finns någon korrelation mellan två variabler. Detta är vad du bör få när du har två uppsättningar slumpmässiga nummer.





En koefficient på -1 betyder att du har en perfekt negativ korrelation: när en variabel ökar minskar den andra proportionellt. En koefficient på 1 är en perfekt positiv korrelation: när en variabel ökar, ökar den andra också proportionellt.

Varje tal mellan dem representerar en skala. En korrelation på .5 är till exempel en måttlig positiv korrelation.





Som du kan se i grafiken nedan letar korrelation bara efter ett linjärt förhållande. Två variabler kan vara starkt relaterade på ett annat sätt och fortfarande ha en korrelationskoefficient på noll:

Bildkredit: DenisBoigelot/ Wikimedia Commons

Hur man hittar korrelationskoefficient i Excel med hjälp av CORREL

Det finns en inbyggd funktion för korrelation i Excel. CORREL -funktionen har en mycket enkel syntax:

=CORREL(array1, array2)

array1 är din första grupp av siffror och array2 är den andra gruppen. Excel spottar ut ett tal, och det är din korrelationskoefficient. Låt oss titta på ett exempel.

I detta kalkylblad har vi en lista över bilar, med modell och år, och deras värden. Jag använde funktionen CORREL för att se om modellår och värde var relaterade:

Det finns en mycket svag positiv korrelation; så när året går upp, så gör också fordonets värde. Men inte särskilt mycket.

Grafiska korrelationer

När du kör korrelationer är det en bra idé att använda en spridningsdiagram för att få en visuell förståelse för hur dina datamängder är relaterade. Gå till Diagram> Scatter för att se hur dina data ser ut:

Du kan se att i dessa data påverkar bilens år inte värdet särskilt mycket. Det finns en lätt positiv trend, men den är svag. Det är vad vi hittade med vår CORREL -funktion.

Ett annat användbart element i en scatterplot är en trendlinje, som ser ut så här:

Trendlinjen kan vara användbar när du vill göra en korrelation tydlig i din scatterplot. I Windows, klicka på Kartverktyg> Design> Lägg till diagramelement och välj trendlinje . På en Mac måste du gå till Diagramlayout eller Diagramdesign beroende på utgåvan av Excel.

Och glöm inte att kolla in vår guide för att göra bra diagram i Excel innan du presenterar några fynd!

Korrelera flera variabler med dataanalysverktygspaketet

Om du har många olika uppsättningar av siffror och du vill hitta korrelationer mellan dem måste du köra CORREL -funktionen på varje kombination. Med Data Analysis Toolpak kan du dock välja ett antal datamängder och se var korrelationer ligger.

Är du osäker på om du har Data Analysis Toolpak? Kolla in vår genomgång av grunderna att ladda ner och få koll på det.

hur man fixar svart skärm av döden

För att starta Toolpak, gå till Data> Dataanalys . Du kommer att se en lista med val:

Välj Korrelation och slog OK .

I det resulterande fönstret väljer du alla dina datamängder i Inmatningsområde och berätta för Excel var du vill att dina resultat ska placeras:

Här är vad du får när du slår OK :

I bilden ovan har vi kört korrelationer med fyra olika datamängder: året, världens befolkning och två uppsättningar slumpmässiga tal.

Varje datasets korrelation med sig själv är 1. Året och världens befolkning har en extremt stark korrelation, medan det finns mycket svaga korrelationer någon annanstans, som vi förväntar oss med slumpmässiga tal.

en annan dator använder denna ip -adressfönster

Korrelation vs. linjär regression i Excel

Korrelation är ett enkelt mått: hur nära besläktade är två variabler? Detta mått har dock inget prediktivt eller orsakande värde. Bara för att två variabler är korrelerade betyder det inte att den ena orsakar förändringar i den andra. Det är en avgörande sak att förstå om korrelation.

Om du är intresserad av att göra anspråk på kausalitet måste du använda linjär regression. Du kan också komma åt detta via Data Analysis Toolpak. (Den här artikeln täcker inte detaljerna om hur linjär regression fungerar, men det finns gott om gratis statistikresurser som kan leda dig igenom grunderna.)

Öppna Data Analysis Toolpak, välj Regression och klicka på OK .

Fyll i X- och Y -intervallet (X -värdet är förklaringsvariabeln och Y -värdet är det värde du försöker förutsäga). Välj sedan vart du vill att din produktion ska gå och klicka på OK på nytt.

Siffran du vill fokusera på här är p-värdet för din förklarande variabel:

Om det är mindre än 0,05 har du ett starkt argument att förändringar i din X -variabel orsakar förändringar i din Y -variabel. I bilden ovan har vi visat att året är en betydande förutsägare för världens befolkning.

Linjär regression är också användbar eftersom den kan titta på flera värden. Här har vi använt regression för att se om år och befolkning är betydande förutsägare för råoljepriset:

Båda p-värdena är mindre än 0,05, så vi kan dra slutsatsen att både år och världens befolkning är betydande förutsägare för priset på råolja. (Även om starka korrelationer mellan X -variabler kan orsaka egna problem.)

Återigen är detta en mycket förenklad förklaring till linjär regression, och om du är intresserad av kausalitet bör du läsa om några statistikstudier.

Men nu har du en uppfattning om hur du går utöver enkel korrelation om du letar efter mer statistisk information!

Få bättre data ur Excel

Att förstå grundläggande statistiska funktioner i Excel kan hjälpa dig att få mycket mer användbar information från dina data. Korrelation är en enkel åtgärd, men det kan vara en stor hjälp när du försöker göra anspråk på siffrorna i ditt kalkylblad.

Naturligtvis kan du köra många andra mer komplicerade åtgärder. Men om du inte känner dig bekväm med statistik vill du börja med grunderna .

Använder du Excel -korrelationsfunktionen regelbundet? Vilka andra statistiska funktioner skulle du vilja lära dig om?

Dela med sig Dela med sig Tweet E-post Här är varför FBI utfärdade en varning för Hive Ransomware

FBI utfärdade en varning om en särskilt otäck stam av ransomware. Här är varför du måste vara särskilt försiktig med Hive -ransomware.

Läs Nästa
Relaterade ämnen
  • Produktivitet
  • Microsoft excel
Om författaren Sedan Albright(506 artiklar publicerade)

Dann är en innehållsstrategi och marknadsföringskonsult som hjälper företag att skapa efterfrågan och leads. Han bloggar också om strategi och innehållsmarknadsföring på dannalbright.com.

Mer från Dann Albright

Prenumerera på vårt nyhetsbrev

Gå med i vårt nyhetsbrev för tekniska tips, recensioner, gratis e -böcker och exklusiva erbjudanden!

Klicka här för att prenumerera