Analyse: Hva, hvordan – og hvorfor

Dataanalyse handler om å gi dataene liv. De er blitt samlet inn, ryddet opp i og strukturert. Men hva betyr de? Det er nå vi skal nyttiggjøre våre nuller og ettall til å hente ut innsikt og få svar på spørsmålene våre.
Hvilke trender og mønstre blir tydelige for oss, når vi sammenstiller inntektskilder og budsjetter fra de siste årene? Og hvordan kan historiske værdata og lydopptak av isbreer gi oss svar om klimakrisen?
En analyse er i bunn og grunn en god forklaring. Det gir oss grunnlaget for en konkret vurdering av hva som har skjedd, hvorfor det har skjedd, hva man burde gjort annerledes, hva man skal gjøre annerledes – eller hva som vil skje i fremtiden. Hva gjorde vi galt og hvorfor ble det slik? Hvilke grep bør vi ta fremover for å hindre at dette skjer igjen?
Selv om forarbeidet og datagrunnlaget har vært aldri så komplekst, bør konklusjonen av analysen være tydelig og oversiktlig – selv for folk som ikke kan forskjellen på rekker og rader, entiteter og attributter. Det hele skal resultere i klare sammenfatninger. Her kan vi få hjelp av blant annet visualiseringer og såkalte «dashbord», som vi skal se mer på senere.

Hvordan analyseres data?

Under analyser bryter man opp et problem i en rekke bestanddeler, undersøker dem metodisk hver for seg – for til slutt å finne ut av hva summen av delene og sammenhengene mellom dem forteller oss. Da ser vi ofte etter mønstre og sammenhenger i dataene.
Som så veldig mye vi har snakket om i Datareisen, er ikke dette én enkelt ting eller operasjon. Det finnes en rekke ulike teknikker, verktøy og fremgangsmåter. Hvordan man analyser data handler derfor veldig ofte om hvilke data man analyserer – og med hvilken hensikt.
Når vi samler inn og strukturerer data, er det ofte for å forberede en analyse for et bestemt formål. Som du husker: vi jobber «baklengs» fra målet for å finne ut hvilke data vi trenger og hva vi skal gjøre med dem. Og vi jobber iterativt for å faktisk komme tilbake til målstreken.
Hvilke metoder og verktøy vi har å jobbe med, kommer da også an på konteksten. Det er to veldig ulike ting å se på kundeadferd på en nettside ved hjelp av et brukervennlig verktøy som gjør grovarbeidet for deg, sammenlignet med å analysere data om en isbre gjennom flere tiår, der må du strukturere dataene på egenhånd og gå løs på disse med statistikk og algoritmer.
Ting som statistikk, maskinlæring og datautvinning – som ville vært relevant å bruke i isbre-eksempelet – skal vi se nærmere på snart. Men først, la oss se på dette fra en annen innfallsvinkel. I stedet for å se på hvordan vi gjør analyser, kan vi lage noen kategorier for hvorfor vi analyserer data – eller rettere sagt: hva slags ting vi ønsker å finne ut.

Hva kan vi finne ut med analysen?

Hva, hvordan og hvorfor: Det høres ut som begynnelsen på en quizbok, dette her! Men stol på oss, når dette kapittelet er over, vil du sitte igjen med flere svar enn spørsmål. Dette er nemlig ikke hypotetiske spørreord, stilt ut i tom luft – men oppskriften på en svært så konkret fremgangsmåte for å komme frem til løsninger på et problem.
Se for deg at vi skal analysere et sjakkparti. Magnus Carlsen har gjort det umulige. Verdens sjakkeksperter klør seg i hodene, selv ikke de kunstig intelligente sjakkrobotene klarte å henge med på notene. Et parti så revolusjonerende at sjakkens grunnprinsipper må revurderes, og alle stiller seg det samme spørsmålet: Hvordan klarte han det?
Vel, først må vi finne ut av hva som har skjedd. La oss se på dette helt isolert: Hvilke åpningstrekk har han tatt, hvordan har bondestrukturen utviklet seg i forhold til motstanderens angrep? Steg for steg noterer vi oss samtlige trekk, fra første åpning, via rokade og dronningoffer til en knusende sjakk matt. Dette er en deskriptiv analyse.

Fakta

Deskriptiv analyse

Deskriptiv analyse handler om å samle, undersøke og analysere data for å gi et bilde av noe som allerede har skjedd. En deskriptiv analyse er gjerne det som presenteres i en rapport, og handler om å oppsummere faktiske forhold for å gi grunnlag for videre analyse.
Hvordan var regnskapstallene fra forrige kvartal? Hvor mange mennesker pendlet fra Gjøvik til Lillehammer i fjor? Økte seertallene for Maskorama fra 2021 til 2022? Dette er flere eksempler på deskriptiv analyse.

Nå som vi vet detaljene om hva som skjedde, kan vi se mer på hvorfor det utspilte seg som det gjorde. Kan vi se på noen tidligere sjakkpartier for å forstå hvorfor Carlsen gjør som han gjør? Har han funnet og utnyttet en svakhet hos motstanderen, og kan det forklare den uvanlige åpningen? Kan vi bruke andre kilder som kan hjelpe oss med å forklare det helt uforutsigbare dronningofferet i midtspillet?
Når vi analyserer for å kartlegge et totalbilde og identifisere årsaker, kalles det for en diagnostisk analyse. Hvorfor ofret han dronningen? Jo, vår analyse viser at trekket frigjorde to springere og en løper som sammen både kunne beskytte egne brikker og true motstanderens konge.

Fakta

Diagnostisk analyse

Så la oss si at premieren av Maskorama mistet en haug med seere i 2022, sammenlignet med året før. Hvorfor det, egentlig? Der den deskriptive analysen viste hva som var skjedd – seertallene gikk ned – handler den diagnostiske analysen om å finne de bakenforliggende årsakene til dette. Her går vi inn for å avdekke problemer, forstå trender og legge til rette for informerte, databegrunnede valg i fremtiden.
For å skaffe til veie hele bildet, kan det være nødvendig å skaffe innsikt om mer enn bare spesifikt det du undersøker – som i dette tilfellet seertall på NRK. Ting skjer sjeldent i isolasjon, men påvirkes av eksterne faktorer. At populære Skal vi danse ble sendt på TV2 samtidig som premieren av Maskorama kan være en del av forklaringen.
Her er viktig å etablere årsakssammenhenger, og skille tilfeldige korrelasjoner (altså at noe henger sammen, eller skjedde samtidig) fra kausalitet (at det ene forårsaket det andre).
I dataene for et bestemt år, som 2020, kan vi da for eksempel tenke oss at vi ser en klar sammenheng mellom høye seertall på TV og uvanlig mange sykehusinnleggelser (en korrelasjon). Det kunne vært fort gjort å konkludere med at det er å se på TV som har forårsaket sykehusinnleggelsene, men det ville vært en tabbe. I stedet har begge deler, uavhengig av hverandre, koronapandemien som bakenforliggende årsak (kausalitet).
Gjennom å finne de faktiske årsakssammenhengene – hvorfor det er mindre penger på kassa enkelte dager, hvorfor en dyreart forsvinner fra naturen – kan vi ta mer informerte valg i fremtiden.
Genialt! Vel, ikke bare var dette dronningofferet så utrolig smart. Partiet var også proppfullt av en hel rekke andre gode trekk vi kan lære av. Men kan vi bruke dette partiet til å lære noe om fremtiden?
Ja, det kan vi faktisk. Ved å sammenstille partiet med flere tusen andre partier kan vi – med stor grad av presisjon – forutse hvordan ulike stillinger kan utvikle seg, og ved hjelp av analyseverktøy predikere motstanderes beste trekk i en gitt situasjon.
Å bruke data for å finne ut av hva som kommer til å skje, når det vil skje og hvorfor det vil skje, kalles for prediktiv analyse.

Fakta

Prediktiv analyse

Før i tiden var det bare spåkoner og sci-fi som virkelig kunne påberope seg å spekulere i fremtiden. Men med ny teknologi kan vi faktisk, med høy grad av presisjon og nøyaktighet, se glimt av hva som kan skje i neste uke, neste måned og til og med flere år frem i tid.
Hvem vinner morgendagens fotballkamp? Når bør komponentene i vindmølleturbinen byttes ut? Kommer renta til å stige? Det å komme med forutsigelser og sannsynlighetsberegninger for fremtidige hendelser kalles for prediktiv analyse.
Man kan selvfølgelig aldri være helt sikker på hva som vil skje i fremtiden, men ved hjelp av teknikker som avansert statistikk og maskinlæring kan man hente ut innsikt fra enorme mengder data. Det er nettopp fordi handlinger og hendelser har konsekvenser, og vi kan finne mønstre og årsakssammenhenger – A leder vanligvis til B, og X leder som regel til Y – at prediktiv analyse er noe helt annet enn å stikke fingeren i lufta og kjenne etter hvilken vei vinden blåser.
For å si det med sjakkspråk: Dette er jo helt konge. Nå vet vi hva som har skjedd, hvorfor Carlsen har valgt de trekkene han har gjort – og vi har en del fornuftige antakelser om hvordan disse helt nye strategiene kan påvirke fremtidige situasjoner.
Verdens sjakkeksperter – med Hans Olav Lahlum som engasjert frontfigur – har analysert partiet opp og ned i mente. De har zoomet inn på de små avgjørelsene og sett det store bildet. Spørsmålet nå er som følger: Hva skal vi gjøre med all denne nye informasjonen?
Jo, vi kan bruke denne informasjonen til å komme med anbefalinger for hvordan sjakk bør spilles. Faktisk er det slik en del programmerte sjakkroboter fungerer: De lærer av tidligere spill for å komme frem til de matematisk beste trekkene.
Å bruke data for å finne ut av hva vi bør gjøre med det som skjer, kalles for preskriptiv analyse.

Fakta

Preskriptiv analyse

Så du har analysert hva som har skjedd, hvorfor det har skjedd, og til og med hva som kan skje frem i tid. Hva skal du gjøre med all denne informasjonen?
Preskriptiv analyse handler om å knytte innsikten fra deskriptiv, diagnostisk og prediktiv analyse til konkrete handlingsplaner – og for å kunne gi anbefalinger om hva som bør gjøres i en gitt situasjon. Dette gjøres ved å kombinere data med matematiske modeller og algoritmer for å utforske mulige scenarier og for å finne ut hvilke løsninger som vil gi de beste resultatene.
I bunn er målet det samme som i alle analyser: Å bidra til å gjøre beslutningsprosesser mer informerte og effektive.
Dette sjakkeksempelet er fiktivt, men tankegangen kan overføres til de fleste prosesser i alle slags mulige situasjoner. Som vi har sett overlapper kategoriene og henger sammen.
La oss oppsummere de raskt, en gang til:
  • Deskriptiv analyse: Hva har skjedd?
  • Diagnostisk analyse: Hvorfor skjedde det?
  • Prediktiv analyse: Hva kommer til å skje, når vil det skje og hvorfor vil det skje?
  • Preskriptiv analyse: Hva bør vi gjøre med det som skjer?
Men å gjøre en analyse, være seg av et sjakkparti eller budsjett, er sjeldent noe vi gjør helt på egenhånd, uten hjelp fra ulike verktøy. La oss ta en titt på de viktigste hjelpemidlene vi har for å analysere data.