Slik får vi orden i dataene

Akkurat slik det ikke finnes en universell oppskrift for å lage god mat, finnes det heller ikke en fasit for nøyaktig hvordan man sorterer og rydder data til enhver brukssituasjon.
Likevel er det forskjell på en god og dårlig kokk – og likeså god og dårlig bruk av data. Det handler rett og slett i stor grad om å følge noen viktige prinsipper. Prinsipper som sunn fornuft, nøyaktig forarbeid, research og tydelige planer, for eksempel. Ikke akkurat rakettforskning!

….eller er det nettopp rakettforskning det er?

Slik senket en data-blunder NASAs mest avanserte romfartøy.

Den viktige opprydningen – mellom innsamling og anvendelse

I et bibliotek sorteres bøker etter sjanger og tema, for deretter å alfabetiseres. Dette er for å gjøre det enklere å finne frem til de bøkene man leter etter.

Når vi sorterer og rydder opp i data, er målet på mange måter det samme. Vi ønsker å kategorisere informasjonen på en fornuftig måte – tilpasset et spesifikt mål – for å gjøre sammensetningen av data forståelig og enklere å finne frem i for mennesker og maskiner.

Denne struktureringen må også foregå et bestemt sted, som et regneark eller en database. Hva slags verktøy en jobber med, vil i neste omgang være avgjørende for hva en kan gjøre med dataene.

I noen tilfeller gjør et godt, gammelt regneark og manuell plotting susen. Har du noensinne sortert en tabell – for eksempel fakturaer – etter stigende verdi? Da har du ikke bare sortert data. Du har sortert etter en bestemt numerisk rekkefølge.

I andre tilfeller, når vi for eksempel snakker om avansert dataanalyse eller stordata, vil vi benytte oss av andre virkemidler enn manuell plotting.

Excel kan være et fantastisk verktøy, men det har også sine begrensninger; det er ikke det store selskaper som DNB og Telenor bruker når de analyserer milliarder av transaksjoner, eller overvåker aktivitet i mobilnettet. Her brukes i stedet databaser og andre lagringsstrukturer som du lærte om i forrige kapittel; typisk vil dette være bygget på en skybasert plattform som Microsoft Azure, der virksomhetene har skreddersydde løsninger for innhenting, bearbeiding og bruk av data.

I neste emne skal vi gå litt mer i dybden på data science, som er det vi snakker om når vi begynner å jobbe med avansert statistikk, programmering og maskinlæring i tilknytning til data. Men for nå, la oss starte med et litt enklere eksempel.

Et enkelt prosjekt

I forrige emne snakket vi om hva vi trenger å tenke på for å sikre god datakvalitet, og brukte lønnsnivåer som eksempel. La oss nå gjøre dette mer konkret:

Forestill deg at du som del av en skoleoppgave ønsker å kartlegge lønnsutvikling og likestilling i IT-bransjen. Dette skal ikke være noen stor og representativ studie på SSB-nivå, men et nokså enkelt tverrsnitt som gir en pekepinn på situasjonen.

Du får med deg fem selskaper i den lille studien, med i snitt 20 ansatte. Det du ønsker å finne ut, er blant annet om det er noe tegn til systematisk forskjellsbehandling i lønn og lønnsvekst etter kjønn, type stilling og avdeling. Du er ingen profesjonell data scientist, og vil holde dette nokså enkelt. Så hva gjør du?

La oss ta det steg for steg:

1. Identifisere data

Du ønsker å kunne sammenligne lønn og lønnsvekst etter blant annet kjønn, alder, stilling og avdeling. Noen av selskapene bruker også utviklere i utlandet, og du vil derfor også legge inn arbeidssted som en variabel. Derfor må du samle all denne informasjonen.

Hver virksomhet sender deg informasjonen du trenger. De ansatte har samtykket til å dele de aktuelle opplysningene, og alle er blitt anonymiserte – men ettersom individer fortsatt kan være identifiserbare, skal datagrunnlaget holdes konfidensielt og eventuelle funn generaliseres.

2. Valg av verktøy

Akkurat som at en kokk trenger et kjøkken, må du ha et sted å jobbe med dataene. For folk flest vil det da være snakk om et regneark. Programmer som Microsoft Excel, Google Regneark, Numbers og tilsvarende er relativt enkle å komme i gang med, samtidig som de er svært kraftige. Inntil et visst punkt, så klart.

For å bruke kokkemetaforen igjen: Skal du skalere opp og profesjonalisere serveringen, kommer du til et punkt der du også må skalere opp fasilitetene – med databaser, skytjenester, API-er og det hele. Men det er ikke dermed sagt at du trenger et industrikjøkken for å lage gourmetmat.

Så for nå holder vi oss til hjemmekjøkkenet – og god gammeldags manuell plotting i Excel.

3. Opprydding i dataene

Så var det opprydningen.

Nå som vi snakker matlaging (ja, det er en god metafor, så vær tålmodig med oss!), tilsvarer dette det som kokkene kaller «prep»: Du vil sjekke kvaliteten på råvarene, måle opp riktig, kutte grønnsaker, finne frem sauser og krydder, og sette alt klart på benken.

Har du dette klart og ryddig – du vet hvor alt er, og hva som skal gjøres – blir det veldig mye enklere når du senere står der med to gryter som holder på å koke over og en nedtellingsklokke som piper.

Så hva er Excel-ekvivalenten av kokkenes prep? Da må vi bruke alt det vi lærte i emnet om datakvalitet.

Her er en liten sjekkliste for dette prosjektet:

Sortering: Sorter dataene slik at hver rad og kolonne har lignende verdier. For eksempel at data om «Inntekt» er samlet i én kolonne, «Kjønn» i en annen, og «Avdeling» i en tredje
Variabler: Sørg for at alle variabler er tilstede. Ønsker du å kunne sammenligne ut ifra utdanning og ansiennitet? Da må du ha egne kolonner for dette og sørge for at du har de nødvendige dataene
Navngiving: Vær konsekvent i hvordan du navngir variablene. Unngå for eksempel å bruke «Lønn» ett sted, «Inntekt» et annet og «Salary» et tredje. Her kan du bruke «Finn og erstatt»-funksjonen for å rydde opp. Gjør også stavekontroll, fjern unødvendige mellomrom, og så videre. Det er viktig at alt er helt likt slik at det blir riktig strukturert og sorterbart
Formatering: Sjekk at tall og verdier er formatert riktig – for eksempel at tall faktisk er formatert som tall og ikke tekst (da de ikke vil inkluderes i utregninger)
Enheter: Er lønnen til utviklerne i utlandet oppgitt i Euro? Da må de regnes om til norske kroner for å sammenlignes med de norske lønningene
Duplikater: Finn og fjern duplikater og overlappende data

Nøkkelen her er altså å ha oversikt og kontroll: Du vil sørge for at du ikke har overlappende data, ufullstendige data, upålitelige data, manglende verdier, og så videre. Og du vil strukturere dette på en måte som gjør det oversiktlig og sammenlignbart.

Fremfor alt må du være trygg på datakvaliteten – altså at dataene faktisk stemmer overens med det de skal representere i virkeligheten, slik vi lærte om i forrige emne. Dataene skal være korrekte, fullstendige, aktuelle, pålitelige, konsistente og synkrone – og uten skjevheter og forutinntatthet som kan farge sluttresultatene.

4. Fra data til innsikt

Når du har identifisert, samlet inn, strukturert og ryddet opp i dataene, begynner den virkelige moroa.

Ettersom du har strukturert dataene godt, kan du nå bruke formler og funksjoner i Excel til å regne ut gjennomsnitt, lage grafer og diagrammer og ta andre grep som henter ut og synliggjøre innsiktene du er ute etter.

Visualiseringer – som vi skal snakke mer om i neste kapittel – gjør det lettere å se og forstå funnene enn hvis vi bare skal forholde oss til rader og kolonner med tall. Enkle søylediagrammer gjør det for eksempel enkelt å visualisere snittlønn etter selskap, avdeling, kjønn, alder og ansiennitet.

Eller se for deg et linjediagram (du vet – sånne kurver som ser ut som en fjellkjede i et koordinatsystem) der «utviklere» får en rød linje, «designere» får fargen gul og «selgere» blå. Y-aksen viser månedsinntekt i snitt for gruppen, mens X-aksen viser utviklingen fra år til år. Deler du i tillegg opp hver avdeling etter kjønn, kan det kanskje begynne å vise seg en del interessante trender.

Når datagrunnlaget først er på plass, er mulighetene kort sagt mange for hva du kan gjøre. Alt dette vil du lære mer om i kapittel 5.

I visse tilfeller kan samling, opprydning og alt det andre som inngår i klargjøring av data være en omstendelig prosess, for eksempel i møte med komplekse problemer og/eller et stort og uoversiktlig datagrunnlag.

Før vi går videre inn på den faktiske bruken av data i neste kapittel, skal vi derfor først gå litt mer i dybden på dette – og se på noen litt mer kompliserte situasjoner og kraftigere verktøy for å strukturere og sortere data.