En dag i en data scientist sitt liv
Du husker i første kapittel, da du lærte om data science? Det er det tverrdisiplinære fagområdet som kombinerer blant annet statistikk, programmering, dataanalyse og forretningsforståelse – med den hensikt å strukturere data og hente ut datadrevet innsikt.
Overalt der det finnes systemer og prosesser som det går an å innhente data om, og som det er tenkelig at kan forbedres og optimaliseres på noe vis – og det er, nettopp, mer eller mindre overalt! – der kan data science være gull verdt. Men å jobbe med data på denne måten kan også være omfattende og tidkrevende, så det gjelder samtidig å vite hvor en skal sette inn kruttet.
Fremfor alt er det det som vi snakker om i denne delen – rengjøring og forberedelse av data – som ofte er aller mest tidkrevende.
Du har allerede fått en smakebit på hva det innebærer. Men la oss ta det ett nivå videre, og få et glimt av hvordan en jobber med disse prosessene på et litt mer avansert nivå enn det du og jeg får til med Excel.
Verdien av å stille de gode spørsmålene
Det en data scientist fremfor alt gjør, er å legge grunnlaget for datadrevne beslutninger – gjennom å få ulike datasett og datastrømmer til å åpenbare alle sine hemmeligheter.
Dette gjøres gjennom for eksempel å lage modeller, vise relasjoner mellom data og lage ulike former for visualiseringer. Men den største jobben er altså typisk i forarbeidet.
Aller først må en forstå det grunnleggende problemet som skal løses. Har vedkommende et mål om å optimalisere vedlikehold i en vindpark, vil hun kanskje begynne med å stille slike spørsmål:
- Hvilke kostnader er involvert i vedlikehold av vindparken – og hva skyldes de ulike kostnadene?
- Hvor stor energiproduksjon går tapt når det er nedetid på vindmøllene, hvor kostbart er det, og hvem berøres av dette?
- Hvor ofte byttes utstyr som vindturbiner og vinger, og hva avgjør når disse byttes ut?
- Hvordan og hvorvidt registreres det data om bruk og slitasje fra vindmøllene?
- Føres det logger over hvor ofte – og hvorfor – vindturbiner går i stykker eller må repareres?
- Kan det lønne seg å legge vedlikehold til spesifikke tidspunkt med lav produksjon for å minimere de negative konsekvensene av nedetid?
En data scientist må nemlig ikke bare kunne programmering og statistikk, men må ikke minst ha forretningsforståelse og «domenekunnskap» – altså ekspertise på det konkrete feltet en jobber med. Her vil en også sitte tett på fagfolkene i feltet. Jo bedre en forstår problemstillingene, og jo bedre spørsmål en stiller, dess bedre resultater og større verdi kan en få ut av arbeidet.
Ikke bare kan selve svarene på disse spørsmålene gi relevante data, som kostnad mot effektivitet. De kan også avdekke nye spørsmål, nye innsikter, eller behov for flere eller bedre data.
Innsamling og forberedelser
Som vi har vært inne på, er ikke arbeidet med data science en lineær prosess. Vi har sagt at vi jobber «baklengs» – men kanskje enda mer presist er det å si at en jobber iterativt. Altså at vi går mange runder, har sluttmålet som holdepunkt og gjør forbedringer og fremskritt for hver runde.
Når målet er definert, må data samles inn. De valgene du tar om hvilke data du skal benytte deg av, er også det første steget i forberedelsene av data, for det bestemmer hva det er du har å jobbe med videre.
Innsikt
Dataformater og forberedelse av data
Som vi allerede lærte i forbindelse med dataenes livssyklus, må data samles og lagres i et dataformat. De kan for eksempel struktureres opp i et regneark, legges inn i en database, eller føres inn i et tekstdokument i CSV-format (Comma Separated Values, en standard for formatering av data som ren tekst).
Gjennom å bruke databaser og eksempelvis CSV-filer, kan en i neste omgang bruke programmeringsspråk som SQL, R og Python for å gjøre ting med dataene, enten det er å hente ut innsikter eller å mate dataene inn i en applikasjon. Disse tingene vil du lære mer om videre i dette og neste kapittel.
Det neste steget handler om å skaffe seg en helhetlig oversikt over disse dataene, og å strukturere og rydde opp i dem. Dette har vi allerede dekket: Er for eksempel dataene korrekte, eller er det målinger som er gale? Hvordan er kvaliteten på individuelle data – er de for eksempel tvetydige eller ufullstendige? Hvilke sammenhenger, likheter, forskjeller og assosiasjoner finnes mellom ulike datakilder? Å kartlegge dette kalles profilering av dataene, og det er nødvendig for deretter å kunne rengjøre og rydde opp.
Vi må også gjøre nødvendig transformering av dataene, som handler om sørge for at dataene er sammenlignbare – eksempelvis at alle sensormålinger bruker samme enheter og måletidspunkter.
Innsikt
Statistikk og modeller
Det som skiller en data scientist fra en typisk Excel-bruker, er ikke bare at dataene typisk er større og mer komplekse – men at data scientisten etter hvert vil gå løs på dette med verktøy som mer avansert statistikk, programmering og maskinlæring.
Når dataene er ferdig rengjort og strukturert i en database eller lignende, kan data scientisten i neste omgang begynne å utforske disse og lage statistiske modeller og maskinlæringsmodeller – det vil si, som du husker fra kapittel 2, programmer som er trent med maskinlæring for å behandle data for å oppnå bestemte mål.
Slike modeller brukes blant annet til å hjelpe oss med å se inn i fremtiden – de lærer da av historiske data for å vurdere sannsynligheten for et fremtidig utfall, slik som hvem som vil vinne et valg, hvordan været blir neste torsdag eller når en vindmøllevinge bør skiftes ut for å forhindre nedetid og ulykker.
Undersøkende dataanalyse
Å lage modeller kan kalles selve kjerneaktiviteten for en data scientist. Men før vi kommer helt frem dit, er det en ting til som må gjøres: Det som kalles undersøkende dataanalyse.
Dette steget – som ligger mellom opprydningen og modelleringen – dreier seg om å utforske mulighetene i de tilgjengelige dataene og se hva det er mulig å gjøre med dem.
Her vil en for eksempel bruke deskriptiv statistikk for å se på middelverdier og spredning i dataene, eller sette opp diagrammer og figurer for å utforske gjennomsnitt, variasjoner og avvik – i dette tilfellet kanskje i forbindelse med nedetid og reparasjoner, med vindmølle-eksempelet vårt.
Å bli kjent med dataene på denne måten, og dermed få en best mulig forståelse av hva det er en har å jobbe med, vil gi mye bedre forutsetninger for å velge ut hvilke data en skal jobbe videre med og hvordan en skal gå frem for å utvikle og tilpasse en modell.
Først etter dette kommer selve modelleringen. Her vil en lage ulike modeller, evaluere og sammenligne dem, og til slutt komme frem til den som gir best resultater i henhold til det målet vi startet med.
En vellykket modell i dette tilfellet vil for eksempel kunne forutsi når en vindmølle kommer til å trenge vedlikehold, før den faktisk går i stykker. Eller en kan se hvilke justeringer en bør gjøre i driften for å minimere slitasje. Slik kan en både unngå både nedetid og kostnader.
Helt til slutt må modellen settes «i produksjon», som det heter, altså tas i bruk. En må hente inn nye data med jevne intervaller, oppdatere resultatene og holde modellen ved like. Presisjonen i resultatene må også evalueres og eventuelt justeres fortløpende.
Som du ser, innebærer data science mye statistikk, matematikk, programmering og så videre – men det er stadig fler som tar på alvor å tilgjengeliggjøre disse prosessene gjennom forståelige verktøy som flere kan ta i bruk. Dette henger nært sammen med data literacy, som vi har lært om tidligere: Mange flere ikke-spesialister vil etter hvert kunne gjøre samme typen oppgaver som en data scientist gjør i dag.
Det å jobbe med statistikk, analyse, modeller og visualiseringer – kort sagt å hente ut innsikter og verdi fra data – vil du lære mer om i neste kapittel. Men først skal vi lære om databaser.