Kategorier av data
Nå vet du en del om hvordan du samler inn data. Men hva slags data ser vi etter, og hvilken form og fasong kan de ha? Det må vi også vite for å forstå hvor vi skal lete og hvordan vi får tilgang på dataene og gjør dem brukbare.
Her vil vi derfor forklare noen viktige begreper og kategorier av data, før vi går videre til å se på konkrete datakilder i neste emne.
Slik kategoriserer vi data
Da du lærte om isfjellmodellen i kapittel 1, ble du kjent med begrepene innholdsdata, analysedata, diagnostiske data og funksjonsdata. Dette er en nyttig måte å forstå data på fra et praktisk, mer enn et teknisk perspektiv.
Fra et teknisk perspektiv kan andre inndelinger være mer hensiktsmessige. Én av disse er å skille mellom strukturerte og ustrukturerte data (samt semistrukturerte data). Disse vil vi forklare i detalj nedenfor.
Vi kan også kategorisere data etter hvorvidt de er historiske eller «live», og hvorvidt de er «rå» eller bearbeidet. La oss legge til disse begrepene i vokabularet også, før vi går videre:
- Sanntidsdata er «live», og viser hva som skjer akkurat nå
- Historiske data er registrert på et tidspunkt i fortiden
- Rådata er ubehandlet data, som er registrert og samlet inn, for eksempel av en sensor, men ikke gjort noe med
- Prosesserte data er bearbeidet, for eksempel gjort om til et format som tillater visualisering og sammenligning med annen data
Vi kan dessuten sortere data etter hvilken tilgang vi har på dem: om de er interne eller eksterne, åpne eller proprietære. Dette siste vil vi se på i neste emne.
Strukturerte, ustrukturerte og semistrukturerte data
Hva er forskjellen? Klikk for å lese om hver av dem:
Er musikk strukturert eller ustrukturert?
I møte med strukturerte og ustrukturerte data er det mulig å tråkke i salaten. Det er fordi datagrunnlaget kan overlappe litt på tvers av definisjonene. Men egentlig henger dette veldig på greip.
La oss ta et eksempel fra musikkens verden:
Si at et musikkalbum består av tolv låter. Antall spor, låtnavn, lengde, sjanger, komponist, artist, sample rate, bitdybde og størrelse på filene – alt dette er strukturerte data.
Samler du data fra topplistene for mest strømmede album i Norge og kombinerer dette med data om alder, kjønn og demografi kan du kartlegge samfunnsgrupper med bredest kommersiell appell. Det vil også være data som egner seg for et regneark, altså strukturerte data. Nyttig innsikt for et plateselskap, dette!
Musikken i seg selv derimot, selve lydfilene, er et eksempel på ustrukturerte data.
Med kunstig intelligens kan man lære maskiner å identifisere hva som kjennetegner et refreng, sammenligne de mest spilte låtene i verden og kalkulere den optimale lengden for en hit. Ustrukturerte data kan altså også analyseres. Nyttig innsikt for et plateselskap, dette også!