Gjør dataene brukbare

Da var du gjennom fjerde og nest siste kapittel. Gratulerer!

Nå har du lært om hvorfor god datakvalitet er avgjørende for datadrevne prosesser, og at det fort kan gå galt om dataene du håndterer ikke er komplette og korrekte. Om du fôrer et system med inkonsekvente, ufullstendige eller ukomplette data, ender du jo også opp med resultater av tilsvarende lav kvalitet. «Garbage in, garbage out», som vi nå vet at det heter.

Du har lært å være obs på skjevheter i dataene og hva governance egentlig betyr – og hvorfor god styring og tillit er nødvendig i datadrevne systemer og prosesser.

Vi har også sett på hvordan man går frem når man identifiserer data og velger ut verktøy – og vi har laget en sjekkliste for hva som bør inngå i en dataopprydningsjobb. Fra dét punktet kan man utvikle dataene fra innsikt til verdi: Litt slik en data scientist holder på!

En annen ting en data scientist sysler med er å stille gode og relevante spørsmål. Innsamling av informasjon og grundige forberedelser er nemlig noe som opptar store deler av arbeidstiden til de som jobber med data.

Senere i kapittelet leste du dessuten om hvordan de første databasene fungerte, og om at en relasjonsdatabases kanskje viktigste egenskap er at den er søkbar på en mye mer effektiv måte enn tidligere databaser. Til sist avrundet vi med å undersøke hvordan relasjoner, entiteter og attributter sammen utgjør logikken i relasjonsdatabaser, og reglene for hvordan de opprettes og samhandler.

For når man lagrer data, er det veldig ofte i databaser av denne typen. Enten du lagrer det lokalt på egen maskin, eller i en nettsky. Og har du da i tillegg sørget for at prosessen opp mot den klargjorte datalagringen var god – ja, så er du godt på vei til å kunne nyttiggjøre deg av dem.

Nettopp hvordan vi går frem rent konkret for å ta dataene i bruk er tema for neste og siste kapittel. Heng med!