Suksesshistorien går mange år tilbake. Marstrander fortalte at testmiljøene NAV tidligere bukte var basert på av manuelle arbeidsoppgaver og ekte persondata, noe som både var tidkrevende og sårbart. I 2018, da GDRP også tredde i kraft, startet derfor arbeidet med å utvikle systemer for maskinlæring.
Med ekte data fra Folkeregisteret, begynte de å eksperimentere med å opprette anonymiserte kopier, altså syntetiske data. Ved å kopiere ekte persondata, gjøre systematiske endringer slik at de ikke er identifiserbare, samt ta ut ytterpunktene i datasettene, satt de igjen med en base på omtrent 300 000 syntetiske testdata som ikke kunne spores tilbake til ekte enkeltpersoner.
– Dette syntetiske folkeregisteret kunne vi bruke til å legge på pensjonsopptjening, CVer, dagpenger for de som er arbeidsledige, barnetrygd. Så kjører vi test-caser, bruker det til demoformål, opplæring.
Aileen Hay utdypet hvordan prosessen med å generere syntetiske data fungerer i praksis. Prosessen starter med en grundig analyse av behovet for data, etterfulgt av anonymisering og fjerning av identifiserbare felt. Deretter brukes maskinlæring til å trene modeller som kan generere de nødvendige dataene. Denne iterative prosessen sikrer at dataene er realistiske og tilpasset spesifikke behov, samtidig som de oppfyller strenge krav til anonymitet.
Når de syntetiske dataene er utviklet og distribuert til de ønskede systemene som skal bruke dem, er de klare for testing. Men Hay understreket viktigheten av å lage systemer som gjør at dataen kan oppdateres og vedlikeholdes. For data er forbruksvare, forklarte hun.
– Hvis vi bare genererte masse data, slang det inn i en database og sa oss ferdig, så hadde vi ikke kunne bruke den dataen særlig lenge. For data endrer seg. Formatet på data endrer seg, lover og regler endrer seg. Så vi må ha et system som kan reagere på de endringene. Det har vi i bakhodet når vi setter det opp.
NAVs arbeid med syntetiske data er et fremragende eksempel på innovasjon innen offentlig sektor, og har blitt tatt i bruk og skapt verdi for flere store offentlige etater. Men Hay og Marstrander avsluttet med en appell til å være kritisk ved bruk og analyse av syntetiske data. Foruten hensynet til personvern, er det sentrale ved bruk av slik data å vite at modellen for dataen er utviklet til formålet det skal brukes.
– Hvis dere skal analysere syntetiske data, så er det viktig at dere spør: hva er behovet? Matcher det det vi vil analysere? Hvor kompleks er dataen? Dere må vite litt om selve prosessen. Hvis det er gjort rett, og til det formålet dere ønsker, så får dere fantastisk realistiske data der statistiske forhold er bevart, og dere kan gjøre analyser og få innblikk i dataen som reflekterer den reelle verden. Men da må også det behovet være en del av prosessen når modellen blir laget.