Dataskyddet som hinder mot maskininlärning och samhällsnyttig analys?

Publicerat 2022-09-12

Ledare i Lov&Data september 2022

Många innovationer är idag kopplade till maskininlärning för att skapa artificiell intelligens (AI) och till andra kraftfulla analyser för att utvinna ny kunskap ur data. För att nå framgång krävs tillgång till stora datamängder som är relevanta och kompletta.

Politiskt finns det höga förväntningar på att en ökad användning av data ska kunna bidra till att lösa olika samhällsutmaningar. Både inom EU och på nationell nivå har det antagits strategier för att nyttiggöra data. På EU-nivå har strategin konkretiserat genom antagandet av ny lagstiftning och genom ytterligare förslag. Exempel på sådan lagstiftning är öppnadata-direktivet, Digital Governance Act och Data Act.

Dataskyddslagstiftningen är elefanten i rummet. Den vida definitionen av begreppet personuppgifter gör att lagstiftningen i många sammanhang blir tillämplig på såväl insamling och delning av data som användning för analys eller maskininlärning. Krav på uppgifts- och lagringsminimering och rättsligt stöd för behandling av varje uppgift verkar i många fall begränsande och skapar i andra fall åtminstone stor osäkerhet kring vilka projekt som är möjliga att genomföra.

Den nya lagstiftningen som syftar till att nyttiggöra data innehåller inga undantag eller lättnadsregler för behandlingen av personuppgifter. Tvärtom tydliggörs att dataskyddslagstiftningen är fullt tillämplig.

Det råder ingen tvekan om att det finns risker förknippade med att samla stora mängder personuppgifter, men samtidigt är det viktigt att påpeka att enskilda individers egenskaper eller agerande inte står i fokus vid dessa former av analys. Uppgifterna används som en resurs för att utvinna kunskap på en högre nivå. Utförs hanteringen på rätt sätt har användningen heller ingen negativ effekt på de berörda personerna. Vi har alltså här att göra med en annan typ av behandling än den som t.ex. är inriktad mot att samla stora mängder uppgifter om individer i syfte att erbjuda annonsörer att rikta marknadsföring. Precis som när det gäller t.ex. statistik och många typer av forskning innehåller slutprodukten – om arbetet utförs på rätt sätt – inte några personuppgifter.

Möjligheten att leva upp till den gällande dataskyddsregleringen varierar naturligtvis från projekt till projekt.

Framför allt är det finalitetsprincipen (kravet på ändamålskoppling), kravet på rättsligt stöd för behandlingen av ”vanliga” personuppgifter och kravet på särskilt rättsligt stöd för behandling av känsliga personuppgifter som skapar direkta hinder eller stor osäkerhet. I praktiken är det sällan en framkomlig väg att basera de aktuella behandlingarna på samtycke. Det beror bl.a. på att många enskilda berörs och att möjligheterna att få ett giltigt samtycke från tillräckligt många för att säkerställa ett representativt urval i praktiken är begränsade. Samtidigt är det ofta osäkert om andra mer lämpliga rättsliga grunder, t.ex. uppgift av allmänt intresse eller legitimt intresse (intresseavvägningen), omfattar den delning och analys som ska göras.

I vissa fall är det möjligt att anonymisera personuppgifter innan de används för maskininlärning eller analys. Många gånger är det emellertid svårt för den personuppgiftsansvarige att bedöma om ett försök till anonymisering har lyckats. EU-domstolens vida tolkning av begreppet personuppgifter (Breyer-målet) i kombination med en utveckling där det finns allt fler tillgängliga datamängder som någon kan använda för återidentifiering gör läget komplicerat.

Det finns vissa tillvägagångssätt för att minska behovet av att använda och att dela personuppgifter på ett sätt som är problematiskt enligt dataskyddslagstiftningen. Ett är att använda syntetiska data, dvs. data som har samma karaktär som riktiga uppgifter men som inte avser verkliga människor. Ett annat är att använda federerad maskininlärning, vilken innebär att data inte behöver överföras mellan organisationer och samlas i en enda stor databas. Enkelt uttryckt flyttas istället själva maskininlärningsverksamheten runt. Men inget av dessa tillvägagångssätt utgör någon patentlösning för att hantera alla dataskyddsrättsliga utmaningar.

Viss osäkerhet och obefogad restriktivitet kan hanteras genom praxis och vägledning från dataskyddsmyndigheterna. Integritetsskyddsmyndigheten arbetar t.ex. med ett intressant uppdrag om kunskapshöjande insatser för innovationsprojekt.

Min bedömning är dock att det också krävs rättsliga reformer för att dataskyddslagstiftningen inte ska fungera som ett omotiverat hinder mot effektiv maskininlärning och kraftfull analys av stora datamängder. Exakt vad som bör göras måste naturligtvis utredas närmare – inte minst för att hitta rätt balans mellan innovation och skydd för enskilda individer – men låt mig skissa på två möjliga åtgärder.

Gör hantering av data tillåten om den personuppgiftsansvarige vidtagit vissa anonymiseringsåtgärder som räknas upp t.ex. i en s.k. delegerad akt från EU-kommissionen. Vilka åtgärder som listas måste bestämmas utifrån tillgänglig teknik för återidentifiering vid varje given tidpunkt. Data som varit föremål för den aktuella typen av anonymiseringsåtgärder ska även få delas till en annan aktör som utför maskininlärningen eller analysen. Fördelen med den föreslagna ordning är en större förutsebarhet för den personuppgiftsansvarige samtidigt som utvecklingen och användningen av anonymiseringstekniker främjas, vilket även gagnar alla berörda individer.

Inför kompletterande EU-reglering som tydliggör att maskininlärning och kraftfull analys av stora mängder personuppgifter får ske för samhällsnyttiga ändamål. Ett villkor bör vara att behandlingen syftar till att utvinna aggregerad kunskap på gruppnivå och att slutresultatet av behandlingen inte innehåller några personuppgifter. Förutsättningarna liknar på många sätt de som gäller behandlingen av personuppgifter för statistiska ändamål. Säkerhets- och skyddsåtgärder för att motverka de risker som finns kan t.ex. vara pseudonymisering, korta gallringstider, förbjud mot att använda insamlande personuppgifter för att vidta åtgärder rörande de registrerade och särskilda krav på åtkomstbegränsning.

Det finns säkert invändningar och konstruktiva motförslag. Det är bra eftersom vi behöver en diskussion om hur vi kan hitta rätt balans mellan datadriven innovation och skyddet för personuppgifter.

(Publicerad i Lov&Data nr. 150, September 2022, s. 2-3)