Privacy-preserving data mining. A literature review
Publiceringsdatum: 2013-02-14
Rapportnummer: FOI-R--3633--SE
Sidor: 51
Skriven på: Engelska
Nyckelord:
- informationsutvinning
- personlig integritet
Sammanfattning
Denna studie av informationsutvinning med personlig integritet (PPDM) är baserad på ett kompetensutvecklingsprojekt på 140 timmar. Informationsutvinning extraherar information från data. Det finns ofta en intressekonflikt mellan de fördelar detta ger för företag och myndigheter och personlig integritet. PPDM erbjuder metoder som tar hänsyn både till effektivitet och integritet. I ett inledande avsnitt beskriver vi problemställningen, aktörer och intressen, de olika forskningstraditionerna i PPDM och förhållandet till angränsande forskningsområden. Denna rapport fokuserar på tekniska metoder för PPDM. Det finns två huvudstrategier. Sanerande metoder modifierar data i syfte att både bevara övergripande statistiska egenskaper och ge ett visst mått av integritet. Distribuerade säkra metoder använder kryptering för att beräkna statistiska egenskaper utan att avslöja känsliga detaljer. Det första steget i alla sanerande metoder är att ta bort explicita identifierare som t.ex. personnummer. Detta är vanligtvis inte tillräckligt eftersom individer kan identifieras också genom kvasi-identifierare som förekommer både i måldatabasen och i bakgrundsdata. Sanerande metoder ökar integriteten genom att ta bort kvasi-identifierare. De två huvudsakliga metoderna för detta är 1) deterministisk redigering för att uppnå ett definierat mått av integritet och 2) stokastisk redigering som balanserar statistiska mått på integritet och effektivitet. Olika distribuerade säkra metoder behandlar dels horisontellt uppdelade data där olika parter äger attributuppsättningar för olika personer och vertikalt uppdelade data där attribut som hänför sig till samma personer fördelas mellan olika parter. Översikten kompletteras med några mer udda tekniker och problem, inklusive PPDM för ostrukturerad text och nätverksdata samt metoder för betydelseviktning och klassificerarnedgradering.