Jag accepterar att kakor lagras på min dator

Läs mer

Privacy-preserving data mining.

Privacy-preserving data mining. Beställ tryckt exemplar Lägg i kundvagnen
Författare: Joel Brynielsson, Fredrik Johansson, Magnus Jändel
Ort: Stockholm
Sidor: 51
Utgivningsår: 2013
Publiceringsdatum: 2013-02-14
Rapportnummer: (FOI-R--3633--SE)
Nyckelord informationsutvinning, personlig integritet
Keywords privacy-preserving data mining
Sammanfattning Denna studie av informationsutvinning med personlig integritet (PPDM) är baserad på ett kompetensutvecklingsprojekt på 140 timmar. Informationsutvinning extraherar information från data. Det finns ofta en intressekonflikt mellan de fördelar detta ger för företag och myndigheter och personlig integritet. PPDM erbjuder metoder som tar hänsyn både till effektivitet och integritet. I ett inledande avsnitt beskriver vi problemställningen, aktörer och intressen, de olika forskningstraditionerna i PPDM och förhållandet till angränsande forskningsområden. Denna rapport fokuserar på tekniska metoder för PPDM. Det finns två huvudstrategier. Sanerande metoder modifierar data i syfte att både bevara övergripande statistiska egenskaper och ge ett visst mått av integritet. Distribuerade säkra metoder använder kryptering för att beräkna statistiska egenskaper utan att avslöja känsliga detaljer. Det första steget i alla sanerande metoder är att ta bort explicita identifierare som t.ex. personnummer. Detta är vanligtvis inte tillräckligt eftersom individer kan identifieras också genom kvasi-identifierare som förekommer både i måldatabasen och i bakgrundsdata. Sanerande metoder ökar integriteten genom att ta bort kvasi-identifierare. De två huvudsakliga metoderna för detta är 1) deterministisk redigering för att uppnå ett definierat mått av integritet och 2) stokastisk redigering som balanserar statistiska mått på integritet och effektivitet. Olika distribuerade säkra metoder behandlar dels horisontellt uppdelade data där olika parter äger attributuppsättningar för olika personer och vertikalt uppdelade data där attribut som hänför sig till samma personer fördelas mellan olika parter. Översikten kompletteras med några mer udda tekniker och problem, inklusive PPDM för ostrukturerad text och nätverksdata samt metoder för betydelseviktning och klassificerarnedgradering.
Abstract This review of the research literature in the field of privacy preserving data mining (PPDM) is based on a competence development project spanning over 140 hours of study. Data mining extracts information from data for the benefit of commercial enterprises or governments. There is often a conflict of interest between advantages gained from data mining and privacy. PPDM offers a set of data mining methods that balances the discordant goals of efficiency and privacy. In the introduction we describe the PPDM problem, the main actors and issues, the different research traditions that form the field, and the relation to neighbouring research fields. The focus of this report is technical methods for PPDM. There are two main strategies. Sanitation methods modify data for the purpose of publishing information that both preserves the overall statistical features of the data and offer some degree of privacy. Distributed secure methods use cryptographic techniques to compute statistical measures without revealing privacy-sensitive details. The first step in all sanitation methods is to remove explicit identifiers such as social security numbers. This is typically not sufficient since individuals can be identified also by quasi-identifiers that occur both in the target database and in background data. Sanitation methods increase privacy by removing quasi-identifiers. The two main approaches to this is 1) deterministic editing for the purpose of exactly fulfilling some measure of privacy and 2) randomized editing aiming at balancing statistical measures of privacy and data mining utility. Different sets of distributed secure methods applies to the cases of horizontally partitioned data where different parties own different sets of database records of the same type and vertically partitioned data where data on different attributes pertaining to the same individuals are distributed between different parties. Diverse flavours of distributed secure protocols make different assumptions about the integrity and honesty of the participants. The review of the mainstream methods is supplemented with descriptions of some less often discussed techniques and problems, including PPDM for unstructured text and network data, and the techniques of importance weighting and classifier downgrading.

Kundvagn

Inga rapporter i kundvagnen

FOI, Totalförsvarets forskningsinstitut

FOI
Totalförsvarets forskningsinstitut
164 90 Stockholm

Tel: 08-555 030 00
Fax: 08-555 031 00

Orgnr: 202100-5182