Jag accepterar att kakor lagras på min dator

Läs mer

Entity matching.

Entity matching. Beställ tryckt exemplar Lägg i kundvagnen Ladda ned som PDF
Författare: Johan Dahlin
Ort: Stockholm
Sidor: 104
Utgivningsår: 2012
Publiceringsdatum: 2012-03-13
Rapportnummer: (FOI-R--3265--SE)
Nyckelord matchning av dataposter, identifiering av dupletter, entitetsmatchning, ensembleklassificering, nodlikhet, datafusion, informationsfusion
Keywords Record matching, duplicate entry detection, entity resolution, vertex similarity, ensemble classification, data fusion, information fusion
Sammanfattning Denna rapport innehåller en genomgång och diskussion av tidigare arbeten inom entitetsmatchning samt aktuella implementationer av dessa i form av olika programvaror. Entitetsmatchning använder strängmatchande metoder som ofta kallas fältmatchningsmetoder för att hitta liknande textsträngar som kan bestå av exempelvis liknande namn eller adresser. Dessa fältmetoder används ofta tillsammans med olika klassificeringsmetoder för att avgöra om strängar (eller hela den posten som strängarna är en del av) är matchande eller inte. Dessa klassificeringsmetoder innefattar både övervakade (supervised) och oövervakade (unsupervised) metoder som har ursprung i statistik och maskininlärning. Rapporten föreslår att man även kan använda andra typer av klassificerare som inkluderar nodlikheter och text mining-metoder för att generera ytterligare bevis på att två entiteter är matchande. Nodlikhet studeras i nätverksanalys och syftar till att identifiera noder som delar en stor andel gemensamma grannar, vilket visar att entiteterna har liknande sociala nätverk eller kommunikationsvanor. Text mining-metoder är användbara för att hitta liknande dokument och andra skriftliga längre texter, vilket tyder på att två entiteter har samma språkbruk eller skriver om samma ämnen. Några små experimentella utväderingar presenteras även i rapporten, där de föreslagna metoderna appliceras på citeringsdata från två olika källor. Slutligen diskuteras om metoder från datafusion kan användas för att kombinera dessa nya föreslagna metoder tillsammans med traditionella fältmatchningsmetoder för att skapa en ensemble av klassificerare.
Abstract This report serves as a review and survey of earlier work in the field of entity matching as well as current software implementations in this area. Entity matching uses string matching methods known as field metrics to find similar text strings that could correspond to similar names or addresses. The outputs from these field metrics are often used with different classification methods to determine if the strings (or the entire entry the strings are a part of) are matching or unmatching. These classification methods include both supervised and unsupervised methods originating in statistics and machine learning. This report proposes using other classifiers including vertex similarity and text mining-methods to generate additional evidence that two entities match. Vertex similarity is studied in network analysis and aims to identify nodes sharing a large fraction of common neighbors, indicating that the entities have similar social or communication networks. Text mining-methods are useful in finding similar documents and other written longer texts, indicating that two entities have the same language usage or deal with the same topics. Some small experimental evaluations are offered using citation data from two different sources to test these two methods of finding similar entities. Furthermore, the report proposes methods based on data fusion to combine these classifiers with the traditional field metrics into an ensemble.

Kundvagn

Inga rapporter i kundvagnen

FOI, Totalförsvarets forskningsinstitut

FOI
Totalförsvarets forskningsinstitut
164 90 Stockholm

Tel: 08-555 030 00
Fax: 08-555 031 00

Orgnr: 202100-5182