framework for syntactic string similarity measurescs.uef.fi/sipu/pub/titlesimilarity.pdf ·...

Framework for Syntactic String Similarity Measures

Najlah Gali, Radu Mariescu-Istodor, Damien Hostettler, Pasi Fränti

24.4.2019

N. Gali, R. Mariescu-Istodor, D. Hostettler and P. Fränti, "Framework for syntactic string similarity measures",

Expert Systems with Applications, 2019.

Introduction

Application examples

Titles of web pages:

V-caféViet-Café

Keywords and keyphrases:

Theatertheatre

Named entities:

U.S State DepartmentUS Department of State

Personal names:

Gail VestGayle Vesty

Place names:

Ting Tsi RiverTingtze River

Ontology alignments:

associate professorsenior lecturer

Short segments of text:

Apple computerApple pie

Sentences:

I haven't watched television for agesIt's been a long time since I watched television

Similarity framework

Existing packages

StringSim package

Existing measureNew combination

Character-level measures

• Exact match

• Transformation

• Longest common substring (LCS)

Edit distanceLevenshtein 1966

dist=5

Solved by dynamic programming algorithm

Character-level measures

String segmentation

• Tokenization

• Q-grams

Segmentation examplesThe club at the Ivy

Matching techniques

• Sequence matching

• Set matching

• Bag-of-tokens

String matching at token level

Problem of crisp sets

gray color

color gray

gray color

colour grey

Similarity = 1.0 Similarity = 0.0

Soft set-matchingSmith-Waterman-Gotoh

Similarity = ( ) 63.08.09.02.03

Soft cardinalities of sets{gray, grey} …. {gray, color}

Another example

Summary of measuresSequence and set-matching

Summary of measuresBag-of-tokens

Results

Datasets

Ch/ Q Edit MongeElkan Brau-Ban Simpson JaccardDice & Rouge

Cosine Manhattan Euclidean

Exact match2

Hamming

Levenshtein & Damerau-Levenshtein 6 12 6 9 6Needleman Wunch 14Smith Waterman & SWG 2 6 10 15 9 12 15Jaro 7

11 13 12Jaro Winkler 8LCS 1 9 12 6 9 62Grams 5

2 33Grams 3Word2Vec

Text manipulationCharacter changes

Exact matchWord2Vec

Expected

7. Edit-Damerau

16. BraunBan-Needle15. BraunBan-JaroWinkler

14. Euclidean

13. BraunBan-SWG

12. Edit-Needle11. BraunBan-LCS10. BraunBan-Damerau

6. Edit-SWG

4. Edit-LCS

5. BraunBan-3Grams

3. Edit-3Gram

8. BraunBan-Ham

2. LCS

1. Manhattan-Hamming

9. Edit-JaroWinkler

Effect of char changes

Ch/ Q Edit MongeElkan Brau-Ban Simpson Jaccard Dice & Rouge Cosine Manhattan Euclidean

Exact match2

Hamming

Levenshtein & Damerau-Levenshtein 6 12 6 9 6Needleman Wunch 14Smith Waterman & SWG 2 6 10 15 9 12 15Jaro 7

11 13 12Jaro Winkler 8LCS 1 9 12 6 9 62Grams 5

2 33Grams 3

Text manipulationToken changes

Effect of token changes

Correlation to human intuition

Qualitative examples

Excellent match

Poor match

Correlation to distance

Clustering experiment

• 180 photos• 15 clusters

Clustering results

Name matching

Summary of the results

Conclusions

Token level measures

• Well-maintained databases: ok as such• Free text: soft variants improves!

Semantic similarity

• Suffers from single char changes

Recommendation:

• Dice or Rouge (token level) + Q-grams• No single measure work for all applications

The end

http://cs.uef.fi/sipu/soft/stringsim

framework for syntactic string similarity measurescs.uef.fi/sipu/pub/titlesimilarity.pdf ·...

Documents

big data curation -...

finite state recognizer and string similarity based spelling...

syntactic categories and syntactic change

syntactic similarity measures in annotated corpora for...

e cient edit distance based string similarity search using...

abstract symbolic automata: mixed syntactic/semantic...

faster algorithm of string comparison - arxiv · algorithms...

incorporating contextual and syntactic structures improves...

top k string similarity search

mf-join: efﬁcient fuzzy string similarity join with multi

syntactic computations in the language network...

similarity retrieval of videos by using 3d c-string...

1 a partition-based method for string similarity joins...

topicalclusteringofsearchresults -...

syntactic analysis of natural language · syntactic...

msc/icy software workshop type casting, syntactic sugar...

learning to combine multiple string similarity metrics for

efficient graph similarity joins - school of...

sequence-based data mining - cornell university · simple...

web characteristics -...