distance de jaro exemple
La façon la plus simple de comprendre la mesure Jaro et les variantes de Winkler est procédurale. Chaque caractère de s 1 {displaystyle s_ {1}} est comparé à tous ses caractères correspondants dans s 2 {displaystyle s_ {2}}. C`est 6 pour MARTHA et MARHTA. Ensuite, laissez prefixMatch (de taille, CS2, prefixSize) être le nombre de caractères dans le préfixe de la taille et CS2 qui correspondent exactement (par index d`origine), jusqu`à un maximum de prefixSize. Ainsi, sous la distance Jaro, ABC est plus proche de l`ABC que de l`ACR, mais en raison de l`arrondissement entier dans le calcul du nombre de transpositions, cela n`affectera le résultat final que s`il y a une transposition supplémentaire dans les cordes. La distance Jaro est une distance de modification de chaîne qui donne une réponse à virgule flottante dans [0,1] où 0 représente deux chaînes complètement dissemblables et 1 représente des chaînes identiques. Deux caractères de s 1 {displaystyle s_ {1}} et s 2 {displaystyle s_ {2}} respectivement, sont considérées comme correspondant uniquement si elles sont les mêmes et pas plus loin que ⌊ Max (| s 1 |, | s 2 |) 2 ⌋ − 1 {displaystyle leftlfloor {frac {max (| s_ {1} |, | s_ {2} |)} {2} rightrfloor-1}. Il n`existe aucune information spécifique au caractère dans cette implémentation, mais des hypothèses sont formulées sur les longueurs typiques et l`importance des correspondances initiales qui peuvent ne pas s`appliquer à toutes les langues. Ceux-ci sont malheureusement parsemés de fautes de frappe, c`est pourquoi j`ai dû faire face à différentes versions d`un nom. La phase de correspondance est un alignement gourmand qui procède de caractère par caractère par le biais de la première chaîne, bien que la métrique de distance est symétrique (qui, inverse l`ordre des arguments n`affecte pas le résultat). Ici, la sous-séquence des caractères appariés pour les deux chaînes sont JÖN et JÖN, donc il n`y a pas de transpositions. La similitude de Jaro – Winkler est donnée par la distance 1 − Jaro – Winkler.
Comparez S1 et S2 à l`aide de l`algorithme d`approche de notation de correspondance, retourne true si les chaînes sont considérées comme équivalentes ou false sinon. Mais ceux où j`étais le plus curieux. Par exemple: levenshtein_distance (`Berne`, `Born`) = = 2 représentant la transformation de la première e à o et la suppression de la seconde e. Notez également comment q-Gram-, Jaccard-et cosinus-distance conduisent à pratiquement le même ordre pour q dans {2,3} juste différent sur la valeur de distance échelle. Très beau et court résumé des métriques. Le deuxième paramètre de la modification de Winkler est la taille du préfixe initial considéré, prefixSize. Comment dois-je calculer «m» pour deux cordes dans cette équation? Essayez d`expérimenter avec cet exemple sur runkit dans le navigateur. Ici, il y a 8/8 matches dans les deux cordes. Notez que le décompte de transposition ne peut pas être déterminé uniquement par le mappage. La distance Jaro-Winkler utilise une échelle de préfixe p {displaystyle p} qui donne des cotes plus favorables aux chaînes qui correspondent à partir du début pour une longueur de préfixe définie l {displaystyle ell}.