Berhadapan dengan satu tugasan untuk memadankan 2 data set berbeza. Cabarannya utamanya adalah tiada unik key yang dapat membantu. Hanya nama syarikat yang diberikan (sudah semestinya “free text”) saya perlu memadanan ratusan syarikat untuk membuat analysis.
Mujur ada program ini. Ia memadankan nama syarikat dan menentukan peratusan persamaan antara satu sama lain.
Sebagai contoh
from thefuzz import fuzz
from thefuzz import process
fuzzy_ratio = fuzz.ratio("ABC (M) Sdn Bhd", "ABC (Malaysia) Sdn. Bhd.")
print(fuzzy_ratio)
-----
77
Dalam contoh di atas 77 menunjukkan padanan antara 2 string “ABC (M) Sdn Bhd” dan “ABC (Malaysia) Sdn. Bhd.” adalah sebanyak 77%.
Berdasarkan peratusan ini, kita boleh menentukan berapakah kadar peratusan yang boleh diterima.