Статья «Управление качеством данных на основе алгоритмов нечеткого поиска».
Для проверки дублирования слабоструктурированной информации нам помогут алгоритмы нечеткого поиска, позволяющие находить данные на основании неполного совпадения и оценки их релевантности — количественного критерия схожести.
По простому: есть справочник организаций, а в нем пользователи занесли одну и ту же организацию несколько раз, например, «ДиджиталДизайн», «Диджитал дизайн», «Диджитал Дезайн/Digital desing». В статье говорится о том, как это выявить.