Способ решения задачи исключения дублирования персональных данных в информационных системах - Статья

бесплатно 0
4.5 173
Изучение проблемы поиска дублирующихся записей в системах хранения и обработки персональных данных клиентов. Рассмотрение алгоритмов поиска дублирующихся субъектов. Определение расстояния между словами или текстовыми полями по методу Левенштейна.


Аннотация к работе
Способ решения задачи исключения дублирования персональных данных в информационных системахТермин «дублирование субъектов» будем использовать для описания ситуации, когда один и тот же субъект присутствует в справочнике субъектов два и более раз. дублирующийся текстовый левенштейн алгоритм Для разработки и реализации алгоритмов поиска дублирующихся субъектов предлагается: полагать, что необязательно проверять (сравнивать) все реквизиты из анкеты клиента, достаточно сравнить некоторые наиболее важные, обязательные для заполнения реквизиты, и на основании совпадения только этих реквизитов практически гарантированно можно сделать вывод о том, что субъекты повторяют друг друга; считать, что дублирующимися субъектами являются субъекты, у которых «набор» проверяемых реквизитов совпадает полностью (точно) либо степень совпадения неполная, но допустима. Процент совпадения - это процент, которые задается пользователем и определяет, какая точность требуется при сравнении одного реквизита у разных субъектов для того, чтобы полагать эти реквизиты совпадающими (а клиентов, соответственно, дублирующими друг друга). Совпадает (1); (2) задан, но не совпадает; тогда проверяем (3) и (4), если совпадают оба, субъекты - дубли, иначе (3 и 4 не совпадают), значит, субъекты - не дубли (совпали не все О-реквизиты, поэтому проверяем все У-реквизиты, и если все У-реквизиты совпадают, то субъекты будут дублями).
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?