Способ решения задачи исключения дублирования персональных данных в информационных системах - Статья

бесплатно 0
4.5 173
Изучение проблемы поиска дублирующихся записей в системах хранения и обработки персональных данных клиентов. Рассмотрение алгоритмов поиска дублирующихся субъектов. Определение расстояния между словами или текстовыми полями по методу Левенштейна.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Способ решения задачи исключения дублирования персональных данных в информационных системахТермин «дублирование субъектов» будем использовать для описания ситуации, когда один и тот же субъект присутствует в справочнике субъектов два и более раз. дублирующийся текстовый левенштейн алгоритм Для разработки и реализации алгоритмов поиска дублирующихся субъектов предлагается: полагать, что необязательно проверять (сравнивать) все реквизиты из анкеты клиента, достаточно сравнить некоторые наиболее важные, обязательные для заполнения реквизиты, и на основании совпадения только этих реквизитов практически гарантированно можно сделать вывод о том, что субъекты повторяют друг друга; считать, что дублирующимися субъектами являются субъекты, у которых «набор» проверяемых реквизитов совпадает полностью (точно) либо степень совпадения неполная, но допустима. Процент совпадения - это процент, которые задается пользователем и определяет, какая точность требуется при сравнении одного реквизита у разных субъектов для того, чтобы полагать эти реквизиты совпадающими (а клиентов, соответственно, дублирующими друг друга). Совпадает (1); (2) задан, но не совпадает; тогда проверяем (3) и (4), если совпадают оба, субъекты - дубли, иначе (3 и 4 не совпадают), значит, субъекты - не дубли (совпали не все О-реквизиты, поэтому проверяем все У-реквизиты, и если все У-реквизиты совпадают, то субъекты будут дублями).

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?