Изучение проблемы поиска дублирующихся записей в системах хранения и обработки персональных данных клиентов. Рассмотрение алгоритмов поиска дублирующихся субъектов. Определение расстояния между словами или текстовыми полями по методу Левенштейна.
При низкой оригинальности работы "Способ решения задачи исключения дублирования персональных данных в информационных системах", Вы можете повысить уникальность этой работы до 80-100%
Способ решения задачи исключения дублирования персональных данных в информационных системахТермин «дублирование субъектов» будем использовать для описания ситуации, когда один и тот же субъект присутствует в справочнике субъектов два и более раз. дублирующийся текстовый левенштейн алгоритм Для разработки и реализации алгоритмов поиска дублирующихся субъектов предлагается: полагать, что необязательно проверять (сравнивать) все реквизиты из анкеты клиента, достаточно сравнить некоторые наиболее важные, обязательные для заполнения реквизиты, и на основании совпадения только этих реквизитов практически гарантированно можно сделать вывод о том, что субъекты повторяют друг друга; считать, что дублирующимися субъектами являются субъекты, у которых «набор» проверяемых реквизитов совпадает полностью (точно) либо степень совпадения неполная, но допустима. Процент совпадения - это процент, которые задается пользователем и определяет, какая точность требуется при сравнении одного реквизита у разных субъектов для того, чтобы полагать эти реквизиты совпадающими (а клиентов, соответственно, дублирующими друг друга). Совпадает (1); (2) задан, но не совпадает; тогда проверяем (3) и (4), если совпадают оба, субъекты - дубли, иначе (3 и 4 не совпадают), значит, субъекты - не дубли (совпали не все О-реквизиты, поэтому проверяем все У-реквизиты, и если все У-реквизиты совпадают, то субъекты будут дублями).
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы