Разработка программы обнаружения утечки конфиденциальной информации в документах: существующие подходы по защите от утечки информации, выбор алгоритма верификации по ROC-кривой, архитектура экспериментальной системы обнаружения утечки информации.
Аннотация к работе
1 Исследование опасных и вредных факторов при эксплуатации ЭВМ 79 2 Воздействие опасных и вредных факторов на организм пользователя ЭВМ 80 3 Способы защиты пользователей от опасных и вредных факторов 83 3.4 Защита от излучения электромагнитных полей низких частот 87 В связи со значительным увеличением объемов этого вида собственности появилась необходимость в мощных автоматических инструментах защиты: авторских прав, конфиденциальной информации, проверки авторства, нахождения плагиата и т.д.Больше половины российских респондентов считают, что противоправные умышленные или случайные действия служащих представляют собой самую большую угрозу для российских организаций, а почти все респонденты указали на нарушение конфиденциальности информации как на самую опасную внутреннюю угрозу ИТ-безопасности [1]. Эти средства должны вести активный мониторинг всех путей утечки информации (электронная почта, Web-каналы, мобильные носители, печать на бумаге и т. д.), поддерживать расширенные возможности аудита (установить какой документ редактировался, кем, когда, какие именно изменения были внесены) и защищать сетевые ресурсы компании от нецелевого использования (предотвращение рассылки личной информации по электронной почте, посещения сайтов неделовой направленности и т. д.) [1]. Поэтому неблагонадежные сотрудники могут обойти барьеры Clearswift не только через ресурсы своей рабочей станции, но и через Web-каналы (электронная почта с Web-интерфейсом, прикрепление файлов в форумах и чатах и т. д.). Продукт Clearswift Total MIMESWEEPER Protection и разрабатываемый модуль обнаружения утечки конфиденциальной информации объединяет общий метод анализа текстовых файлов - проверка на совпадение с образцами по сигнатурам файлов. Компания INFOWATCH [3] предлагает комплексное решение INFOWATCH Enterprise Solution, позволяющее защитить от утечки конфиденциальной информации, предотвратить нецелевое использование сетевых ресурсов и управлять жизненным циклом почтовой корреспонденции с возможностью проведения мощного ретроспективного анализа.Функциональные особенности продуктов Document Control и Email Control: · Позволяют хранить конфиденциальную информацию только в зашифрованном виде, при этом лишь авторизованный пользователь может читать, изменять, копировать и печатать эти данные. В качестве метода анализа текстовых файлов в продукте Liquid Machines Email Control используется алгоритм цифровых отпечатков, что очень схоже с алгоритмом проверки на совпадение с образцами по сигнатурам файлов. С точки зрения технологии компания использует алгоритмы, основанные на цифровых отпечатках пальцев, что позволяет предотвратить утечку не только всего документа целиком, но и его отдельных частей. · Контроль над Web-трафиком позволяет избежать кражи конфиденциальных сведений, но не пресечь посещение Web-страниц неделовой направленности. Так, комплексное решение SURFCONTROL Enterprise Protection Suite позволяет фильтровать спам, контролировать обмен файлами в корпоративной сети, предотвращать нецелевое использование сетевых ресурсов, детектировать вирусы и шпионские коды, а также пресекать утечку конфиденциальных данных.Многие выше приведенные продукты обладают следующим недостатком: отсутствуют компоненты, контролирующих утечку конфиденциальной информации через ресурсы рабочих станций (мобильные накопители, принтеры и т. д.). Этим же недостатком будет обладать и программа КОНФДЕТЕКТ.На текущий момент вопрос обнаружения сходства документов хорошо проработан в области обнаружения плагиата.2.Плагиат (от лат. plagio - похищаю) - вид нарушения прав автора или изобретателя. Состоит в незаконном использовании под своим именем чужого произведения (научного, литературного, музыкального) или изобретения, рационализаторского предложения (полностью или частично) без указания источника заимствования; 3.Плагиат - присвоение плодов чужого творчества: опубликование чужих произведений под своим именем без указания источника или использование без преобразующих творческих изменений, внесенных заимствователем;В случае поиска плагиата, некоторые специфические нечеткие критерии обычно отбрасываются, такие как: 1.вопрос о соответствии законодательству (является ли совершенное действие преступлением?);Выше было рассказано про основные характеристики, которые учитываются при поиске плагиата. Процесс выделения основных характеристик - это введение представления, то есть из модели, с большим количеством избыточной информации, переходим в более компактную модель, где незначимая информация удалена. Выбирая разные представления, выбираем характеристики, которые для данного случая являются основными и оставляем их. После этого вводим функцию близости (или метрику), чтобы определить, какие характеристики из оставшихся более, а какие менее значимы. Следующими качествами должны обладать метрики, чтобы быть полезными на практике: 2.1.Стандартный алгоритм начинает со сравнения первого символа текста с первым символом подстроки. Если они совпадают, то происходит переход ко второму сим
План
Содержание
А. Специальная часть 6
Введение 7
Глава 1 Анализ подходов по защите от утечки информации 8
1 Аналитический обзор существующих решений для защиты от утечки информации 8
1.1 Clearswift 9
1.2 INFOWATCH 11
1.3 IPLOCKS 13
1.4 ISS 15
1.5 Liquid Machines 16
1.6 PORTAUTHORITY 17
1.7 SURFCONTROL 19
1.8 Инфосистемы Джет 20
1.9 Raytown Corporation LLC 22
Заключение 25
2 Аналитический обзор существующих методов сравнения текстовых файлов 26
2.1 Различные понимания и определения плагиата 26
2.2 Специфика автоматического поиска плагиата 27
2.3 Общая схема поиска 28
2.4 Стандартный алгоритм 29
2.5 Алгоритм Кнута-Морриса-Пратта 30
2.6 Алгоритм Бойера-Мура 32
2.7 Нейросетевые методы обнаружения плагиата 36
2.8 Жадное строковое замощение 38
2.9 Метод идентификационных меток 40
2.10 Алгоритм Хескела 43
Заключение 44
3 Постановка задачи 45
Глава 2 Разработка алгоритма сравнения текстовых файлов 46
1 Выбор и обоснование алгоритма 46
2 Разработка алгоритма 47
2.1 Схема алгоритма 51
3 Выбор методики верификации 55
3.1 Построение ROC-кривой 57
Глава 3 Экспериментальное обоснование результатов исследования 61
1 Архитектура экспериментальной системы обнаружения утечки информации 61
2 Технология проведения эксперимента 63
3 Результаты тестирования 65
4 Разработка рекомендаций по использованию разработанного алгоритма 73
4.1 Назначение и условия применения программы 73
4.2 Характеристика программы 74
4.3 Обращение к программе 74
4.4 Входные и выходные данные 75
4.5 Сообщения 75
5 Разработка рекомендаций по использованию разработанной системы 76