Анализ и обзор существующих методов и решений обнаружения утечки конфиденциальной информации. Защита электронной почты от Proofpoint. Алгоритмы обнаружения текстовых областей. Пример работы программного модуля в изображениях с текстом и сложным фоном.
Аннотация к работе
.1.2 Анализ и обзор существующих методов и решений обнаружения утечки конфиденциальной информации 1.1.2.1 Основные виды аппаратных продуктов, защищающие от хищения информации 1.1.2.1.4 Решение для выявления и предотвращения утечек Tablus 1.1.2.2 Основные виды программных продуктов, защищающие от хищения информации1.2.1 Обоснование средств решения поставленной задачи 1.3 Разработка алгоритма обнаружения текстовых областей в графических файлах 1.3.1 Анализ алгоритмов обнаружения текстовых областей.3.1.2 Алгоритм «Быстрое и устойчивое текстовое обнаружение в изображениях и видеокадрах» 1.3.1.2.1 Многошкальная декомпозиция небольшой волны 1.3.1.2.2 Обнаружение предполагаемых участков текста 1.3.1.2.4 Получение строк текста 1.3.2.3 Формирование списка предполагаемых текстовых областей.4 Экспериментальное обоснование результатов исследования 1.4.2 Технология проведения экспериментовЭкологическая часть и безопасность жизнедеятельности 2.1 Исследование возможных опасных и вредных факторов, возникающих при работе с ЭВМ, и их воздействие на пользователей 2.1.1 Исследование возможных опасных и вредных факторов, возникающих при работе с ЭВМ2.2 Способы защиты пользователей от воздействия на них опасных и вредных факторов2.2.3 Методы и средства защиты от ультрафиолетового излученияВместе с тем повсеместное использование автоматизированных систем для хранения, обработки и передачи информации приводит к обострению проблем, связанных с их защитой. Считается, что одной из наиболее опасных угроз является утечка хранящейся и обрабатываемой внутри автоматизированной системы конфиденциальной информации. Как отмечают многие исследовательские центры, более 80% всех инцидентов, связанных с нарушением информационной безопасности вызваны внутренними угрозами, источниками которых являются легальные пользователи системы. Модель нарушителя предполагает, что в качестве потенциальных злоумышленников могут выступать сотрудники компании, которые для выполнения своих функциональных обязанностей имеют легальный доступ к конфиденциальной информации.Некоторые разработчики предоставляют продукты, например, только лишь для контроля над почтовым трафиком или коммуникационными портами рабочей станции. Российская компания INFOWATCH поставляет комплексное решение INFOWATCH Enterprise Solution, предназначенное для выявления и предотвращения утечек конфиденциальной информации, а также обеспечения совместимости с требованиями российских и иностранных нормативных актов. Продукт INFOWATCH Security Appliance в масштабе реального времени фильтрует трафик, передаваемый по протоколам SMTP и HTTP, предотвращает утечку конфиденциальных документов через корпоративный почтовый шлюз, web-почту, форумы, чаты и другие сервисы в интернете. Агенты, размещенные на рабочих станциях, позволяют контролировать следующие операции пользователей: запись данных на CD, копирование файлов на USB-устройства, вывод информации на принтер, работу с буфером обмена, создание снимка с экрана, отправку сообщений электронной почты за пределы корпоративной сети, присоединение файлов к средствам обмена мгновенными сообщениями. Однако есть и целый ряд слабых сторон: не полный контроль над рабочей станцией (совершенно не покрыты беспроводные возможности - IRDA, Bluetooth, Wi-Fi, также выпали из поля зрения все остальные порты помимо USB) и негибкое использование аппаратных компонентов даже для контроля над рабочими станциями.Разработать программный модуль обнаружения текстовых областей в графических файлах для решения задач предотвращения утечки конфиденциальной информации. Задача: разработать подсистему обнаружения текстовых областей в графическом файле. Изучив готовые решения по защите автоматизированных систем, которые существуют на данный момент и, учитывая все требования, программный модуль должен находить текстовые области в графических файлах, которые могут содержать в себе конфиденциальную информацию и сообщать о них для дальнейшего их исследования другими модулями системы защиты. Это позволит передавать на дальнейшее исследование другим модулям системы защиты для распознавания образов на предмет наличия конфиденциальной информации только те файлы, в которых содержатся текстовые области, удовлетворяющие определенным условиям. Затем дважды используется SVM алгоритм, так называемый «Метод опорных векторов» чтобы классифицировать текстовые блоки, нетекстовые блоки и сам текст.Затем эти текстовые области с помощью третьего свойства разделяются на текстовые строки, а свойство четыре используется, чтобы отличить текст от других нетекстовых шаблонов, плотное разнообразие интенсивности которых подобно тексту. Рассматривая разнообразие интенсивности пикселей в текстовых областях (рисунок 19(b)) определяем особенность энергии небольшой волны пикселя ) в уровне n как: Для обнаружения пикселей предполагаемой области, интегрируются коэффициенты небольшой волны в трех высокочастотных подполосах «LH», «HL» и «HH». Пиксель будет являться пикселем текста в уровне n если его энергия волны будет больше
План
Оглавление утечка конфиденциальный информация программный
Введение
1. Специальная часть
1.1 Анализ подходов по защите от утечки конфиденциальной информации
Введение
.1.2 Анализ и обзор существующих методов и решений обнаружения утечки конфиденциальной информации
1.1.2.1 Основные виды аппаратных продуктов, защищающие от хищения информации
1.1.2.1.1 Комплексное решение INFOWATCH
1.1.2.1.2 Аппаратное решение Tizor
1.1.2.1.3 Защита электронной почты от Proofpoint
1.1.2.1.4 Решение для выявления и предотвращения утечек Tablus
1.1.2.1.5 Многофункциональное решение Hackstrike
1.1.2.1.6 Комплексное решение Oakley Networks
1.1.2.2 Основные виды программных продуктов, защищающие от хищения информации
1.1.2.2.1 Authentica ARM Platform
1.1.2.2.2 INFOWATCH Enterprise Solution
1.1.2.2.3 Onigma Platform
1.1.2.2.4 PC Acme
1.1.2.2.5 Verdasys Digital Guardian
Вывод
.2 Постановка задачи
1.2.1 Обоснование средств решения поставленной задачи
1.3 Разработка алгоритма обнаружения текстовых областей в графических файлах
1.3.1 Анализ алгоритмов обнаружения текстовых областей
1.3.1.1 Алгоритм «Быстрое и эффективное текстовое обнаружение»
1.3.1.1.1 Генерация штриховых карт
1.3.1.1.2 Обнаружение блоков текста
1.3.1.1.3 Извлечение строк текста кандидата
1.3.1.1.4 Проверка наличия текста.3.1.2 Алгоритм «Быстрое и устойчивое текстовое обнаружение в изображениях и видеокадрах»
1.3.1.2.1 Многошкальная декомпозиция небольшой волны
1.3.1.2.2 Обнаружение предполагаемых участков текста
1.3.1.2.3 Основанный на плотности рост области
1.3.1.2.4 Получение строк текста
1.3.1.3 Штриховой фильтр
1.3.1.4 Метод опорных векторов SVM
1.3.2 Разработка алгоритма
1.3.2.1 Предварительная обработка изображений
1.3.2.2 Поиск контрастных пикселей
1.3.2.3 Формирование списка предполагаемых текстовых областей
1.3.2.4 Вычисление предполагаемых текстовых областей
1.3.3 Практическая реализация алгоритма
1.3.3.1 Пример работы программного модуля
1.3.3.2 Особенности программного модуля
1.3.3.3 Пример работы особенностей программного модуля
1.3.3.4 Пример работы программного модуля в изображениях с различным текстом и сложным фоном
1.3.3.5 Текст программы.4 Экспериментальное обоснование результатов исследования
1.4.1 Выбор метода верификации
1.4.2 Технология проведения экспериментов
1.4.3 Результаты тестирования
1.4.4 Оценка эффективности обнаружения утечки информации
1.4.5 Рекомендации по использованию разработанного модуля2. Экологическая часть и безопасность жизнедеятельности
2.1 Исследование возможных опасных и вредных факторов, возникающих при работе с ЭВМ, и их воздействие на пользователей
2.1.1 Исследование возможных опасных и вредных факторов, возникающих при работе с ЭВМ
2.1.2 Анализ влияния опасных и вредных факторов на пользователя
2.1.2.1 Влияние электрического тока
2.1.2.2 Влияние рентгеновского излучения
2.1.2.3 Влияние электромагнитных излучений низкой частоты
2.1.2.4 Влияние ультрафиолетового излучения
2.1.2.5 Влияние статического электричества2.2 Способы защиты пользователей от воздействия на них опасных и вредных факторов
2.2.1 Методы и средства защиты от поражения электрическим током
2.2.2 Методы и средства защиты от рентгеновского излучения2.2.3 Методы и средства защиты от ультрафиолетового излучения
2.2.4 Методы и средства защиты от электромагнитных полей низкой частоты
2.2.5 Методы и средства защиты от статического электричестваНи один разработчик не предлагает сегодня аппаратных модулей для предотвращения утечек через ресурсы рабочих станций (порты, принтеры, приводы и т.д.), так как эффективность этой технологии сомнительна. Однако обеспечить контроль над почтовым или web-трафиком с помощью отдельного устройства, а не выделенного сервера вполне логично.
В отличие от программных модулей, автономные устройства могут быть легко развернуты и не требуют серьезного сопровождения. Также в большинстве случаев аппаратное решение обладает более высокой производительностью. Однако программные компоненты, работающие на выделенных серверах, в некоторых случаях обладают большей гибкостью и возможностями более тонкой настройки. Кроме того, программные модули чаще всего обходятся значительно дешевле аппаратных. Поэтому к выбору того или иного решения необходимо подходить более чем основательно. Следующим немаловажным моментом является возможность создавать и хранить архивы корпоративной корреспонденции. Такая функциональность позволяет провести служебное расследование, не беспокоя сотрудников и не привлекая внимания. Вдобавок к тому, что хранить электронные сообщения в течение нескольких лет требуют многие нормативные акты и законы, создание централизованного почтового архива избавляет от порочной практики ареста рабочих станций служащих. Наконец, последним важным параметром является возможность выбора между программной и аппаратной реализацией модулей, отвечающих за фильтрацию сетевого трафика.
При выборе решения необходимо учитывать параметр комплексности - покрывает ли продукт все возможные каналы утечки. В противном случае данные утекут через оставленную открытой дверь. [8]
1.2 Постановка задачи
Разработать программный модуль обнаружения текстовых областей в графических файлах для решения задач предотвращения утечки конфиденциальной информации.
Цель: обеспечение информационной безопасности автоматизированной системы;
предотвращение распространения конфиденциальной информации в графических файлах.
Задача: разработать подсистему обнаружения текстовых областей в графическом файле.
Требования: подсистема должна выводить отчет об исследованных графических файлах;
результаты исследования должны зависеть от заданных критериев.
1.2.1 Обоснование средств решения поставленной задачи
Изучив готовые решения по защите автоматизированных систем, которые существуют на данный момент и, учитывая все требования, программный модуль должен находить текстовые области в графических файлах, которые могут содержать в себе конфиденциальную информацию и сообщать о них для дальнейшего их исследования другими модулями системы защиты.
Главной особенностью данного модуля будет являться быстрое обнаружение нужных текстовых областей. Это позволит передавать на дальнейшее исследование другим модулям системы защиты для распознавания образов на предмет наличия конфиденциальной информации только те файлы, в которых содержатся текстовые области, удовлетворяющие определенным условиям. Это поможет ускорить обработку графической информации и работу системы защиты в целом, и добавит свойство комплексности системам защиты.
В основу методики взяты существующие алгоритмы обнаружения текстовых областей. Для ее реализации был выбран язык программирования Python 2.6.
1.3 Разработка алгоритма обнаружения текстовых областей в графических файлах
1.3.1 Анализ алгоритмов обнаружения текстовых областей
1.3.1.1 Алгоритм «Быстрое и эффективное текстовое обнаружение»
Алгоритм «Быстрое и эффективное текстовое обнаружение» разработан в Университете Дипломированного специалиста китайской Академии Наук, Пекин, Китай.
Рис. 11. Блок-схема алгоритма «Быстрое и эффективное текстовое обнаружение»
Для оригинального изображения сначала используется «штриховой фильтр», который вычисляет горизонтальную, вертикальную и диагональные штриховые карты. Затем дважды используется SVM алгоритм, так называемый «Метод опорных векторов» чтобы классифицировать текстовые блоки, нетекстовые блоки и сам текст. [15]
1.3.1.1.1 Генерация штриховых карт
Рис. 12. Иллюстрация штрихового фильтра
Изначально цветное изображение преобразуется в полутоновое «grayscale», после чего генерируется горизонтальная, вертикальная и диагональные штриховые карты (рисунок 12).
Значение штрих фильтра в центральной точке зависит от значений пикселя в трех прямоугольных областях, где - три параметра, которые соответствуют ориентации, длине и ширине штриха соответственно. [15]
Где - интенсивности пикселей по всем трем регионам;
- это стандартное отклонение интенсивности пикселей.
В этом методе формула имеет вид:
1.3.1.1.2 Обнаружение блоков текста
С помощью подвижного окна размеров W*H, которое проходит по изображению SVM классификатор идентифицирует, существует ли потенциальный текстовый блок в данной позиции, покрытый подвижным окном B. Для каждого подвижного окна вычисляется «штриховая карта». Текстовые блоки обычно имеют существенные вычисленные значение по всем четырем направлениям. В данном случае используются статистические особенности в штриховых картах, чтобы фиксировать эти свойства. Конкретно, особенности включают: малое, дисперсию и взвешенную энергию.
Чтобы характеризовать пространственное распределение штрихов, мы определяем соответствующие особенности: вертикальную и горизонтальную конфигурации накопления. Для каждого подвижного окна в вертикальной штриховой карте они одинаково разделены на восемь областей прямоугольников. В каждом прямоугольнике вертикальная «VAP» вычисляется следующим образом:
Идентично и для каждого подвижного окна в горизонтальной штриховой карте:
Таким образом, каждый блок, покрытый подвижным окном, представлен 24-мерным характеристическим вектором.
По сравнению с другими классификаторами, такими как нейронная сеть, решающее дерево и другие, SVM классификатор нуждается в меньшем количестве учебных выборок и имеет лучшую способность обобщения. Таким образом, был выбран SVM классификатор, чтобы получить блоки текста кандидата.
В данном примере SVM классификатор обучался на наборе данных, состоящем из 240 текстовых блоков и 480 нетекстовых блоков. Если вывод классификатора SVM будет положительным, то пиксели в подвижном окне будут полностью помечены как текст. Двигающийся шаг подвижного окна горизонтально W / 2, вертикально H / 2. В результате создается двойное изображение маски, белые области которого представляют области текста кандидата, а черная область представляет фон. [15]
Рис. 13. Грубое текстовое обнаружение
1.3.1.1.3 Извлечение строк текста кандидата
Как видно из рисунка 13, области кандидата могут покрывать несколько нетекстовых областей. Таким образом, используются следующие шаги для разделения и установления текстовых областей:
Рис. 14. Разделение областей
Разделение области в маленькие прямоугольники (рисунок 14(b));
Если промежуток в горизонтальной строке меньше 1/6 длинны всей строки, то нужно объединить его (рисунок 14(c));
Для двух вертикально смежных прямоугольников, если ширина более короткого прямоугольника превышает 4/5 ширины более длинного, то необходимо объединить их в больший прямоугольник, высота которого - сумма их высот, а ширина - максимум ширины одного из прямоугольников (рисунок 14(d,e));
Если высота прямоугольника - меньше чем 1/3 высоты его вертикально смежного прямоугольника, то необходимо объединить их также как на предыдущем шаге.
Когда все прямоугольники получены, используется горизонтальный и вертикальный метод проектирования, чтобы эффективно ограничить текстовые строки. Значения интенсивности, используемые в оценке проектирования, являются суммой «откликов» в четырех штриховых картах. Для сгенерированного граничного соответствия прямоугольников текстовым строкам удалены некоторые очевидные нетекстовые прямоугольники, если их высоты не принадлежат диапазону , или их коэффициент пропорциональности превышает определенный порог . Рисунок 1.13(d) показывает конечные строки предполагаемого текста после операции проектирования. [15]
1.3.1.1.4 Проверка наличия текста
Для каждого предполагаемого участка текста идет проверка новым классификатором SVM, чтобы, наконец, проверить является ли это истинной текстовой строкой.
{1.4, 1.0, 0.6, 0.2}
SVM классификатор обучался на наборе данных из 200 текстовых строк и 160 нетекстовых строк. [15]
Рис. 15. Проверка наличия текста
На рисунке 15(b, c) видно результат использования SVM классификатора.