Программная реализация модуля PlagiatSearch поиска плагиата методами сравнения произвольных текстов - Магистерская работа

бесплатно 0
4.5 176
Специфика понятия "плагиат" в программировании. Схема работы модулей инструментальной системы поиска плагиата. Основы поиска в исходных кодах программ, в произвольных текстах. Обзор инструментальных средств. Программная реализация модуля PlagiatSearch.


Аннотация к работе
В диссертации сделан акцент не столько на развитии конкретного метода поиска плагиата в исходных кодах программ студентов ([1-2]) или на развитии средств автоматизации такого поиска при большом объеме базы данных студентов (как это сделано в работе автора на степень бакалавра), сколько на реализации методов более глубокого анализа материала разными взаимно дополняющими методами (дистанция Левенштейна, Дамерау, метод шинглов, LCS). Новизна работы заключается в том, что в ней объединены в рамках единых инструментальных средств как алгоритмы поиска плагиата в программных кодах, так и в произвольных текстах (не только программах). В работе рассматриваются в теоретическом и практическом плане следующие вопросы: · Методы анализа произвольных текстов и исходных кодов программ с точки зрения наличия идентичных фрагментов; · Разработка набора инструментов анализа исходных кодов программ из двух взаимно дополняющих модулей (рисунок 1): первый анализирует исходный код методами анализа исходных кодов (частотного анализа и анализа токенизированной последовательности операторов) в программных модулях студентов на основе пополняемой текстовой базы данных (БД), а второй позволяет анализировать этот же исходный код методами анализа произвольных текстов; Если второй модуль рассматривает произвольный текст как исходный код программы (в модуле не установлен флажок «Текст»), то он использует ту же самую пополняемую БД работ студентов, которую формирует первый модуль.В магистерской диссертации рассматривается развитие программной системы, выявляющей заимствованные фрагменты исходного кода в анализируемых программных модулях студентов на основе пополняемой текстовой базы данных исходных текстов программ, а также реализация новых инструментов для анализа произвольных текстов с точки зрения наличия одинаковых фрагментов. Для анализа заимствованных фрагментов в исходных кодах программ предлагается обобщенный подход, совмещающий метод структурного анализа кодов (токены), методы шинглов и дистанции Левенштейна-Дамерау для анализа произвольных текстов. Хотя оба метода (частотного анализа текста и анализа последовательности операторов) показывают, что плагиата нет (рисунок 2, a), но, если посмотреть (рисунок 2, b) на наиболее длинную совпадающую последовательность операторов (рисунок 2, c), выделенную красным цветом в текстах программ (эта возможность была специально добавлена в ходе работы над магистерской диссертацией), то хорошо виден факт, по крайней мере, частичного заимствования кода, вплоть до одинакового порядка операторов и идентичного обозначения переменных.Первый модуль анализирует исходный код методами анализа исходных кодов (частотного анализа и анализа токенизированной последовательности операторов) в программных модулях студентов на основе пополняемой текстовой базы данных (БД), а второй модуль позволяет анализировать этот же исходный код методами анализа произвольных текстов, интегрирующего структурный анализ кодов (на основе исходного либо токенизированного представления), метода шинглов, дистанции Левенштейна и нахождения наибольшей общей подпоследовательности (longest common subsequence, LCS) для произвольных текстов.Поиск плагиата в программировании может основываться на анализе характеристик кодов программ. Любая программа имеет определенную иерархию структур, которые могут быть выявлены, измерены и использованы в качестве таких характеристик. Применительно к доказательству факта заимствования, эти характеристики должны слабо меняться в случае модификации программы или включения фрагментов одной программы в другую.Смысл их заключался в численном выражении каких-то признаков (атрибутов) программы и сравнении полученных чисел для разных программ. Программы с близкими численными характеристиками атрибутов (attribute counts) потенциально похожи. Можно комбинировать несколько признаков, так чтобы программа была представлена не одним числом, а некоторым набором.Другой, более современный и перспективный подход состоит в сравнении программ с учетом их структуры. Структурные методы исследуют свойства программы не изолированно, а как бы в контексте, устанавливают взаимосвязь различных характеристик, их совместное поведение. Чтобы отбросить лишнюю информацию и выделить нужные зависимости, программу предварительно переводят в более компактное представление.Пусть есть две программы, представим их в виде строк токенов a и b соответственно (возможно различной длины).Представление программы в виде дерева (рисунок 3) отражает ее полезные для поиска плагиата свойства (такие как логика управления), и не учитывает бесполезные (например, порядок следования независимых операторов). Метод поиска плагиата основан на представлении программы в виде дерева, описание которого хранится в формате XML.В алгоритме используется расстояние между последовательностями, основанное на теории информации (an information based sequence distance): где К(х) - Колмогоровская сложность последовательности х.При поиске плагиата требуется находить копии и частичн

План
СОДЕРЖАНИЕ плагиат поиск программирование

ВВЕДЕНИЕ

Актуальность магистерской диссертации

Понятие плагиата

Специфика понятия «плагиат» в программировании: окончательный вывод о заимствовании делает человек

1 Постановка задачи

1.1 Необходимость дополнительной проверки на основе структурного анализа кодов

1.2 Общая схема работы модулей инструментальной системы поиска плагиата

2 Теоретические основы поиска плагиата в исходных кодах программ

2.1 Классификация методов поиска плагиата в программировании

2.2 Атрибутные методы поиска плагиата

2.3 Структурные методы поиска плагиата

2.3.1 Строковое выравнивание

2.3.2 Метод поиска на XML-представлении

2.3.3 Использование приближения Колмогоровской сложности

2.3.4 Метод идентификационных меток

2.3.5 Нейросетевые методы обнаружения плагиата

2.4 Другие методы

3 Методы поиска плагиата в произвольных текстах

3.1 Локальные методы

3.1.1 LONGSENT

3.1.2 Методы на основе меры TF

3.1.3 Методы, использующие понятия шинглов

3.1.4 Методы, использующие семантические сети

3.2 Глобальные методы

3.2.1 Методы на основе меры TF-IDF

3.2.2 I-Match метод

3.2.3 Метод «опорных» слов

3.3 Метод шинглов

3.3.1 Канонизация текстов

3.3.2 Разбиение на шинглы

3.3.3 Вычисление хешей шинглов

3.4 Дистанция (расстояние) Левенштейна

3.4.1 Алгоритм Вагнера - Фишера

3.5. Наибольшая общая последовательность (longest common subsequence, LCS) 3.6 Вычисление хеш-функции

3.6.1 Параметры вычисление хеш-функции: полином-генератор, разрядность и стартовое слово

3.6.2 Популярные и стандартизованные полиномы

3.7 Виды представления исходного кода

3.8 Представление исходного кода в виде токенов

4 Обзор инструментальных средств и сервисов анализа плагиата в программах и произвольных текстах

4.1 Обзор программ поиска плагиата в программировании

4.2 Обзор сервисов поиска плагиата

4.3 Обзор программ поиска плагиата в произвольных текстах

5 Описание используемых методов поиска плагиата в исходных кодах и произвольных текстах

5.1 Общая схема поиска

5.1.1 Схема поиска для исходных кодов

5.1.2 Основной структурный метод для анализа исходных кодов

5.1.2.1 Достоинства и недостатки

5.1.3 Дополнительный атрибутный метод для исходных текстов

5.1.3.1 Достоинства и недостатки

5.2.1 Схема поиска для произвольных текстов (в том числе и программ)

6 Программная реализация модуля поиска плагиата методами анализа исходных кодов программ

6.1 Интерфейс модуля поиска плагиата в исходных кодах программ

6.1.1 Главное окно модуля поиска плагиата методами анализа исходных кодов

6.1.2 Окно групповых режимов анализа

6.2 Взаимодействие модуля поиска плагиата методами анализа исходных кодов

6.2.1 Взаимодействие модуля с архивом работ и базой языков (добавление файла в базу)

6.2.2 Взаимодействие модуля с архивом работ и базой языков (частотный анализ, автоматический частотный анализ)

6.2.3 Взаимодействие модуля с архивом работ и базой языков (автоматический анализ последовательностей операторов)

6.2.4. Взаимодействие модуля с архивом работ и базой языков (анализ последовательностей операторов, просчет всех пиков)

6.2.5 Взаимодействие модуля с архивом работ и базой языков (удаление файла/языка из базы)

6.2.6 Взаимодействие модуля с базой языков (добавление языка в базу)

6.2.7 Пакетный режим анализа (1->n)

6.2.8 Полный анализ (n->n)

6.2.9 Поиск первоисточника и списка первоисточников

6.2.10 Некоторые особенности модуля

6.3 Описание отчетов по анализу плагиата

6.3.1 Критерии автоматического заключения о наличии плагиата при пакетном и полном анализе

6.3.2 Алгоритм поиска первоисточника для файла или списка первоисточников при полном анализе

6.3.3 Сводный отчет

6.3.4 Итоговый отчет

6.3.5 Экспорт итогового протокола в Excel

6.3.5.1 Исследование итогового протокола по полученным диаграммам Excel

6.3.6 Экспорт списка первоисточников в Excel

6.3.6.1 Исследование списка первоисточников в Excel

6.4 Пример работы модуля

6.4.1 Пример 1 анализа последовательности операторов

6.4.2 Пример 2 автоматического анализа частот появления операторов

7 Программная реализация модуля PLAGIATSEARCH поиска плагиата методами сравнения произвольных текстов

7.1 Интерфейс модуля PLAGIATSEARCH поиска плагиата методами сравнения произвольных текстов

7.1.1 Главное окно модуля PLAGIATSEARCH поиска плагиата методами сравнения произвольных текстов

7.1.2 Меню «Анализ» и его возможности для поиска плагиата в произвольных текстах

7.1.3 Информационное окно модуля PLAGIATSEARCH поиска плагиата в произвольных текстах с результатами вычисления дистанции Левенштейна

7.1.4 Представление результатов нахождения наибольшей общей подпоследовательности (longest common subsequence, LCS)

7.1.5 Представление метода шинглов для сравнения произвольных текстов

7.1.6 Применение метода шинглов для сравнения исходных кодов

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ (БИБЛИОГРАФИЧЕСКИЙ СПИСОК)

ПРИЛОЖЕНИЕ
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?