Ефективність методів семантичної мережі для виявлення плагіату речень - Дипломная работа

бесплатно 0
4.5 131
Сутність поняття "плагіат документів" та методи виявлення плагіату. Попередня обробка документу - токенізація, видалення стоп-слів та коренів. Семантичне та синтаксичне представлення документів. Алгоритм апроксимованої подібності, побудова N-грам.


Аннотация к работе
Вступ 1. Дослідження стану питання дослідження плагіату 1.1 Основні поняття 1.2 Плагіат документів 1.3 Методи виявлення плагіату 1.3.1 Виявлення на основі стилометричного аналізу 1.3.2 Виявлення плагіату на основі порівняння документів 1.3.2.1 Семантичне виявлення 1.3.2.2 Синтаксичне виявлення 1.4 Існуючі веб-засоби виявлення плагіату 1.5 Семантичні мережі 1.6 Попередня обробка документу 1.6.1 Токенізація 1.6.2 Видалення стоп-слів 1.6.3 Виділення коренів слів 1.7 Представлення документів та міри схожості 1.7.1 Семантичне представлення 1.7.2 Синтаксичне представлення 1.7.2.1 Зняття відбитків пальців 1.7.2.2 Схема ваговимірювання термінів 1.7.2.3 N-грами 1.8 Алгоритм апроксимованої подібності 1.8.1 Алгоритми схеми підпису 1.8.2 Алгоритми на основі інвертованого індексу 1.9 Підведення підсумків 2. Побудова експериментальної моделі 3.1 Вступ 3.2 Порівняння речення до речення 3.2.1 Підхід N-грам 3.2.2 Семантичний підхід подібності 3.3 Результати аналізу Висновки Вступ Всесвітня Мережа Інтерет є найбільшим джерелом інформації в наш час. Тут первинні документи можуть бути з підручників або найбільш часто з веб-документів. Наприклад обсяг розміру, неоднорідність і дублювання [2], проте система може бути налаштована для пошукових цілей, наприклад, якщо метою є виявлення плагіату, система може бути використана для повернення найбільш синтаксично або семантично аналогічних документів на запит по документу. Інший метод є використовування джерел пошукових систем (таких як Google, Yahoo і Bing), оскільки вони надають доступ до своїх систем. Подібність між реченнями (або в більш загальному обєкті) може бути опрацьовані чисельно з використанням таких критеріїв подібності, як подібність Джаккарда, подібність Перекриття, Косинус подібність. Кожна міра повертає значення, що вказує ступінь подібності між парами обєктів зазвичай між 0 і 1. За допомогою тезауруса WordNet для вилучення синонімів проблема заміщення слів може бути вирішена, проте через те що значення слів неоднозначні, вибір правильного терміну часто нетривіальний [38]. Всі пять варіантів використовували вагу термінів, яка є вираженням важливості терміна в даному документі, і розраховується як частота появи цього терміна. 1.4 Існуючі веб-засоби виявлення плагіату У цьому розділі розглядаються деякі існуючі інструменти виявлення плагіату та висвітлюються деякі недоліки цих інструмекнтів на основі порівняльного дослідження по вибраним 10 документам з цифрової бібліотеки ACM і вручну зробили плагіат заміною синонімів. Таблиця 1.2 Деякі з відносин між поняттями в WordNet (N = іменник, V = дієслово, Adj = прикметник, Adv = прислівник) Відношення Опис Дійсне для hypernym У hypernym з X, якщо кожен X вид Y N-N, V-V hyponym У hyponym з X, якщо кожен У вид X N-N coordinate term У є координуючим терміном X, якщо X і Y ділять hypernym N-N , V-V holonym У holonym з X, якщо X є частиною Y N-N meronym У meronym з X, якщо Y є частиною X N-N troponym дієслово У troponym від дієслова X, якщо дія Y робить дію X V-V entailment Дієслово Y слідує за X, якщо, роблячи X ви повинні робити Y V-V Відношення Опис Дійсне для pertainym біологічний відноситься до біології Adj-N similar to Adj-Adj participle of пройдений дієприкметник від дієслова пройти Adj-V root adjectives обчислювальний корінь прикметника обчислювально Adv-Adj antonym N-N, V-V, Adj-Adj, Adv-Adv see also V-V, Adj-Adj attribute Adj-N WordNet розрізняє іменники, дієслова, прикметники та прислівники так вони мають різні граматичні правила.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?