Построение семантической сети понятий на основе тематической выборки документов (статей, книг) раздела экономики - Курсовая работа

бесплатно 0
4.5 209
Задачи по автоматической обработке текста. Лингвистические методы в современных приложениях автоматической классификации и распознания (анализа). Выполнение анализа текста, построения семантической сети с помощью TextAnalist 2.01. Выбор файлов для работы.


Аннотация к работе
Тема: Построение семантической сети понятий на основе тематической выборки документов (статей, книг) раздела экономикиСемантические сети представляют собой модели хранения понятий (слов, высказываний) в семантической памяти. Теперь же они используются в качестве структуры, пригодной для представления информации общего вида, - узлы представляют некоторые концепты (понятия), а связи - отношения между концептами. В общем случае семантическая сеть обеспечивает следующие основные функции: хранение сведений об объектах и связях между ними; возможность поиска объектов по различным характеристикам; возможность пополнения и корректировки знаний системы во время обучения; возможность реализации процедуры обобщения и конкретизации знаний; отражение иерархичности знаний о предметной области; понятность для эксперта. Простым примером является иерархическая сеть, где понятия являются таксономическими терминами и единственным отношением явлется type-of (относится к типу) (гипонимные отношения - hyponymous relationship, когда одно понятие включает в себя другие понятия). Отношение между понятиями, смыслами или значениями не следует смешивать с отношениями между терминами, словами и выражениями или символами, которые используются для выражения понятия.В данной курсовой работе был произведен сбор, обработка и анализ документов (статей) раздела экономики. Было произведено исследование данной выборки документов для выделения основных терминов и связей; рассмотрен механизм построения семантической сети для тематической выборки документов; выбрана программа, позволяющая ускорить процесс решения задачи построения семантической сети. Для выполнения задачи курсовой работы была задействована программа TEXTANALYST, с помощью которой была произведена программная обработка текста. Выбранный метод построения семантической сети позволяет довольно быстро и точно построить семантическую сеть, как для отдельной статьи, так и для выборки документов.

Введение
Исследование языка в первую очередь вызвано интересом к естественному интеллекту человека, поэтому такая форма существования языка как письменный текст, также является объектом пристального внимания. Наблюдается устойчивый интерес к работам, проводимым в этой области.

С развитием промышленности и компьютерной индустрии интерес к исследованиям текстовой информации, к задаче автоматической классификации его и обработки только увеличился. По мере внедрения и развития информационных технологий актуальность только повышалась.

Задачи по автоматической обработке текста включают в себя задачи информационного поиска, связанные с нахождением информации в электронных базах знаний, автоматическим извлечением данных и фактов по заданной тематике, автоматическим реферированием электронных документов. А также другие проблемы обработки естественного языка с использованием вычислительной техники, а именно понимание естественного языка, лингвистическое обеспечение информационных систем разных типов, машинный перевод.

Существует множество подходов к решению задачи автоматической обработки, распознания и классификации текстовой информации. В последние года популярность набирает технология анализа и визуализации содержания текста на основе семантических сетей, которая предназначена так же для решения экспертных задач, связанных с поиском скрытой информации в больших массивах документов.

При решении задач автоматической обработки, распознавания и классификации текстовой информации следует выделить, что наиболее часто используемые методы классификации это статистические методы: такие как статистические классификаторы на основе вероятностных методов, методы многомерного статистического анализа, в частности, факторного анализа, кластерного анализа, таксономии, распознавания образов без учителя, частотный анализ текста, математический анализ текста на основе законов. Так же необходимо отметить и лингвистические методы. Зачастую в системах автоматического реферирования применяются как лингвистические, так и статистические методы, Лингвистические методы в современных приложениях автоматической классификации и распознания (анализа) часто используются совместно с методами искусственного интеллекта, особенно с семантическими сетями.

Семантические сети строятся на основе выделенных лексических или синтаксических отношений.

Семантические сети эффективны не только с точки зрения классификации и реферирования, но и выделения смысла текста и зачастую опираются на лингвистический аппарат.

Технологии семантических сетей

Семантические сети представляют собой модели хранения понятий (слов, высказываний) в семантической памяти. Их организация и структурирование основаны на содержательном описании понятий и слов, обозначающих эти понятия и составляющих содержание семантической памяти.

В простейшем случае узлы семантической сети отображают отдельные понятия, связи между узлами - отношения между понятиями (высказываниями). При таком подходе каждое обладает набором свойств (характеристик, атрибутов). Функция части атрибутов заключается в установлении различных типов связей с другими узлами семантической сети (понятиями). Кроме того, структура сети дает возможность приписывания каждой связи некоторых значений частоты (веса) ее использования, причем частоты могут быть разными в зависимости от ситуации (контекста) использования данной связи.

Семантическая сеть представляет собой ориентированный граф, в котором понятия предметной области моделируются вершинами графа, а связи между ними - дугами. Примером такой сети можно считать гипертекст с его якорями и гиперсвязями (но это лишь частный простой случай). Граф может быть древовидным, так же может содержать и циклические структуры.

В семантическую сеть включаются наиболее часто встречающиеся слова текста, которые несут основную смысловую нагрузку. Для каждого понятия формируется набор ассоциативных (смысловых) связей, т.е. список других понятий, в сочетании с которыми оно встречалось в предложениях текста. При этом считается, что чем чаще встречаются вместе два понятия в предложениях текста, тем выше вероятность того, что они связаны по смыслу.

Идея систематизации на основе каких-либо семантических отношений предлагалась еще учеными ранней науки. Примером этого может служить биологическая классификация Карла Линнея 1735 г. Если рассматривать ее как семантическую сеть, то в данной классификации используется отношение подмножества, современное AKO (от англ. «A Kind Of», «разновидность»).

Рисунок 1. Пример иерархии таксономических групп, основанной на системе классификации Линнея

Семантические сети вначале использовались для представления смысла выражений естественного языка человека, откуда и появилось название этого класса сетей. Теперь же они используются в качестве структуры, пригодной для представления информации общего вида, - узлы представляют некоторые концепты (понятия), а связи - отношения между концептами.

В общем случае семантическая сеть обеспечивает следующие основные функции: хранение сведений об объектах и связях между ними; возможность поиска объектов по различным характеристикам; возможность пополнения и корректировки знаний системы во время обучения; возможность реализации процедуры обобщения и конкретизации знаний; отражение иерархичности знаний о предметной области; понятность для эксперта.

Проблема поиска решений сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети, отражающей поставленный запрос.

Самые первые семантические сети были разработаны в качестве языка-посредника для систем машинного перевода, а многие современные версии до сих пор сходны по своим характеристикам с естественным языком. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию фреймовым системам, логическому программированию и другим языкам представления знаний.

Начиная с конца 50-ых годов прошлого века были созданы и применены на практике десятки вариантов семантических сетей.

Несмотря на то, что терминология и их структура различаются, существуют сходства, присущие практически всем семантическим сетям: Узлы семантических сетей представляют собой концепты предметов, событий, состояний.

Различные узлы одного концепта относятся к различным значениям, если для них не помечено, что они относятся к одному концепту.

Дуги семантических сетей создают отношения между узлами-концептами (пометки над дугами указывают на тип отношения).

Некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями).

Концепты организованы по уровням в соответствии со степенью обобщенности. Как пример, сущность, живое существо, животное, плотоядное.

Однако существуют и различия: понятие значения с точки зрения философии; методы представления кванторов общности и существования и логических операторов; способы манипулирования сетями и правила вывода, терминология. Все это варьируется от автора к автору. Несмотря не некоторые различия, сети удобны для чтения и обработки компьютером, а также достаточно мощны, чтобы представить семантику естественного языка.

Семантическая сеть дает возможность охарактеризовать отношения между понятиями. Часто понятия представляются словом или набором слов. Простым примером является иерархическая сеть, где понятия являются таксономическими терминами и единственным отношением явлется type-of (относится к типу) (гипонимные отношения - hyponymous relationship, когда одно понятие включает в себя другие понятия). Более сложные семантические сети включают в себя отношения различных типов такие как твердость, температура, сделано из, текстура и цвет. Одной из самых больших семантических сетей является WORDNET, лексическая база данных английского языка.

Рисунок 2. Простая семантическая сеть с различными типами отношений.

В узком смысле семантические отношения определяют связи между понятиями или значениями. Понятие [школа] следует отличать от слова ‘школа’. [Школа] является [образовательным учреждением]. Это указывает иерархическое отношение между двумя понятиями или значениями, которое является разновидностью из длинного ряда семантических отношений.

Понятие [Школа] может, например, быть выражено в терминах или выражениях ‘школа’, ‘школьное здание (schoolhouse)’ и ‘место обучения’. Отношение между ‘школа’ и ‘школьное здание’ является синонимическим между этими двумя выражениями, в то время как отношение между ‘школа’ и ‘место обучения’ является отношением между словом и выражением или фразой. Отношения между словами являются лексическими отношениями. "Школа" имеет значение [группа людей, кто прошел обучение в определенном коллективе или в учреждении или придерживаются некоторых взглядов]. Синонимы и омонимы не являются отношениями между понятиями, а понятиями, выраженными идентичными или разными символами.

Отношение между понятиями, смыслами или значениями не следует смешивать с отношениями между терминами, словами и выражениями или символами, которые используются для выражения понятия. Однако довольно часто эти два вида отношений смешиваются.

Некоторые важные виды семантических отношений перечислены ниже: Антонимия (A противоположно B; то есть холодный противоположен теплому)

Ассоциативные отношения: отношение, которое определено психологически: некоторые люди ассоциируют понятия (кто-то ассоциирует A с B). Ассоциативными отношениями часто считаются неспецифицированные отношения.

Причинно-следственные отношения: A является причиной B. Например: цинга вызывается недостатком витамина C.

Омоним. Два понятия A и B, обозначаются одним символом. Пример: в английском языке финансовое учреждение и берег реки выражается одним словом bank (слово имеет два смысла).

Гипонимные отношения (отношение типа "является" или гипоним-гиперним), родо-видовые отношения: иерархические отношения подчинения (A является разновидностью B; A является более узким понятием, чем B; B более широкое понятие, чем A). Отношение типа "является" обозначает, что объект принадлежит некоторому классу. Например, "автомобиль - является транспортным средством" и "цыпленок является птицей". Когда все отношения в системе имеют тип "является", система представляет собой таксономию. Опция "типичный" позволяет вам выделить все конкретные разновидности (образцы, гипонимы) понятия. Опция "специфичный" позволяет вам выделить общий гиперним всех конкретных разновидностей понятия.

Случай отношения (“случай”, понятие примера) - обозначает семантические отношения между общим понятием и индивидуальными случаями понятия. A является примером B. Пример: Москва является примером общего понятия столица.

Отношения положения: семантическое отношение, в котором понятие указывает на положение предмета, обозначенного другим понятием. A размещено в B; пример: меньшинства в Дании.

Меронимия, А является частью Б (отношение целого и части): отношение между целым и частями. Мероним является названием части содержимого или членство в каком-то составе. Меронимия противоположна голонимии (B содержит A, которая является ее частью). A уже, чем B; B шире, чем A.

Пассивное отношение: Семантическое отношение между двумя понятиями, одно из которых подвержено воздействию другого.

Парадигматические отношения. Семантическое отношение между двумя понятиями, которые рассматриваются фиксированным, самоочевидным или установленным по соглашению. Примеры: мать / ребенок; жир /ожирение; штат /его столица.

Многозначность: многозначным считается слово, которое имеет несколько значений, которые отличаются друг от друга.

Владение: отношение между владельцем и владением.

Связанные термины. Термин, который семантически связан с другим термином. В тезаурусах связанные термины отмечаются RT и используются для семантических отношений, которые отличаются от отношения синонимичности (USE; UF), гипонимности, и партитивных отношений (BT; NT). Связанные термины могут, например, выражать антогонистичесикие отношения, активные/пассивные отношения, причинно-следственные связи, отношения положения или парадигматические отношения.

Синонимия (A означает то же что и B; A эквивалентно B).

Временные отношения: Семантическое отношение, в котором понятие указывает на время или период, относящиеся к другому понятию. Пример: Вторая мировая война, 1939-1945.

Тропонимия определена в WORDNET 2 как: семантическое отношение, сопряженное с чем-то сходным (или значение: "названия мест в области").

Итак, семантическая сеть - это множество понятий, связанных между собой. В семантическую сеть включаются наиболее часто встречающиеся слова текста, которые несут основную смысловую нагрузку. Для каждого понятия формируется набор ассоциативных связей, отношений, т.е. список других понятий, в сочетании с которыми оно встречалось в предложениях текста. При этом считается, что чем чаще встречаются вместе два понятия в предложениях текста, тем выше вероятность того, что они связаны по смыслу.

В контексте курсовой работы нужно рассмотреть семантическую сеть, отражающую основные понятия текста и связи между ними.

Построение семантической сети

Результатом данной курсовой работы должна быть построенная семантическая сеть понятий тематической выборки документов (статей, книг) раздела экономики. Для реализации данной задачи будут использованы статьи, взятые с сайта www.ereport.ru . Этот сайт посвящен мировой экономике, мировым товарным и финансовым рынкам. Сайт содержит как обзорную информацию в статьях, так и большое количество статистической информации. Свежие и актуальные новости мировой экономики помогают пользователю более глубоко вникнуть в процесс развития мировой экономики, статьи позволяют подробнее узнать о тех или иных экономических критериях и показателях, разобраться в деятельности организаций, вопросах функционирования товарных и финансовых рынков. Статистическая информация всегда актуальна для представления общей картины, отражения тенденций развития мировой экономики, экономики отдельных взятых стран и отдельных секторов экономики.

С данного сайта было отобрано несколько статей с объемом не менее 500 слов. Ниже предоставлен перечень использованных статей и их объемы: Как научиться инвестировать, объем 717 слов;

Управление инвестициями, объем 2857 слов;

Куда вложить деньги. Грамотное вложение денег, объем 4041 слов;

Банковские вклады под высокий процент , объем 565 слов;

Банковские вклады и депозиты для физических лиц, объем 2366 слов;

Облигации. Рынок облигаций. Доходность облигаций, объем 2103 слов;

Паевые фонды и их преимущества, объем 2850 слов;

Все о Форекс, объем 2332 слов;

О бонусах форекс или торговля на валютном рынке без риска, объем 740 слов;

Стратегии и советники форекс - серьезные помощники в торговле, объем слов;

ПАММ-счета: что нужно знать, прежде чем инвестировать?, объем 706 слов;

Инвестирование в памм счета, объем 637 слов;

Бинарные опционы. Стратегии бинарных опционов, объем 1779 слов;

Мировой рынок золота, объем 3520 слов;

Мировой рынок серебра, объем 1095 слов;

Мировой рынок платины, объем 1689 слов;

Интернет-инвестиции в реально работающие проекты и программы, объем 790 слов;

Как грамотно организовать процесс бюджетирования и расходования средств в компании, объем 751 слов;

Микрозаймы как деньги на всякий случай и шанс завести собственное дело, объем 526 слов;

Как получить кредит на выгодных условиях от частного инвестора?, объем 556 слов;

Кредиты на оптимальных условиях для малого бизнеса, объем 566 слов.

Представленные статьи собраны по теме «инвестирование и финансы».

Для построения семантической сети в курсовой работе необходимо использование программ для статистической обработки текста. В данной курсовой работе будет использоваться свободно распространяемая отечественная программа TEXTANALIST, как наиболее подходящая, так как она не только обрабатывает текст статистически, но и устанавливает связи между понятиями, оценивая вес и значимость каждой связи.

Выполнение анализа текста и построения семантической сети с помощью TEXTANALIST 2.01.

В первую очередь необходимо сохранить тексты выбранных статей в формате .txt, так как программа TEXTANALIST 2.01 работает только с файлами текстового формата.

Работа с программой начинается с выбора пункта «Анализ текстов и создание базы документов»

Рисунок 3 - Начало работы и выбора списка подготовленных статей:

Рисунок 4 - Выбор файлов для работы выборка документ семантический сеть

Работа с программой проста и не вызывает сложности. В левом верхнем углу располагается окно, в котором в зависимости от выбранной вкладки можно увидеть список статей, тематическую структуру, семантическую сеть и результаты поиска, а в правом для тематической и семантической вкладки - фрагменты текста, соответствующие выделенному термину (сам термин выделен красным). Для обработки русского текста необходимо выбрать в настройках нужный словарь.

Рисунок 5. Тематическая структура

Рисунок 6. Семантическая сеть

Рисунок 7. Выбор словаря

Ближайшее к понятию число определяет смысловой вес. Оно может принимать значение от 1 до 100, показывая, какое значение имеет данное понятие для смысла всего текста - как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте и в нем очень мало информации, относящейся к данному понятию. В данном случае можно наблюдать несколько значимых понятий, таких как «доходность», «управление», «золото», «банковские», «инвестиционные» и т.д. Понятия «акции», «бинарные опционы», «биржи» располагаются ниже и имеют меньшее значение.

Рисунок 8. Наиболее значимые понятия

Теперь рассмотрим связь понятий с одним из основных понятий - понятием «доходность». Щелкнув дважды по слову «доходность», мы увидим выпадающий список (приведен на рисунке 9).

Рисунок 9 - Вес связи понятий с основным понятием

Второе число, стоящее перед смысловым весом, представляет вес связи от понятия в вершине раскрытого списка к данному. Вес связей также всегда принимает значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия - первая тема почти всегда излагается в контексте второй. Малое единичное значение отражает тот факт, что первое понятие слабо связано со вторым и очень мало информации по первой теме касается в тоже время и второй. Как видно из примера, вес связи «доходность - облигации» равен 79 (сильная связь), а вес понятия «облигации» - 100. Точно так же можно выяснить вес связи для любых связанных понятий.

Также можно, выделив два или более понятия одновременно посмотреть связи между ними и в правом окне - предложения, содержащие оба эти термина.

Более подробное описание работы с программой имеется в TEXTANALIST в разделе «Помощь».

На основе приведенных данных построим семантическую сеть в виде графа.

Рисунок 10 - Построение семантической сети

Здесь выбраны самые значимые понятия, обладающие наибольшим весом. Уже на рисунке определены и наглядны основные темы текста. На нем так же отображены связи между значимыми терминами.

Теперь необходимо добавить следующий уровень понятий, конкретизируя основные понятия текста, еще более уточняя содержание текста. На вкладке (рис. 11) показаны близкие понятия с высоким весом для понятия «бумаги».

Рисунок 11 - Терминологическое окружение понятия «бумаги»

Сеть с добавленными понятиями: Рисунок 12 - Добавление в сеть окружения понятия «бумаги»

Аналогичным образом добавим в сеть прочие уточняющие понятия, обладающие значимыми связями:

Рисунок 13 - Семантическая сеть

Построенная таким образом семантическая сеть понятий представляет идеальное описание текста - информация в ней может отражать все присутствующие смысловые связи, что важно с точки зрения полноты смыслового портрета.

Вывод
В данной курсовой работе был произведен сбор, обработка и анализ документов (статей) раздела экономики. Было произведено исследование данной выборки документов для выделения основных терминов и связей; рассмотрен механизм построения семантической сети для тематической выборки документов; выбрана программа, позволяющая ускорить процесс решения задачи построения семантической сети.

Для выполнения задачи курсовой работы была задействована программа TEXTANALYST, с помощью которой была произведена программная обработка текста. В процессе статистической обработки были выделены ключевые понятия и установлены связи между ними. Для визуализации построенной семантической сети непосредственно граф был выполнен вручную.

Выбранный метод построения семантической сети позволяет довольно быстро и точно построить семантическую сеть, как для отдельной статьи, так и для выборки документов. В программе TEXTANALYST имеется связь между терминами и статьями, в которых употребляется данный термин, что позволяет быстро осуществлять поиск нужной информации в выборке документов.

Разработанная семантическая сеть представляет собой наглядное и эффективное средство структуризации предметной области.

Сфера применения семантических сетей достаточно обширна. Это информационно-поисковые системы, системы автоматической классификации, библиотечно-справочные системы, в роботах-поисковиках, системах обработки текстовой информации, экспертные системы.

Для реализации семантических сетей существуют специальные сетевые языки: NET, язык реализации систем SIMER MIR и др. Широко известны экспертные системы, использующие семантические сети в качестве языка представления знаний: PROSPECTOR, CASNET, TORUS.

Список литературы
Померанцев А. Классификация. Статистические методы. Российское хемометрическое общество http://rcs.chph.ras.ru/, 2011.

Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах аналитика. Информатизация и информационная безопасность правоохранительных органов: XIII Международная научная конференция. Сборник трудов - Москва, 2009.

Первые шаги с TEXTANALYST. Руководство пользователя. http://www.analyst.ru.

Башмаков, А. И. Интеллектуальные информационные технологии : учебное пособие / А. И. Башмаков, И. А. Башмаков. - М. : Изд-во МГТУ им. Н. Э. Баумана, 2005. - 304 с

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?