Оценка особенности употребления терминологических слов и словосочетаний в предметной области текста. Признаки выявления прилагательных и существительных. Использование глобальной поисковой машины и методов машинного обучения в области естественных наук.
Аннотация к работе
В то время как подавляющее число наиболее частотных слов, извлеченных из коллекции текстов предметной области, представляют собой слова литературного языка, и, следовательно, не являются терминами. Применение статистических мер, позволяющих оценить особенность употребления слов в данной коллекции по сравнению с некоторой контрастной коллекцией документов таких, как tf.idf или странность (weirdness) [Zhang et al., 2008] повышает долю слов-терминов, получивших высокие веса по этим мерам, однако все еще остается относительно низкой. Используемые нами признаки могут быть разделены на три типа: - признаки, построенные на основе текстовой коллекции предметной области; признаки, полученные на основе информации глобальной поисковой машины, - признаки, полученные на основе заданного тезауруса предметной области. Автоматически извлеченные слова и словосочетания из собранных коллекций текстов можно использовать для тестирования различных методов извлечения и упорядочения терминов-кандидатов, поскольку за это время Онтология ОЕНТ выросла, и включенные в ее состав термины могут служить хорошей основой для оценки качества методов.Помимо наиболее известного способа формирования признаков слов на основе обработки текстовой коллекции предметной области используются также признаки, порожденные на основе выдачи глобальных поисковых машин, а также признак, вычисляемый на основе известных терминологических словосочетаний предметной области.
Введение
Важным аспектом создания прикладных систем в конкретных предметных областях является учет терминологии предметной области. Поэтому одним из важных направлений исследований в области создания понятийных моделей предметных областей, прикладных онтологий являются технологии извлечения из текстов терминов предметной области.
При извлечении терминов предметной области большое внимание уделяется извлечению терминологических словосочетаний, и значительно меньшее исследований посвящено извлечению отдельных слов-терминов [Zhang et al., 2008].
Вместе с тем известно, что список самых частотных словосочетаний, извлеченных из текстов предметной области, содержит очень высокую долю терминологических словосочетаний. В то время как подавляющее число наиболее частотных слов, извлеченных из коллекции текстов предметной области, представляют собой слова литературного языка, и, следовательно, не являются терминами. Применение статистических мер, позволяющих оценить особенность употребления слов в данной коллекции по сравнению с некоторой контрастной коллекцией документов таких, как tf.idf или странность (weirdness) [Zhang et al., 2008] повышает долю слов-терминов, получивших высокие веса по этим мерам, однако все еще остается относительно низкой.
Другой мерой, которая может применяться для выделения терминологических слов, является мера, оценивающая их вхождение как фрагмента в объемлющие словосочетания [Ananiadou, 1994].
В данной работе мы рассмотрим различные признаки выявления терминологичности отдельного слова (прилагательных и существительных), оценим их качество на основе меры средней точности, заимствованной из информационного поиска. Используемые нами признаки могут быть разделены на три типа: - признаки, построенные на основе текстовой коллекции предметной области;
- признаки, полученные на основе информации глобальной поисковой машины, - признаки, полученные на основе заданного тезауруса предметной области. Здесь мы моделируем ситуацию развития существующего тезауруса и хотим выяснить, насколько знания, описанные в текущей версии тезауруса, могут улучшить качество автоматического извлечения следующих терминов.
Далее мы применяем методы машинного обучения для наилучшего комбинирования выделенных признаков с целью получения терминологических слов. Как показано в ряде публикаций, комбинирование признаков для выделения терминологических словосочетаний, устойчивых словосочетаний других видов позволяет значительно улучшить качество их извлечения [Pecina et al., 2006; Zhang et al., 2008].
Эксперименты проводятся в широкой области естественных наук. Качество методов определения терминологичности слов признаков оценивается на создаваемой вручную Онтологии по естественным наукам и технологиям ОЕНТ [Добров и др., 2005].
1. Текстовая коллекция и способ оценки качества извлечения терминов
В качестве базы для экспериментов по извлечению слов-терминов мы используем текстовую коллекцию, которая была собрана в начале работы над онтологией ОЕНТ [Добров и др., 2005].
Онтология ОЕНТ представляет собой, так называемую лингвистическую онтологию, то есть онтологию, понятия в которой основаны на значениях существующих языковых выражений - в данном случае естественнонаучных терминов.
Одновременно онтология ОЕНТ может рассматриваться как тезаурус, поскольку описывает формализованные отношения между терминами предметной области.
В настоящее время онтология ОЕНТ включает 56 тысяч понятий и 150 тысяч различных терминов математики, химии, физики, геологии, биологии. На первом шаге разработки онтологии ОЕНТ (в 2004 году) были собраны коллекции текстов по таким наукам как, математика, физика, химия, геология (от 3000 до 8000 документов, от 50 до 90 Мб по каждой из наук).
Автоматически извлеченные слова и словосочетания из собранных коллекций текстов можно использовать для тестирования различных методов извлечения и упорядочения терминов-кандидатов, поскольку за это время Онтология ОЕНТ выросла, и включенные в ее состав термины могут служить хорошей основой для оценки качества методов.
Эксперименты проводились на пяти тысячах наиболее частотных слов, извлеченных из этой коллекции. Задачей применения методов является переупорядочение исходного списка слов (первоначально упорядоченного по мере снижения частотности) так, чтобы в начало списка попало как можно больше слов-терминов.
Таким образом, наилучшее переупорядочение списка снизит трудозатраты эксперта по вводу терминов в онтологию - эксперт будет меньше просматривать слова, не являющиеся терминами.
Для оценки качества такого упорядочения используется мера, заимствованная из информационного поиска - так называемая средняя точность - AVP [Агеев и др., 2004]. Характеристика средней точности AVP в задаче извлечения слов-терминов вычисляется следующим образом. Пусть в упорядоченном списке слов имеется k терминов, и pos(i) - позиция i-го термина от начала списка.
Тогда точность на уровне i-го термина PRECTERMI в упорядоченном списке равна PRECTERM(pos(i)), то есть величина точности PRECTERMI подсчитывается в момент поступления в список i-го термина и равна доле терминов в списке от 1 до i позиции. Средняя точность для данного упорядочения списка слов равна среднему значению величины PRECTERMI: AVP = .
Данная мера позволяет оценить качество извлечения терминов с помощью одной числовой величины за счет того, что, чем большая доля терминов из списка сосредоточена в начале списка, тем эта мера выше.
2. Используемые признаки слов
Рассмотрим подробнее признаки, которые можно использовать для выявления терминологичности слова, встретившегося в коллекции текстов предметной области.
Частотность (Freq). Частотность употребления слова в коллекции.
Частотность с учетом частоты употребления в объемлющей коллекции (Tf*idf). Данный признак широко употребляется в информационно-поисковых системах и позволяет снижать вес употребительных слов. Tf - это просто частотность слова в текущей коллекции.
Tf*Idf (w) = , где n - размер контрастной коллекции, b - число документов, в которых употреблялось слово w в контрастной коллекции.
В качестве контрастной коллекции для данного признака была выбрана коллекция Интернет-страниц белорусского Интернета, которая распространяется в качестве базовой коллекции для экспериментов в Интернет-поиске в рамках семинара РОМИП [Некрестьянов и др., 2008].
Признак Странность (Weirdness). Данный признак учитывает пропорциональное соотношение частотности употребления слова в рабочей текстовой коллекции по сравнению с контрастной коллекцией [Ahmad et al., 1999]. Пусть - слово. Тогда , где - частотность слова в коллекции предметной области; - совокупная частотность слов в коллекции предметной области; - частотность слова в контрастной коллекции белорусского интернета; - совокупная частотность слов в контрастной коллекции белорусского интернета.
Признак С-Value. Данный признак основывает рейтинг терминологичности слов с учетом частотности объемлющих словосочетаний, в которое входит данное слово [Ananiadou, 1994]. Пусть w - слово. Тогда
C-Value(w)= , где Ta - множество всех словосочетаний в коллекции, содержащих слово w; P(Ta) - мощность множества Ta.
Наиболее частотное объемлющее словосочетание (Inside). Данный признак учитывает частотность наиболее частотного словосочетания, в состав которого входит данное слово.
Пусть w - слово. Среди всех словосочетаний, содержащих слово w, выберем наиболее частотное. Пусть Fmax - его частота. Тогда .
Данный признак проверяет, не употребляется ли данное слово в составе одного и того же словосочетания. Чем выше значение признака, тем ниже вероятность того, что слово является самостоятельным значимым элементом предметной области, а, скорее, является компонентом более длинного устойчивого словосочетания.
Признаки употребления слова в наборе словосочетаний (Sum3, Sum10, Sum50). Данные признаки проверяют, насколько данное слово было продуктивным в образовании словосочетаний предметной области.
Пусть w - слово. Среди всех словосочетаний, содержащих слово w, выберем k наиболее частотных. Пусть Sum - cymma их частотностей. Тогда .
Признаки, полученные на основе выдачи глобальной поисковой машины. Для вычисления следующих двух признаков были использованы контексты употребления слов. В качестве таких контекстов мы используем сниппеты (аннотации документов в выдаче), получаемые от поисковой машины Яндекс через xml-интерфейс.
Для вычисления признаков использовалось по 100 сниппетов из выдачи. Сниппеты, получаемые по одному запросу, соединяются в один документ и обрабатываются программой морфологического анализа. В результате для каждого набора сниппетов может быть определена совокупность лемм (слов в словарной форме) и их частотность встречаемости в данном наборе сниппетов.
Для терминов существенным является принадлежность к предметной области. Простейший способ учесть фактор принадлежности к предметной области является задание списка маркеров предметной области, включающих некую совокупность (от нескольких единиц до нескольких десятков) наиболее характерных слов предметной области.
Признак Markers учитывает количество таких слов, встретившихся в сниппетах, полученных для исходного слова. В данном случае в качестве маркеров мы использовали названия основных наук и образованных от них прилагательных: математика, математический, физика, физический, химия, химический и др.
Другим признаком, получаемым на основе сниппетов, является количество слов-определений в сниппете слова. Смысл признака Neardefwords (количество слов-определений в сниппетах) заключается в том, что если в сниппетах рядом с исходным словом встречаются слова, характерные для определения в терминологических словарях (это, тип, вид, класс и др.), то, скорее всего, это термин, для которого вводится определение. Признак Neardefwords равен количеству таких слов, появившихся непосредственно рядом (слева или справа) с исходным словом в сниппетах, полученных по запросу, совпадающему с исходным словом.
Признак встречаемости слова в терминах тезауруса. Предположим, что разработка тезауруса предметной области уже начата, и в тезаурус внесена некоторая совокупность терминов. Тогда как дополнительный признак для определения терминологичности слова можно использовать признак количества терминологических словосочетаний, в которые входит данное слово - признак FREQBYTHES.
В текущем эксперименте мы использовали полную совокупность многословных терминов онтологии ОЕНТ и, таким образом, пытались оценить, насколько можно предсказать терминологичность отдельного слова на этой основе.
3. Результаты эксперимента
Все эксперименты проводились с выборкой величиной 5 тысяч слов, для которых были обсчитаны все вышеперечисленные признаки. В качестве эталонного множества терминов использовались однословные термины, включенные в состав Онтологии ОЕНТ. Табл.1 представляет характеристику средней точности AVP для отдельных характеристик слов. Отметим, что в качестве базового уровня, в котором не было сделано реально никакого разумного упорядочения, для эксперимента можно взять простое упорядочение по алфавиту, для которого величина средней точности оказалась равной 22%.
Как видно в таблице 1, такие признаки как Tf*idf и Странность, которые учитывают контрастные коллекции, показали более хорошие значения средней точности по сравнению с простым признаком частотности, однако очевидно, что их использование не решает проблему определения терминологичности отдельных слов.
Табл.1
Признак AVP
Частотность 46%
Tf*idf 51%
C-value 46%
Странность 52%
Наиболее частотное словосочетание Inside 51%
Sum3 52%
Sum10 54%
Sum50 54%
Близкие слова-определения NEARDEFWORDS 54%
Ключевые слова Markers 46%
Частотность по терминам FREQBYTHES 66%
Предложенные нами признаки Sum10 и Sum50 показали самые высокие показатели средней точности среди признаков, полученных на коллекции документов. словосочетание поисковый терминологический
Самые высокие результаты по предсказанию однословных терминов показал признак частотности по многословным терминам FREQBYTHES. Поскольку можно предположить, что вычисленные признаки отражают разные особенности однословных терминов, то является важным подобрать оптимальную комбинацию этих признаков. Для поиска наилучшей комбинации были использованы алгоритмы машинного обучения. При этом выборка слов случайным образом разбивалась на две части (обучающая выборка и контрольная выборка) в соотношении 3 к 1.
Для подбора алгоритма комбинирования полученных признаков был использован программный пакет алгоритмов машинного обучения RAPIDMINER (www.rapidminer.com). Наилучшим методом по величине средней точности оказался метод логистической регрессии W-Logistic, на основе которого было достигнуто значение средней точности AVP=72%.
Таким образом, мы видим, что комбинация всех признаков дала результат по мере средней точности, почти на 40% превышающий наиболее известный способ упорядочения слов-кандидатов в термины tf*idf .
Вывод
В данной статье было предложено для извлечения однословных терминов использовать три различных типа признаков слов. Помимо наиболее известного способа формирования признаков слов на основе обработки текстовой коллекции предметной области используются также признаки, порожденные на основе выдачи глобальных поисковых машин, а также признак, вычисляемый на основе известных терминологических словосочетаний предметной области.
Кроме того, мы предложили новые признаки, основанные на коллекции текстов предметной области. Это признаки, которые учитывают частотность употребления данного слова в заданном числе наиболее частотных словосочетаний.
Наконец, было выполнено комбинирование всех собранных признаков посредством использования методов машинного обучения, и был получен результат средней точности по упорядочению слов-терминов в упорядоченном списке, который на 40% превышает результат по наиболее часто используемому признаку - tf*idf.
Список литературы
1. [Агеев и др., 2004] Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП’2004 // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004). - Пущино, 2004.
2. [Браславский и др., 2006] Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двусловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии Труды международной конференции «Диалог 2006». М.: Изд-во РГГУ, 2006.
3. [Добров и др., 2005] Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска. // Труды 7-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL-2005.
4. [Некрестьянов и др., 2008] Некрестьянов И., Некрестьянова М. Особенности организации и проведения РОМИП 2008. Код доступа: http://romip.ru/romip2008/2008_01_organizers.pdf.
5. [Ahmad et al., 1999] Ahmad K., Gillam L., Tostevin L. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // In the Proceedings of Eigth Text Retrieval Conference (Trec-8). 1999.
6. [Ananiadou, 1994] Ananiadou S. A methodology for automatic term recognition // In the Proceedings of COLING-1994, 1994.
7. [Pecina et al., 2006] Pecina P., Schlesinger P. Combining association measures for collocation extraction // Annual Meeting of the Association for Computational Linguistics, ACL 2006. ACM: 2006.
8. [Zhang et al., 2008] Zhang Z., Iria J., Brewster Ch., Ciravegna F. A Comparative Evaluation of Term Recognition Algorithms // In Proceedings of the Sixth International Language Resources and Evaluation (LREC"08). 2008.