Формальные модели морфологии и семантики. Основные синтаксические концепции. Трансформационная грамматика. Представление о модели "смысл-текст". Виды прагматических знаний. Автоматический анализ и синтез речи. Машинный перевод текста. Экспертные системы.
Аннотация к работе
В этой области существует множество разработок, однако, универсальной системы, обеспечивающей естественную форму взаимодействия, а именно естественно-языковой интерфейс, пока не создано, так как ни одна из имеющихся лингвистических теорий не в состоянии описать естественный язык с необходимой точностью и полнотой. Формализация в широком смысле предполагает представление какой-либо содержательной области в виде формальной системы. Одним из синонимов формальной системы является формализованный язык, сущность которого определяется как любая совокупность некоторым образом специализированных языковых средств, в той или иной мере точно фиксированными правилами синтаксиса и приписывания им определенного смысла (семантика). Если рассматривать подробнее, то семантика отвечает на вопрос, каким образом человек, зная слова и грамматические правила какого-либо естественного языка, оказывается способным передать с их помощью самую разнообразную информацию о мире. Формальная логика подразумевает собой конструирование и исследование правил преобразования высказываний , сохраняющих их истинностное значение безотносительно к содержанию входящих в эти высказывания понятий ; в отличие от неформальной , организована как формальная система , обладающая высоким уровнем абстракции и четко определенными методами, правилами и законами; занимается формированием нового знания на основе ранее известного без обращения к опыту, а применением законов и правил мышления.Формальные модели морфологии отражают правила изменения слов, их структуру, способы словообразования и выражения грамматических значений.Различают: динамический синтаксис, изучающий предложение как коммуникативную единицу, связанную с ситуацией речи, обладающую определенной интонационной характеристикой и порядком слов как средством выражения актуального членения. Коммуникативный синтаксис изучает актуальное и синтаксическое членение предложения, функционирование словосочетаний в предложении, коммуникативную парадигму предложений, а также типологию высказываний; статистический изучает структуры, не связанные с контекстом и ситуацией речи, предложение (как предикативную единицу) и словосочетание (как непредикативную единицу).Это система правил, экспериментальным образом приписывающая предложениям структурные описания. Синтаксический компонент определяет бесконечное множество абстрактных формальных объектов, каждый из которых включает в себя всю информацию, существенную для одной интерпретации конкретного предложения. Он соотносит структуру, порождаемую синтаксическим компонентом, с фонетически репрезентированным сигналом.Синтаксический компонент содержит трансформационный субкомпонент, занимающийся порождением предложения с его поверхностной структурой из его базиса.Слово - это знак, состоящий из двух частей; формы и значения. Отношение между словами и вещами - это отношение референции (соотнесенности): слова соотносятся с вещами. Значение слова - сложное семантическое целое, состоящее из частных типов значения семантических составляющих, которые и выступают как факторы, формирующие лексическое значение.Теории компонентного подхода к семантике исходят из допущения о том, что словарный запас языка можно описать в терминах конечного множества семантических компонентов (семантических множителей, маркеров). Что подразумевается под термином "семантический компонент", проиллюстрируем на примере. Рассмотрим пропорции: Очевидно, что пары "ребенок" и "теленок", "женщина" и "корова" с семантической точки зрения имеют нечто общее. Кроме того, будучи замкнутым в узких лексических пределах, компонентный анализ оказывается неспособным решить свою главную задачу - создать конечный и ограниченный универсальный алфавит для описания семантических структур языков в целом. Исследования были ориентированы на автоматическое моделирование двух операций, являющихся существенными составляющими речевой способности человека: моделирование понимания текстов (переход от заданного текста к содержащемуся в нем значению) и моделирование производства текстов (переход от заданного значения к выражающим его текстам).Основным объектом изучения семантики является значение слова, которое следует рассматривать как знак, состоящий из двух частей: формы и значения.В 60-70 гг. 20 в., благодаря работам философа Л.Витгенштейна, произошло выделение прагматики в отдельную самостоятельную область исследований. Интерес к исследованиям в области прагматики возник в настоящее время неслучайно. Трудности в реализации программы машинного перевода и построении систем искусственного интеллекта, во многом связанные с не всегда удачными попытками формализации сферы употребления языка, привели исследователей к осознанию необходимости более углубленных исследований в этой области. Существенным представляется и то, что сегодня мы имеем дело с коммуникативными актами между человеком и компьютером, а не только с коммуникативными актами между людьми. Другой тип прагматических знаний, нео
План
Содержание
Введение
Глава 1. Формальные модели морфологии
Вывод к главе 1
Глава 2. Синтаксис
2.1. Трансформационная (порождающая) грамматика
Вывод к главе 2
Глава 3. Семантика
3.1 Основные понятия. Значение. Виды значений
3.2 Формальные модели семантики
3.3 Представление о модели "смысл-текст"
Вывод к главе 3
Глава 4. Прагматика
4.1 Основные понятия. Виды прагматических знаний
4.2 Проблема понимания текстов
Вывод к главе 4
Глава 5. Автоматизированная переработка текстов
5.1 Представление знаний
5.2 Автоматический анализ и синтез речи
5.3 Автоматизированные информационные системы
5.4 Машинный перевод
Вывод к главе 5
Глава 6. Экспертные системы
Вывод к главе 6
Заключение
Список использованной литературы
Введение
Одной из задач, повышающих эффективность человеческой деятельности при проектировании информационных, программных и технических систем, является обеспечение естественного способа коммуникации с определенной автоматизированной системой, поддерживающей данный процесс. В этой области существует множество разработок, однако, универсальной системы, обеспечивающей естественную форму взаимодействия, а именно естественно-языковой интерфейс, пока не создано, так как ни одна из имеющихся лингвистических теорий не в состоянии описать естественный язык с необходимой точностью и полнотой. Это связано со сложностью объекта формализации.
Формализация в широком смысле предполагает представление какой-либо содержательной области в виде формальной системы.
Одним из синонимов формальной системы является формализованный язык, сущность которого определяется как любая совокупность некоторым образом специализированных языковых средств, в той или иной мере точно фиксированными правилами синтаксиса и приписывания им определенного смысла (семантика).
Формализация семантики интересует нас как способ выражения содержания совокупности знаний через определенную форму - знаки искусственного языка. Одной из значимых разновидностей формализации семантики рассматривается формализация логическая, являющаяся результатом формирования нового знания через рассудочную деятельность.
Если мы вернемся к истокам логики вообще, то увидим, что главная ее задача - определить, как прийти к выводу из предпосылок и получить истинное знание о предмете размышления, чтобы глубже разобраться в нюансах изучаемого предмета мысли и его соотношениях с другими аспектами рассматриваемого явления.
В любой науке логика служит одним из основных инструментов
Чтобы четко понимать цель исследования и ориентироваться в дальнейшем материале, нам необходимо иметь представление о семантике и ее месте в формальной логике.
Семантика - раздел лингвистики , изучающий смысловое значение единиц языка. Если рассматривать подробнее, то семантика отвечает на вопрос, каким образом человек, зная слова и грамматические правила какого-либо естественного языка, оказывается способным передать с их помощью самую разнообразную информацию о мире. В разрешении этого вопроса используют семантический анализ. Одной из основных разновидностей семантического анализа выделяют латентно-семантический анализ, т.е. метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающихся. В основе вышеупомянутого метода лежат два принципа факторного анализа , применяемые для изучения взаимосвязей между значениями переменных и сокращения их числа для описания данных.
Формальная логика подразумевает собой конструирование и исследование правил преобразования высказываний , сохраняющих их истинностное значение безотносительно к содержанию входящих в эти высказывания понятий ; в отличие от неформальной , организована как формальная система , обладающая высоким уровнем абстракции и четко определенными методами, правилами и законами; занимается формированием нового знания на основе ранее известного без обращения к опыту, а применением законов и правил мышления. Метод формальной логики последовательно проводит принцип параллелизма формы и содержания мышления . Начальной ступенью формальной логики можно считать традиционную логику, а математическую логику - ее следующей ступенью, использующей математические методы, символический аппарат и логические исчисления. В широком смысле, математическая логика рассматривается как математизированная ветвь формальной логики.
Применение в логике математических методов становится возможным тогда, когда суждения формулируются на некотором точном языке. Такие точные языки имеют две стороны: синтаксис и семантику. Синтаксисом называется совокупность правил построения объектов языка. Семантикой называется совокупность соглашений, описывающих наше понимание формул и позволяющих считать одни формулы верными, а другие - нет.
На наш взгляд, формализация семантики является неотъемлемой частью процесса определения свойств языка, описания и воссоздания его в абстрактной системе. морфология семантика перевод экспертный
1.
Формальные модели морфологии
Формальные модели морфологии отражают структуру слова, правила изменения слов, способы выражения грамматических значений и способы словообразования.
С точки зрения машинной обработки информации наибольший интерес представляют модели морфологии, раскрывающие смысл слов. Смысл слов раскрывается при их употреблении во взаимодействии.
С этих позиций важным понятием является синтагма (гр. syntagma -нечто соединенное). Это семантико-синтаксическая единица речи, образуемая группой слов в составе предложения, объединенных в смысловом отношении. Два слова считаются связанными друг с другом, если имеют хотя бы один общий семантический множитель (компонент).
Под семантическим множителем понимаются элементарные единицы содержательного плана, которые, соединяясь друг с другом в различных количествах и комбинациях, задают значения любого слова в языке.
Так, сочетание семантических элементов - "взаимопонимание", "духовная близость", "взаимная преданность", "готовность к взаимопомощи" - определяет смысловое ядро слова "друг".
Семантические множители (семантические признаки или маркеры) возникают в предположении о дискретности семантического пространства языка. Набор элементов этого пространства конечен и обозрим, а число их комбинаций является бесконечным.
Их общие черты: элементарность, принадлежность к плану содержания, универсальность.
Установление связанности двух входных слов по наличию общего семантического множителя на выходе лежит в основе автоматического анализа содержания текста и построения тезауруса, когда связь между предположениями устанавливается при нахождении в них хотя бы одного общего или нескольких слов, связанных друг с другом отношением "род - вид" или "часть - целое".
Для построения тезауруса словник "просеивается" через дескрипторы (лексические единицы информационно-поискового языка) и в соответствии с моделью связанности слова, имеющие общие семантические множители с данным дескриптором, приписываются к этому дескриптору - входят в его семантическое поле, образуя словарную статью тезауруса.
Чтобы установление общности семантических множителей в этом процессе могло осуществляться автоматически, т.е. с помощью ЭВМ, множители должны быть приведены к сравниваемому виду.
Для этого выполняется предварительная лемматизация (приведение словоформы к лемме, т.е. ее нормальной форме). Затем осуществляется кодирование семантической информации в выделенной дефиниции с учетом наибольшей информативности согласных букв в слове.
Процесс нейтрализации словоизменительных и словообразовательных отношений начала слова оставляют без изменений, а сокращению и усечению подвергается правая часть, в результате чего происходит как бы сдвиг смысла влево, концентрация его на начале слова. Такой прием кодирования назван лексикализацией.
Лексикализация позволяет не считать релевантными различия между частями речи, образованными от одного корня, и некоторые другие словообразовательные отношения. Таким образом, получаемый сегмент не является ни корнем слова, ни его основой, которые представляют собой, по сути, прежде всего единицы (и понятия), обусловленные генетически и уж в последнюю очередь - семантически. Сегмент - исключительно семантический идентификатор слова, он выполняет одну-единственную функцию: быть единицей смысла, однозначным средством для опознания семантики слова.
При кодировании необходимо стремиться: - к минимизации числа букв в коде;
- максимальной способности сегмента к дифференциации;
- максимальной различительной силе.
Требования эти противоречивы, если учесть к тому же необходимость однозначного декодирования.
Вывод
Формальные модели морфологии отражают правила изменения слов, их структуру, способы словообразования и выражения грамматических значений.
Модели морфологии, раскрывают смысл слов. Смысл слов раскрывается при их употреблении во взаимодействии.Таким образом, предметом рассмотрения синтаксической науки являются две структуры: словосочетание и предложение.
Синтаксический компонент содержит трансформационный субкомпонент, занимающийся порождением предложения с его поверхностной структурой из его базиса.
Основополагающей идеей трансформационной грамматики является идея о том, что поверхностная структура задается неоднократным применением определенных формальных операций, называемых "грамматическими трансформациями", к объектам более простого вида.Основным объектом изучения семантики является значение слова, которое следует рассматривать как знак, состоящий из двух частей: формы и значения. Значение - это сложное семантическое целое, подразделяющееся на несколько типов, таких как: денотативное, сигнификативное, синтагматическое, категориальное, грамматическое.