Разработка информационной системы "Обработка текста на естественном языке" - Дипломная работа

бесплатно 0
4.5 139
Проектирование программного обеспечения, позволяющего создавать и вести множество электронных словарей. Обоснование выбора программных средств решения задачи. Разработка формы входных и выходных данных. Описание модулей программы и процесса отладки.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Словарь - справочная книга, содержащая собрание слов (или морфем, словосочетаний, идиом и т. д.), расположенных по определенному принципу, и дающая сведения об их значениях, употреблении, происхождении, переводе на др. язык и т. п. Энциклопедические (от греческого enkyklios paideia - обучение по всему кругу знаний) словари содержат экстралингвистическую информацию об описываемых языковых единицах; эти словари содержат сведения о научных понятиях, терминах, исторических событиях, персоналиях, географии и т.п. Словарная статья - основная структурная единица словаря; текст, разъясняющий заголовочную единицу в словаре и описывающий ее основные характеристики. Кроме корпуса, в любом словаре есть предисловие, раздел «Как пользоваться словарем», список условных сокращений и др. Как правило, способы представления материала в таких словарях однотипны и достаточно просты: пользователю нужно в максимально короткие сроки получить точный перевод отдельной лексемы или выражения, это, в свою очередь, диктует специфику навигации: в таком словаре всегда есть поле для ввода переводимого слова и поле, в котором появляются перевод либо варианты перевода.Программы на Java транслируются в байт-код, выполняемый виртуальной машиной Java (JVM) - программой, обрабатывающей байтовый код и передающей инструкции оборудованию как интерпретатор. «встраиваемый» означает, что SQLITE не использует парадигму клиент-сервер, то есть движок SQLITE не является отдельно работающим, взаимодействующим с программой процессом, а предоставляет библиотеку, с которой программа компонуется, следовательно движок становится составной частью программы. SQLITE хранит всю базу данных (включая определения, таблицы, индексы и данные) в единственном стандартном файле на том компьютере, на котором исполняется программа. Если хотя бы одно поле содержит запрещенные символы - например, пароль содержит кириллицу - то программа укажет на ошибку и даст совет по ее исправлению. Это значит, что, так как операции проводятся с таблицами и результат этих операций тоже является таблицей, можно к результату любой операции снова применить какую-либо операцию.Разработка данного пособия, так же как и разработка любого другого программного продукта, требует определенных материальных, временных и трудовых затрат, а следовательно должна окупаться. С экономической точки зрения затраты, связанные с выполнением проекта, должны быть покрыты доходами от реализации конечного продукта. Экономическая эффективность - результативность экономической деятельности, экономических программ и мероприятий, характеризуемая отношением полученного экономического эффекта, результата к затратам факторов, ресурсов, обусловившим получение этого результата, достижение наибольшего объема производства с применением ресурсов определенной стоимости. Заработная плата программиста без опыта работы составляет 15000 тысяч рублей в месяц (21 рабочий день, 8 часовой рабочий день) или 89, 29 руб./час. Таким образом, расходы на заработную плату по нашему проекту составляют: Sосн = Сч · Fд · Рэ · Кпр (1) где: Сч - средняя часовая тарифная ставка персонала рабочих, равна 89, 29 руб./час;60 - 90% случаев) часто лежат не инженерно-конструкторские дефекты, а организационно-психологические причины: низкий уровень профессиональной подготовки по вопросам безопасности, недостаточное воспитание, слабая установка специалиста на соблюдение безопасности, допуск к опасным видам работ лиц с повышенным риском травматизации, пребывание людей в состоянии утомления или других психических состояний, снижающих надежность и безопасность деятельности специалиста. Заземлением какой-либо части электроустановки и другой установки называется преднамеренное электрическое соединение этой части с заземляющим устройством. Занулением в электроустановках напряжением до 1 КВ называется преднамеренное соединение частей электроустановки, нормально не находящихся под напряжением, с глухозаземленной нейтралью генератора или трансформатора в сетях трехфазного тока, с глухозаземленным выводом источника однофазного тока и с глухозаземленной средней точкой источника в сетях постоянного тока. Заземлителем называется проводник (электрод) или совокупность металлически соединенных между собой проводников (электродов), находящихся в соприкосновении с землей. Заземление (зануление) средств вычислительной техники, телекоммуникационных средств и технологического оборудования обеспечивает решение двух основных задач: - защиту персонала от поражения электрическим током при повреждении изоляции и замыкании одного из проводов питающей линии на корпус оборудования или от появления на корпусе оборудования опасного для человека потенциала по каким-либо другим причинам (например, изза индуктивных или емкостных связей);В данном дипломном проекте было сделано следующее: В теоретическом разделе представлен объект и предмет исследования, дано обоснование разработке информационной системы, показана актуальность решаемых проблем, сформулирована цель и задачи данного проекта, показ

Введение
На сегодняшний день вопросы, касающиеся построения подобных систем являются очень актуальными. Это прежде всего связано с возросшими информационными потребностями современного общества. Накопление больших массивов информации создает необходимость в конструировании систем, ответственных за ее обработку и хранение. Сегодня рынок информационных услуг предлагает множество готовых решений для реализации подобных информационных систем от различных производителей, начиная с мелких фирм и заканчивая крупными корпорациями. Например, такие системы управления базами данных, как MS Access, MS SQL от компании Microsoft, MYSQL от компании Sun Microsystems, POSTGRESQL от POSTGRESQL Global Development Group и множество других. Однако несмотря на большое разнообразие программных продуктов, все же некоторые проблемы остались нерешенными. К примеру, все существующие на данный момент информационные системы такого типа имеют крайне сложный интерфейс, поэтому работать в них могут только высококвалифицированные специалисты, когда обыкновенным пользователям необходимо обращаться за их помощью. Понятно, что крупные корпорации всегда могут нанять таких специалистов, но как быть тем, у кого такой возможности нет? Так как потребности в обработке и хранении информации испытывают все, поэтому возможность их удовлетворения должна быть предоставлена каждому.

Словарь же в качестве конкретной реализации такой информационной системы подходит как нельзя лучше. Во-первых, структуру любого словаря очень легко реализовать в виде базы данных. Во-вторых, все готовые программные продукты, предназначенные для ведения своего электронного словаря, либо являются системами закрытого типа (т.е. позволяют только добавлять новые словарные статьи в уже имеющиеся словари), либо не предназначены для неквалифицированного пользователя. Наконец, открытый электронный словарь, сконструированный на основе актуальных технологий, удовлетворяет все информационные потребности современного общества.

Цель данного дипломного проекта - сконструировать программное обеспечение, позволяющее создавать и вести множество электронных словарей. Причем такой программный продукт не должен требовать от своего пользователя каких-либо особых знаний в области работы с базами данных. Это достигается за счет комбинирования двух программных интерфейсов - графического и естественно-языкового. Причем последний освобождает пользователя от изучения специального языка запросов SQL, используемого по-умолчанию практически в любой современной базе данных, и позволяет формулировать запросы на русском языке.

Задачи данного дипломного проекта: - Изучить язык программирования Java.

- Изучить способы построения баз данных в СУБД SQLITE.

- Разработать модель базы данных «Электронный словарь».

- Сконструировать программное обеспечение, позволяющее работать с базой данных «Электронный словарь».

- Разработать естественно-языковой интерфейс к этой базе данных.

Данный проект состоит из общей части, расчетно-технической части, расчетно- экономической части, части, посвященной охране труда и безопасности жизнедеятельности, выводов и списка используемой литературы. В общей части кратко излагается характеристика словаря как объекта информатизации, дается анализ информационного обеспечения, а также описывается актуальность создания системы и подсистемы. В расчетно-технической части описан процесс создания программного продукта, основанного на компактной встраиваемой реляционной базе данных SQLITE

В расчетно-экономической части разрабатывается график организации проектирования, определяется трудоемкость разработки программного обеспечения, а также рассчитывается сметная стоимость и экономическая эффективность проекта.

Практическая значимость проекта заключается в применении данного программного продукта для обработки и хранения любых типов информации.

1.2 Характеристика объекта, процесса, предметной области как объекта информатизации

В данном дипломном проекте в качестве объекта информатизации рассматривается словарь как носитель информации.

Словарь - справочная книга, содержащая собрание слов (или морфем, словосочетаний, идиом и т. д.), расположенных по определенному принципу, и дающая сведения об их значениях, употреблении, происхождении, переводе на др. язык и т. п. (лингвистические словари) или информацию о понятиях и предметах, ими обозначаемых, о деятелях в каких-либо областях науки, культуры и др.

Словари играют большую роль в современной культуре, в них отражаются знания, накопленные обществом на протяжении веков. Они служат целям описания и нормализации языка, содействуют повышению правильности и выразительности речи его носителей.

Словари принято делить на два типа: энциклопедические и лингвистические.

Энциклопедические (от греческого enkyklios paideia - обучение по всему кругу знаний) словари содержат экстралингвистическую информацию об описываемых языковых единицах; эти словари содержат сведения о научных понятиях, терминах, исторических событиях, персоналиях, географии и т.п. В энциклопедическом словаре нет грамматических сведений о слове, а дается информация о предмете, обозначаемом словом.

Объект описания лингвистических (языковых) словарей - языковые единицы (слова, словоформы, морфемы). В таком словаре слово (словоформа, морфема) может быть охарактеризовано с разных сторон, в зависимости от целей, объема и задач словаря: со стороны смыслового содержания, словообразования, орфографии , орфоэпии, правильности употребления. В зависимости от того, сколько признаков слова описаны в словаре, различают словари одноаспектные и многоаспектные.

Любой словарь состоит из словарных статей. Словарная статья - основная структурная единица словаря; текст, разъясняющий заголовочную единицу в словаре и описывающий ее основные характеристики. Структура словарной статьи определяется задачами словаря. Но словарная статья любого словаря начинается с заглавного слова [по-иному: заголовочное слово, лемма, черное слово (от полужирного шрифта, которым обычно выделено заглавное слово)]. Совокупность заглавных статей образуют словник, или левую часть словаря.

Правая часть словаря - та, в которой объясняется заголовочная единица. Правая часть толкового словаря, как правило, включает зоны: грамматическая характеристика слова, толкование, тип значения (прямое, переносное); иллюстрации (цитаты, речения); словообразовательное гнездо; так называемая «заромбовая» часть (фразеологизмы) и др. Зоны правой части разрабатываются для каждого словаря. Совокупность всех словарных статей образует корпус словаря. Кроме корпуса, в любом словаре есть предисловие, раздел «Как пользоваться словарем», список условных сокращений и др.

Итак, каждый словарь, независимо от своего типа и содержания, имеет следующую структуру: - предисловие: Содержит краткую характеристику, описание и назначение словаря.

- раздел «Как пользоваться словарем»: Описывает структуру словарной статьи и ее правую часть. Объясняет назначение специальных символов, используемых в этой части.

- словарная статья: Основная единица словаря. Разъясняет левую часть и описывает ее основные характеристики.

- список условных сокращений: Расшифровывает сокращенные выражения, используемые в словарных статьях.

1.3 Анализ информационного обеспечения объекта информатизации

Наибольшее количество электронных лексикографических продуктов в настоящее время создается в области переводческой деятельности. Существовать переводные словари могут как в самостоятельном формате, в виде скачиваемой и устанавливаемой отдельно программы, так и в формате интерактивном, т.е. интегрированными в какой-либо электронный ресурс: иначе говоря, пользоваться таким словарем можно в режиме online, посетив нужный сайт в сети Интернет. Как правило, способы представления материала в таких словарях однотипны и достаточно просты: пользователю нужно в максимально короткие сроки получить точный перевод отдельной лексемы или выражения, это, в свою очередь, диктует специфику навигации: в таком словаре всегда есть поле для ввода переводимого слова и поле, в котором появляются перевод либо варианты перевода. Практически все двуязычные словари, существующие в электронном формате, подразумевают подобный способ работы с материалом. Специально для создания словарей переводческого типа компанией ABBYY - одним из наиболее известных в России разработчиков, занимающихся созданием электронных словарей, - был придуман язык DSL (Dictionary Specification Language). Широко известных аналогов данного языка в рамках российской электронной лексикографии в настоящий момент не применяется: связано это, прежде всего, с тем, что большинство компьютерных приложений для использования в разных областях - и электронная лексикография не является исключением - до сих создается за рубежом.

Однако, программные продукты, предоставляемые компанией ABBYY, во- первых, не позволяют создавать свои собственные словари и, во-вторых, являются коммерческими и проприентарными. Это значит, что их исходный код закрыт и за их использование нужно заплатить. К примеру, программа ABBYY Lingvo, предназначенная для перевода слов с одного языка на другой, стоит пять тысяч девятьсот девяносто рублей за одну многоязычную копию.

На сегодняшний день существует очень мало бесплатного программного обеспечения, позволяющего создавать и вести свой электронный словарь. Самым лучшим из них является сетевой ресурс «Викисловарь».

Викисловарь - свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. В нем содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь - попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Викисловарь работает по принципу т. н. «вики»: любой желающий, соблюдающий правила вики-сообщества, может свободно отредактировать любую статью, и изменения будут сразу же учтены и отображены на сайте. Кроме отдельных слов в статьях Викисловаря также могут описываться другие языковые единицы: устойчивые словосочетания (фразеологизмы, пословицы, поговорки, крылатые выражения, народные приметы, загадки, скороговорки, палиндромы, аббревиатуры и т. д.), отдельные морфемы (корни, суффиксы, приставки, трансфиксы и т. д.). Кроме описания самих языковых единиц здесь собирается сопутствующая информация об их омонимах, омографах, анаграммах, метаграммах и рифмах (в том числе, межъязыковых). Викисловарь предполагает жесткую стандартизованную структуру описания языковых единиц. Сообщество Викисловаря выработало ряд общих правил оформления, задающих структуру статьи.

Однако, у такого подхода есть два недостатка. Во-первых, к словарным статьям Викисловаря можно получить доступ только при наличии подключения к сети Интернет, так как возможности скачать словарь данный сетевой ресурс не представляет. Во-вторых, у пользователя Викисловаря нет возможности создавать свой словарь, содержащий только те статьи, которые добавит этот пользователь. Таким образом, на данный момент рынок информационных услуг не предоставляет свободного программного обеспечения, эффективно удовлетворяющего информационные потребности общества в сфере компьютерной лингвистики и лексикографии.

1.4 Актуальность создания информационной системы «Электронный словарь», подсистемы, задачи

Особую актуальность и востребованность в настоящее время приобрело такое направление в сфере информационных технологий, как компьютерная лексикография: сейчас разработка и создание электронных словарей, корпусов и баз данных являются наиболее продуктивными ее областями. Ценность данного направления заключается не только в разработке наглядных и удобных методов представления и классификации материала, но и в том, что электронные словари и компьютерные корпусы позволяют сохранить для дальнейшей обработки уже собранный (иногда на протяжении очень долгого времени) материал, хранившийся ранее в менее удобной и неустойчивой к внешним воздействиям форме (бумажные картотеки, рукописные источники, аудио, а также видео-носители, уязвимые перед внешними пагубными факторами, - аудиокассеты, видеокассеты, дискеты и т.д.). В то же время словарь, существующий в электронном формате, это не просто электронная (отсканированная, оцифрованная) версия уже созданного бумажного словаря, это полностью самостоятельный продукт, и форма его бытования логично продолжает и дополняет содержательную составляющую.

Актуальным представляется замечание о том, что компьютерная лексикография является особым направлением в практической лексикографии со своими собственными подходами не только к отображению, но и к содержанию словаря.

Безусловно, электронный словарь не только особый лексикографический объект, в котором могут быть реализованы и введены в обращение многие продуктивные идеи, невостребованные по разным причинам в бумажных словарях, но также и эффективный исследовательский инструмент, использование которого может способствовать более продуктивному накапливанию и обработке информации.

Можно противопоставить электронные словари традиционным, опираясь на несколько основных проблем. Во-первых большой объем бумажного словаря (являющийся следствием богатой лексической базы и полноты словарных статей) выступает серьезным препятствием для удобного пользования: многотомный (или же просто очень объемный) словарь становится буквально непригодным для быстрого поиска информации - не говоря уже о том, что он абсолютно не мобилен в процессе использования. Таким образом, высокое качество словаря на содержательном уровне является непосредственной причиной низкого качества удобства его использования.

Вторая проблема касается актуальности представленной в словаре информации: необходимо отметить, однако, что данное замечание справедливо в первую очередь для двуязычных (переводных) словарей, а также словарей терминологических. Чрезвычайно долгий цикл создания и модификации фундаментальных бумажных словарей приводит к тому, что образ мира, который они фиксируют в системе своих значений, примеров и переводов, уже заметно отличается от действительности.

Еще один недостаток бумажных (традиционных) словарей - отсутствие удобной навигации: в данном вопросе наиболее объективной представляется позиция пользователя, работающего со словарем; при этом чем больше объем словаря, тем сильнее данный недостаток проявляется. Основным навигационным инструментом, используемым в словарях, является способ расположения материала: в алфавитном порядке или по тематическому принципу. Возможен и смешанный вариант данных способов подачи материала, но этим возможности бумажного словаря исчерпываются.

Возможности же компьютерной лексикографии позволяют успешно преодолеть перечисленные трудности и противоречия. Так, первая проблема в рамках электронной лексикографии разрешается благодаря возможности поместить большой объем данных на легкий и мобильный носитель информации, а также разместить созданный словарь (корпус) в сети Интернет. Таким образом, к словарю можно будет обращаться практически в любое время и любом месте. Неблагоприятные последствия, связанные с долгим циклом создания словаря, можно нейтрализовать, если программа, в которой создается лексикографический продукт, допускает возможность внесения новой информации и корректировки уже имеющейся. Эта же опция позволяет пополнять базу словаря: таким образом, лексикографический объект перестает быть статичным, застывшим во времени и пространстве, и получает возможность обновляться, если таковая потребность возникает.

В отличие от бумажной, электронная лексикография обладает весьма обширными навигационными возможностями. Помимо традиционных способов организации материала - в алфавитном порядке и по тематическому принципу

- лексикограф получает возможность выстроить максимально удобные для пользователя словаря связи между объектами: лексикографируемыми единицами, статьями, комментариями, списками источников и литературы, списком составителей и т.д.

Однако давно назрела необходимость создания электронных словарей не только переводного и толкового, но и других типов: перечисленные ранее проблемы актуальны для всех лексикографических областей; не являются исключением словари лингвокультурологического и этнолингвистического типов. Закономерным выглядит предположение о том, что организация материала в словарях этого типа предполагает принципиально иной подход, отличающийся от подхода к организации материала толковых и двуязычных словарей; следовательно, и модель базы данных для них будет строиться иных на принципах.

Помимо всего прочего, с помощью электронного словаря решается множество задач, связанных с обработкой текста, написанного на естественном языке. В их число входят: - машинный перевод на основе правил;

- распознавание и синтез речи, где электронный словарь выступает в роли источника данных для автоматического построения словаря произношений;

- построение онтологий и баз знаний;

- отображение онтологий;

- упрощение текста;

- частеричная разметка;

- анализ тональности текста;

Наконец, электронные словари можно использовать в образовательном процессе, например, при изучении иностранных языков.

Таким образом, актуальности создания информационной системы

«Электронный словарь» определяется возрастающими информационными потребностями современного общества в подобном программном обеспечении.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?