Разработка предметно-ориентированного языка описания структуры и содержания электронных документов - Дипломная работа

бесплатно 0
4.5 187
Теоретические аспекты языков описания электронных документов. HTML, SGML, XML форматы. Подход Dublin Core, проект SHOE, онтология DoCO. Разработка предметно-ориентированного языка описания структуры и содержания электронных документов в EDocSACD.


Аннотация к работе
CASE Computer-Aided Software / System Engineering (автоматизированная разработка программного обеспечения). DSL Domain Specific Language (предметно-ориентированный язык / язык предметной области). EDOCSACD Language Electronic Document Structure and Content Description Language (язык описания структуры и содержания электронных документов). SGML Standard Generalized Markup Language (стандартный обобщенный язык разметки).Согласно исследованиям компании IDC (The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Fare East, December 2012), количество неструктурированной информации, получившей в профессиональной ИТ-среде название Big Data («большие данные»), все стремительнее растет, составляя большую часть (примерно 80%) накопленной в мире информации. В результате роста объемов неструктурированной информации, хранящейся в электронных документах, можно столкнуться с рядом трудностей, наиболее значимыми из которых станут проблемы обработки и аналитики данных. Для разрешения этого было выбрано использование подхода, основанного на предметно-ориентированном моделировании, а именно предметно-ориентированного языка (Domain Specific Language, DSL) и DSM-платформ для создания DSL описания структуры и содержания электронного документа. Для достижения сформулированной цели работы следует ряд задач, поставленных на время выполнения выпускной квалификационной работы: - сбор, систематизация и обобщение материалов о языках описания как структуры, так и содержания электронных документов; В ходе выполнения данной выпускной квалификационной работы была предпринята попытка объединить наиболее значимые элементы электронного документа, его реквизиты и виды с тем, чтобы получить максимально удобный и полно отображающий предметную область язык описания структуры и содержания электронных документов.На тот момент под машиночитаемым документом понимался документ, пригодный для автоматического считывания содержащейся в нем информации [1]. Именно в этот период времени термин «электронный документ» стал зарождаться и рассматривался как документ, обладающий новыми характеристиками. На сегодняшний день известен ряд официальных определений электронного документа, закрепленных в современном законодательстве: - Документ на машинном носителе - «документ, созданный с использованием носителей и способов записи, обеспечивающих обработку его информации электронно-вычислительной машиной» [2]. Электронный документ - «форма представления документа в виде множества взаимосвязанных реализаций в электронной среде и соответствующих им взаимосвязанных реализаций в цифровой среде» [5]. Электронный документ - «документ, в котором информация представлена в электронно-цифровой форме» [6, статья 3].Как было сказано ранее, одним из свойств электронного документа является структурность, то есть электронные документы, как и многие другие объекты, должны иметь свою структуру. Под данным понятием «структура электронного документа» принято понимать порядок расположения показателей и данных в документе, а также наличие взаимосвязанных элементов, обеспечивающих целостность и эффективность его использования. Однако не всегда получается так, что данные в документе находятся «в порядке», поэтому электронные документы принято подразделять по степени структурированности на: - Неструктурированные - текстовые документы, которые или не имеют определенной модели данных, или неорганизованны определенным способом в соответствии с моделью [17]. Слабоструктурированные - документы с гибкой формой, для которых определены некоторые правила и форматы, но в самом общем виде (приказы, распоряжения, служебные записки, счета-фактуры). Структурированные - электронные документы, использующие методы вложенного кодирования, например разметку, для того, чтобы присвоить всему документу и его частям различные структурные значения в соответствии со схемой [18].Как было сказано ранее, HTML - это стандарт, используемый программами-браузерами службы WWW в сети Internet, благодаря которому можно не только форматировать документы, но и осуществлять связь текста и изображений с документом, расположенным на другом сервере WWW [19]. HTML ориентирован на решение нескольких важных задач, в которых участвуют его различные конструкции и элементы: - описание структуры документа; HTML - теговый язык разметки документов, то есть любой документ на данном языке представляет собой набор элементов, причем начало и конец каждого элемента обозначается специальными пометками - тегами.Чтобы воспользоваться достижениями информационной революции, нужны средства быстрого доступа к информации, позволяющие объединять взаимосвязанные материалы и обладающие широкими возможностями поиска данных. Именно для этого и был разработан стандарт подготовки ЭД SGML (Standard Generalized Markup Language), представляющий собой набор правил для описания структуры и управления содержанием электронных документов [19].

План
Оглавление язык электронный структура

Основные обозначения и сокращения

Введение

Глава 1. Теоретические аспекты языков описания электронных документов

1.1 Понятие «электронный документ»

1.2 Обзор существующих способов описания структуры электронного документа

1.2.1 Документы HTML формата

1.2.2 Документы SGML формата

1.2.3 Документы XML формата

1.2.4 Результаты обзора существующих способов описания структуры электронного документа

1.3 Обзор существующих способов описания документов

1.3.1 Подход Dublin Core

1.3.2 Проект SHOE

1.3.3 Онтология проекта исследовательской группы KWARC

1.3.4 Онтология DOCO

1.3.5 Результаты обзора способов описания документов

1.4 Требования к разрабатываемому предметно-ориентированному языку

1.5 Понятие предметно-ориентированного языка

1.6 Обзор методов и средств разработки предметно-ориентированных языков

Глава 2. Разработка предметно-ориентированного языка описания структуры и содержания электронных документов

2.1 Описание элементов электронного документа в EDOCSACD

2.2 Описание реквизитов электронного документа в EDOCSAC

2.3 Описание видов электронного документа в EDOCSACD

2.4 Разработка модели описания структуры и содержания электронного документа

2.4.1 Пример: приказ о зачислении на 1 курс

2.4.2 Пример: письмо-извещение

2.4.3 Пример: техническое задание

2.5 Результаты разработки предметно-ориентированного языка описания структуры и содержания электронных документов

Заключение

Библиографический список

Приложения
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?