Пошукова система наукових матеріалів українською мовою із соціальною складовою - Статья

бесплатно 0
4.5 148
Обґрунтування вибору технологій для створення пошукової системи наукових матеріалів українською мовою із соціальною складовою. Опис її серверної та клієнтської частин. Дослідження алгоритму для виділення з PDF документів наукових статей логічних частин.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
ПОШУКОВА СИСТЕМА НАУКОВИХ МАТЕРІАЛІВ УКРАЇНСЬКОЮ МОВОЮ ІЗ СОЦІАЛЬНОЮ СКЛАДОВОЮ Описується архітектура пошукової системи наукових матеріалів українською мовою із соціальною складовою. Розглянуто та обґрунто-вано вибір технологій для створення такої системи, описано її функціональність.Однак, більшість з них не підтримує пошуку українською мовою, а інші не мають соціальної складової, яка б дозволила користувачам системи спілкуватись між собою, обмінюватись інформацією, додавати нові матеріали, рецензії тощо. Зважаючи на ці зауваження, поставлено задачу розробки багатофункціональної моделі ПС наукових матеріалів українською мовою з соціальною складовою (ПСНМУМ), а також реалізація алгоритму поділу документу на логічні зони (заголовок, автор, використана література та УДК), що дозволить перейти до створення робочого прототипу такої ПС. Окрім моделі потрібно: підібрати технології реалізації та обгрунтувати переваги і недоліки вибору; визначити список необхідних функцій системи, а також описати логіку їх реалізації; розро-бити та реалізувати алгоритм для розбору матеріалів наукових статей у форматі PDF на логічні зони. Основними чинниками обрання останньої були висока швидкодія, можливий пошук за полями (заголовок, автори), відкритий код і здатність індексувати PDF документи (більшість наукових матеріалів саме в цьому форматі). Якщо сторінка більше не до-ступна, або матеріал за посиланням був видалений, робот має через деякий час видаляти посилання з бази системи.В даній роботі представлено архітектуру пошукової системи наукових матеріалів українською мовою з соціальною складовою. Запропоновано таку структуру та технології для реалізації, за допомогою яких можна розробити масштабовану, ефективну та надійну систему. Запропоновано та реалізовано алгоритм виділення у PDF документах наукових статей чотирьох основних логічних зон. Описано сильні та слабкі сторони алгоритму. Проведений статистичний аналіз експериментальних випробувань реалізації алгоритму показали його практичну придатність, хоча втручання експертів для перевірки даних на перших етапах буде необхідно.

Вывод
В даній роботі представлено архітектуру пошукової системи наукових матеріалів українською мовою з соціальною складовою. Запропоновано таку структуру та технології для реалізації, за допомогою яких можна розробити масштабовану, ефективну та надійну систему.

Запропоновано та реалізовано алгоритм виділення у PDF документах наукових статей чотирьох основних логічних зон. Описано сильні та слабкі сторони алгоритму. Проведений статистичний аналіз експериментальних випробувань реалізації алгоритму показали його практичну придатність, хоча втручання експертів для перевірки даних на перших етапах буде необхідно.

1. Глибовець М.М., Жигмановський А.А., Заболотний Р.І., Захоженко П.О. Веб сервіси оброблення документів, Національний університет "Києво-Могилянська академія". - К.: НАУКМА, - 2012. - 212с.

2. Google App Engine https://developers.google.com/appengine/ 3. Apache Lucene http://lucene.apache.org/core/

4. Національна бібліотека України імені В.І. Вернадського http://nbuv.gov.ua/

5. Глибовець А.М., Сітмамбетов Н. Создание специализированной поисковой системы на базе облачных технологий // Пр. міжнар. конф. KDS 2012 “Knowledge-Dialog-Solution” 10-14 вересня 2012.

6. Глибовець А.М., Шабінський А.С., Ольшевський Р.Я. Побудова пошукового робота україномовних наукових матеріалів // Наукові праці МДУ ім. Петра Могили. Компютерні технології. - Випуск 130. - Том 143, - 2010. - С. 81-87.

7. ITEXT Programmable PDF Software http://itextpdf.com/

317

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?