Удосконалення методу діагностування даних на основі природної інформаційної надмірності. Створення моделі схожості рядків та методу злиття записів. Створення інформаційної технології для підвищення достовірності й повноти інтегрованих баз даних.
Аннотация к работе
Так, аналізуючи роботи різних авторів, можна зазначити, що відомі методи інтеграції баз даних дозволяють підвищувати достовірність і повноту лише даних, наведених у декількох джерелах інформації. Для забезпечення показників достовірності й повноти на рівні 99,35 та 98,08% було розроблено рекомендації, що передбачають додаткове введення семи (16,3% від загальної кількості) атрибутів, у той час як організація подвійного введення усіх атрибутів АСУ ПУ «ХАІ» без застосування запропонованих методів дозволила б забезпечити достовірність і повноту даних на рівні 98,73 та 98,06% відповідно. У працях, опублікованих разом із співавторами, особисто здобувачу належать такі результати, як математичне забезпечення методу пошуку схожих рядків [1], математичне забезпечення методу діагностування даних [2], функціональна декомпозиція підсистеми інтеграції даних [4], структурна декомпозиція підсистеми підвищення якості даних [5,17], реалізація перевірки необхідних умов схожості при використанні відстані Левенштейна як критерію схожості двох рядків [7], аналіз шляхів підвищення якості даних АСУ ПУ «ХАІ» на етапі її впровадження у діяльність університету [8], доказ запропонованих необхідних умов схожості рядків при використанні відстані редагування абревіатур як критерію схожості [9], доказ діагностованості запропонованих діагностичних моделей даних [10], виявлення місця процедур діагностування даних [11], аналіз можливих джерел набуття знань про дані [12], опис існуючих методів пошуку схожих рядків [13], формалізація понять скорочення і абревіатура [14], процедура обчислення відстані редагування абревіатур [15], математичне забезпечення методу пошуку асоціативних правил [16]. (4) де Ri - i-те відношення Sch із заголовком {A0:T0, A1:T1, …, Ah:Th}, Aj - імя атрибута, Tj - домен, на якому визначено атрибут; A0 - ключовий атрибут; JR - відношення, отримане як проекція відношення Ri за ключовим та j-м атрибутами; (h 1) - кількість атрибутів у Ri; pim - ймовірність того, що кортеж з ідеального відношення буде пропущено при введенні даних; pid - ймовірність того, що кортеж з ідеального відношення буде продубльовано в реальному відношенні; PJRI - ймовірність того, що після усунення кортежів, що дублюються, j-й атрибут випадково вибраного кортежу буде помилковим. По-трете, для того, щоб в атрибутах, що дублюються в різних джерелах, не було виявлено помилку, потрібно, щоб у кожному атрибуті було припущено однакову помилку, тому , де u - кількість джерел, в яких наведено j-й атрибут і-го відношення; - ймовірність того, що j-й атрибут i-го відношення буде помилковим у g-му джерелі.У дисертації вирішено актуальну науково-технічну задачу розробки нових методів підвищення достовірності й повноти даних у процесі інтеграції неоднорідних баз даних, що дозволяють раціонально використовувати надмірність. Запропоновано новий метод інтеграції даних, який на відміну від існуючих за рахунок наявності етапів «Злиття записів» і «Підвищення достовірності на основі природної інформаційної надмірності» дозволяє застосувати для підвищення достовірності й повноти даних усі види надмірності, характерні для розподілених та неоднорідних АСУ. Крім того, запропонований метод включає в себе етап «Формування рекомендацій щодо введення тимчасової надмірності», який за допомогою використання розроблених процедур оцінки показників достовірності й повноти до і після виконання вказаних раніше етапів дозволяє раціонально вводити в АСУ додаткову надмірність. На базі відомого системного сигнально-параметричного підходу до діагностування систем управління формалізовано задачу діагностування даних і сформульовано основні положення для створення ефективного методу підвищення достовірності даних. Використання принципів послідовного зняття невизначеності про стан даних і діагностування за непрямими ознаками наявності помилок дозволило створити швидкий метод підвищення достовірності на основі природної інформаційної надмірності.
Вывод
У дисертації вирішено актуальну науково-технічну задачу розробки нових методів підвищення достовірності й повноти даних у процесі інтеграції неоднорідних баз даних, що дозволяють раціонально використовувати надмірність.
1. Запропоновано новий метод інтеграції даних, який на відміну від існуючих за рахунок наявності етапів «Злиття записів» і «Підвищення достовірності на основі природної інформаційної надмірності» дозволяє застосувати для підвищення достовірності й повноти даних усі види надмірності, характерні для розподілених та неоднорідних АСУ. Крім того, запропонований метод включає в себе етап «Формування рекомендацій щодо введення тимчасової надмірності», який за допомогою використання розроблених процедур оцінки показників достовірності й повноти до і після виконання вказаних раніше етапів дозволяє раціонально вводити в АСУ додаткову надмірність.
2. Виявлено схожість задач підвищення достовірності даних на основі природної інформаційної надмірності й діагностування обєктів різної природи. На базі відомого системного сигнально-параметричного підходу до діагностування систем управління формалізовано задачу діагностування даних і сформульовано основні положення для створення ефективного методу підвищення достовірності даних. Використання принципів послідовного зняття невизначеності про стан даних і діагностування за непрямими ознаками наявності помилок дозволило створити швидкий метод підвищення достовірності на основі природної інформаційної надмірності. Перевагу розробленого методу над відомими аналогами доведено як аналітичними оцінками, так і експериментально.
3. Розроблено нову доменно-незалежну модель схожості рядків, що враховує поширену ситуацію використання операторами скорочень та абревіатур. Для побудованої моделі строго доведено ряд необхідних умов схожості, що дозволило створити швидкий метод пошуку схожих рядків, який став основою для створення методу злиття записів. Використання такого методу дозволило підвищити оперативність виконання етапу злиття записів, підвищивши, у свою чергу, ефективність запропонованого методу інтеграції даних.
4. Удосконалено метод пошуку асоціативних правил, що використовується для автоматичного пошуку природної інформаційної надмірності, удосконалено шляхом введення компактного відображення вихідного відношення та наступного пошуку шуканих правил у відображенні, що дозволило підвищити швидкодію методу. Проведені аналітичні та експериментальні оцінки ефективності запропонованого методу довели його перевагу над відомими аналогами.
5. На основі розроблених методів було створено інформаційну технологію за допомогою якої запропоновано систему підвищення достовірності й повноти інтегрованих баз даних в АСУ.
6. Впровадження в АСУ ПУ «ХАІ» такої системи дозволило підвищити показники достовірності й повноти даних на 8 і 5% відповідно. Задача забезпечення відповідних показників на рівні 99,35 та 98,08% може бути вирішена при додатковому введенні 16,3% атрибутів. Використання такою системою існуючої в АСУ ЗГП «Плант» надмірності дозволило підвищити показники достовірності й повноти на 9,2 і 1,5% відповідно. Забезпечення додаткового введення 12% атрибутів дозволить підвищити відповідні показники в АСУ ЗГП «Плант» на 10,3 та 5,9%.
Список литературы
1. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Нечеткий поиск похожих строк в системах повышения качества данных автоматизированных систем организационного управления // Радіоелектронні і компютерні системи. 2006. №7(19). С. 17-22.
2. Кулик А.С., Завгородний А.Ю. Диагностирование данных корпоративных информационных систем на основе естественной избыточности // Радіоелектроніка. Інформатика. Управління. 2006. №2. С. 120-128.
3. Завгородний А.Ю. Метод быстрого поиска ассоциативных правил // Системи обробки інформації. Харків: ХУПС, 2006. Вип. 8. С. 109 - 114.
4. Информационная технология организационного управления техническим высшим учебным заведением / В.С. Кривцов, Н.В. Нечипорук, А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, О.А. Пищухина, А.Ю. Завгородний // Авиационно-космическая техника и технология. 2005. №7. С. 304-316.
5. Информационная система управления административно-финансовой деятельностью университета «ХАИ» / В.С. Кривцов, А.С. Кулик, Н.В. Нечипорук, А.Г. Чухрай, А.Ю. Завгородний // Вісн. Харк. нац. ун-ту: «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління». Харків: ХНУ, 2004. №629. Вип. 3. С. 144-158.
6. Завгородний А.Ю. Задача поиска “похожих” наименований в атрибутах реляционного отношения // Инженер. 2004. №5. С. 109 - 111.
7. Компютерна програма “Утилита для обнаружения похожих кортежей в реляционном отношении”: А.с./ А.С. Кулик, А.Г. Чухрай, А.Ю. Завгородний, А.В. Гревцев. №8712. Зареєстр. 06.11.2003.
8. Автоматизированная подсистема управления персоналом вуза / А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, А.Ю. Завгородний // Наука и предпринимательство: Сб. трудов междунар. симпозиума. Винница, 20 мая 2003г. Винница; Каменец-Подольский, 2003. С. 292-295.
9. Kulik A., Chukhray A., Zavgorodniy A. Similar strings detecting methods // 12th East-West Fuzzy Colloquium. Zittau, 21 - 23 sept. 2005. Zittau, 2005. P. 183-191.
10. Kulik А., Zavgorodniy A. Enterprise information systems data diagnosis based on native redundancy // 13th East-West Fuzzy Colloquium. Zittau, 13 - 15 sept. 2006. Zittau, 2006. P. 154-164.
11. Разработка подсистемы анализа данных административно-финансовой деятельности вуза / А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, А.Ю. Завгородний // Автоматика-2002: Між. конф. з управління. Донецьк, 16-20 вересня 2002 р. Донецьк, 2002. Т.2. С. 55-56.
12. Кулик А.С., Завгородний А.Ю. Представление знаний в системе диагностирования данных университета «ХАИ» // Інтегровані компютерні технології в машинобудуванні: Міжн. наук.-техн. конф. “ІКТМ-2002”. Харків, 26-29 листопада 2002 р. Харків, 2002. С. 49.
13. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Методы нечеткого поиска данных // Наука и технологии против терроризма. Предотвращение угрозы и устранение последствий: Сб. трудов семинара. Харьков, июль 2006 г. Харьков, 2006. С. 38-40.
14. Чухрай А.Г., Завгородний А.Ю. Критерий похожести двух строк для обнаружения аббревиатур и сокращений // Інтегровані компютерні технології в машинобудуванні: Міжн. наук.-техн. конф. “ІКТМ-2004”. Харків, 16-19 листопада 2004 р. Харків, 2004. С. 198.
15. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Метод поиска похожих строковых наименований, содержащих аббревиатуры и сокращения // Дні науки «2005»: Міжн. наук.-практ. конф. Дніпропетровськ, 15-27 квітня 2005 р.Дніпропетровськ, 2005. Т. 34. С. 52-54.
16. Кулик А.С., Завгородний А.Ю. Использование промежуточных структур данных для создания быстрого метода поиска ассоциативных правил // Інтегровані компютерні технології в машинобудуванні: Міжн. наук.-техн. конф. “ІКТМ-2005”. Харків, 22-25 листопада 2005 р. Харків, 2005. С. 140.
17. Информационная система управления административно-финансовой деятельностью университета «ХАИ» / В.С. Кривцов, А.С. Кулик, Н.В. Нечипорук, А.Г. Чухрай, Е.В. Мирная, А.Ю. Завгородний // Інформаційні технології в системі керування вищою освітою України: Міжн. наук.-практ. конф. Херсон, 26-27 серпня 2004 р. Херсон, 2004. С. 7-8.