Інформаційна технологія оптимізації пошуку документів у веб-системах - Автореферат

бесплатно 0
4.5 129
Удосконалення математичної моделі для оцінювання важливості інформаційних блоків веб-сторінок, що дозволило б підвищити вірогідність знаходження їх основної змістовної частини. Методи очищення від інформаційного шуму. Оптимізація пошукових систем.


Аннотация к работе
Процес пошуку та відображення інформації в Інтернеті має ряд особливостей, головними з яких є величезна кількість веб-ресурсів, необхідність врахування семантичних особливостей інформації, вплив великої кількості факторів при пошуку (наявність посилань, рейтинг веб-сторінок і сайтів в цілому, імя домену тощо), необхідність врахування особливостей гіпертекстової розмітки та метаінформації. удосконалити математичну модель для оцінювання важливості інформаційних блоків веб-сторінок, що дозволило б підвищити вірогідність знаходження їх основної змістовної частини, та метод очищення веб-сторінок від інформаційного шуму; дістав подальшого розвитку метод очищення веб-сторінок від інформаційного шуму, який ґрунтується на розробленій математичній моделі оцінювання важливості інформаційних блоків веб-сторінок і відрізняється від існуючих тим, що враховує ряд семантичних характеристик, що дало змогу підвищити ймовірність правильної ідентифікації основного контенту веб-сторінок; розроблено нову інформаційну технологію відображення оптимальної послідовності перегляду результатів пошуку документів у веб-системах, яка відрізняється від існуючих тим, що використовує розроблені методи пошуку оптимальних шляхів перегляду результатів веб-пошуку, оцінювання релевантності інформаційних блоків веб-сторінок з точки зору оптимізації для пошукових систем, очищення веб-сторінок від інформаційного шуму, що дало змогу підвищити ефективність пошуку та зменшити час перегляду документів у веб-системах. На основі запропонованих моделей та методів розроблено алгоритми та програмне забезпечення інформаційної технології оптимізації пошуку документів у веб-системах, а саме: - алгоритми очищення веб-сторінок від інформаційного шуму, побудови оптимальної послідовності перегляду результатів пошуку у веб-системах, побудови графової моделі взаємозвязків між сайтами;Зміст веб-сторінок є важливою характеристикою для аналізу та побудови оптимальних маршрутів перегляду результатів пошуку документів у веб-системах, оскільки вони не повинні містити веб-сторінки, контент яких дублюється на інших сторінках, кількість інформаційного шуму має бути мінімальною, а основний контент - релевантним предмету пошуку. В результаті проведеного аналізу сформульовані такі завдання: проаналізувати існуючі методи, алгоритми та технології інформаційного пошуку та інтелектуального аналізу даних; розробити метод оцінювання релевантності інформаційних блоків веб-сторінки з точки зору оптимізації для пошукових систем; удосконалити математичну модель для оцінювання важливості інформаційних блоків веб-сторінок, що дозволив би підвищити вірогідність знаходження їх основної змістовної частини, та метод очищення веб-сторінок від інформаційного шуму; розробити методи, алгоритми та інформаційну технологію, що їх реалізує, для знаходження оптимальної послідовності перегляду результатів пошуку у веб-системах; перевірити розроблені теоретичні положення, методи та алгоритми на практиці. Одна і та ж веб-сторінка може мати різні значення коефіцієнта унікальності в залежності від порядку розміщення та наявності інших веб-сторінок, що входять в цей шлях (таким чином шляхи, що будуть складатися з одних і тих самих веб-сторінок, але які будуть розміщені в різних порядках, матимуть різні значення інформативності); - коефіцієнт релевантності веб-сторінки щодо пошукового запиту. Для підвищення достовірності оцінки було запропоновано метод SEORANK для визначення релевантності інформаційних блоків веб-сторінки щодо її основного змісту, який представлений на веб-сторінці у вигляді інформації у метатегах. В результаті дослідження було отримано наступну регресійну модель оцінки важливості інформаційних блоків: (7) де - відношення кількості слів блока, що входять у речення, до загальної кількість слів, що входять у речення; - відношення кількості слів блока, що є посиланнями, до загальної кількості слів, що є посиланнями; - відношення кількості зображень блока до загальної кількості зображень; - відношення кількості зображень блока, що є посиланнями, до загальної кількості зображень, що є посиланнями; - відношення кількості заголовків (Н1-Н6) до загальної кількості заголовків; - відношення кількості слів блока, що є елементами списків, до загальної кількості слів, що є елементами списків; - коефіцієнт читабельності тексту; - коефіцієнт релевантності інформаційного блока SEORANK.У дисертаційній роботі наведено теоретичне узагальнення і нове вирішення актуальної наукової задачі, яка полягає у розробці інформаційної технології оптимізації пошуку документів у веб-системах з метою зменшення часу пошуку документів. Виходячи з проведеного аналізу сучасного стану досліджень в області оптимізації інформаційного пошуку було встановлено, що Інтернет-користувачі зіштовхуються з цілою низкою проблем, серед яких велика кількість контенту, що дублюється, відсутність розбиття результатів веб-пошуку за тематиками та велика кількість інформаційного шуму при перегляді веб-сторінок, що значно збільшують час пошуку та пер

План
Основний зміст роботи
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?