Розробка і дослідження векторних представлень інформації для задач пошуку і класифікації - Автореферат

бесплатно 0
4.5 166
Методи векторного представлення й обробки візуальної і текстової інформації в задачах пошуку і класифікації. Добір бінарних ознак, що засновані на використанні критеріїв інформативності і надмірності. Реалізація інтелектуальних інформаційних технологій.


Аннотация к работе
Інститут проблем математичних машин і систем Автореферат дисертації на здобуття наукового ступеня кандидата технічних наукРобота виконана у Міжнародному науково-навчальному центрі інформаційних технологій та систем НАН і МОН України. Науковий керівник: кандидат технічних наук Рачковський Дмитро Андрійович, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН і МОН України, старший науковий співробітник Захист відбудеться “25” _жовтня____ 2006 року о _14_ годині на засіданні спеціалізованої вченої ради Д 26.204.01 в Інституті проблем математичних машин і систем НАН України за адресою: 03187, м. З дисертацією можна ознайомитись у бібліотеці Інституту проблем математичних машин і систем НАН України за адресою: 03187, Київ-187, проспект Академіка Глушкова, 42.Сучасний етап розвитку інформаційних технологій (ІТ) характеризується експоненційно зростаючими обсягами даних, що ставить задачу інтелектуалізації їх обробки в ряд найбільш актуальних задач інформатики. Важливими компонентами інтелектуалізації є класифікація і пошук інформації різного типу, зокрема, текстової і візуальної, які складають велику частку інформаційних масивів, що обробляються. Найбільш перспективними в цьому плані є векторні представлення, які дозволяють використовувати ефективні методи обробки - лінійні моделі, асоціативну память, знаходження схожості скалярним добутком та ін. Таким чином, загальна проблема підвищення ефективності та інтелектуальності обробки інформації обумовлює актуальність наукової задачі розвитку методів векторного представлення й обробки інформації для пошуку і класифікації, на вирішення якої спрямована дисертаційна робота. Робота виконувалася у відповідності з планами наукових досліджень відділу Міжнародного науково-навчального центру інформаційних технологій і систем в таких науково-дослідних роботах: “Розробка та дослідження нейромережевих методів моделювання когнітивних процесів № ДР 0101U002685 (2001-2003); “Дослідження та розроблення нових інтелектуальних інформаційних технологій на основі використання високоефективних нейромережевих методів та алгоритмів” № ДР 0102U002070 (2002-2006); “Розробка та дослідження нейромережевих інформаційних технологій роботи з базами знань” № ДР 0104U003191 (2004-2006); “Створити засоби автоматичної обробки інформації із застосуванням міркувань за аналогіями” № ДР 0103U008280 (2003-2006); “Створити дослідні зразки нейрокомпютерів нових поколінь” № ДР 0101U006718; за Державною науково-технічною програмою “Образний компютер”: “Технологія, методи, алгоритми визначення міри семантичного звязку слів” № ДР 0102U005512 (2002); “Розробити компютерну технологію цілеспрямованої обробки текстової і аудіоінформації” № ДР 0103U005770 (2003); “Розробити інтелектуальні інформаційні технології розпізнавання та ідентифікації аудіо-відеоінформації на основі нейромережевих технологій” № ДР 0104U008324 (2004).У першому розділі дано огляд сучасного стану робіт в області пошуку і класифікації текстової і візуальної інформації. Для вирішення задач класифікації широко застосовуються методи автоматичного конструювання класифікаторів шляхом навчання із вчителем (найближчих сусідів, одношарові та багатошарові нейронні мережі, метод опорних векторів та ін.). Таким чином, підвищення ефективності розвязання задач пошуку і класифікації текстів і зображень потребує розвитку методів пошуку і класифікації інформації, що представлена у векторному форматі, створення уніфікованих засобів програмно-алгоритмічної підтримки і розробки нових та вдосконалення існуючих ІТ у напрямку підвищення обчислювальної ефективності, точності та привнесення якісно нових можливостей, що здатні забезпечити більш високий рівень інтелектуальної обробки інформації. Це обумовлює актуальність спрямованості дисертаційної роботи на підвищення ефективності рішення задач пошуку і класифікації на основі векторних представлень. Для скорочення розмірності векторних просторів з метою підвищення обчислювальної ефективності методів класифікації розроблено методи добору ознак, що використовують критерії інформативності (1) і дублювання (2) на основі взаємної інформації Шеннона.Модифікація персептроноподібного класифікатора досліджувалася на штучних і реальних числових векторних даних з лінійно нероздільними областями класів: DGEN, задачі Leonard-Kramer і базі ELENA ([2, 7]), де бінарні ознаки виділялися кодуванням гіперпрямокутними рецептивними полями RSC [9], а також при класифікації зображень рукописних цифр бази MNIST [4] (рис. При збільшенні Q ефект від застосування добору зменшується, і при Q?100 спостерігається погіршення результатів, повязане з появою значного числа ознак, що дублюються (з великим значенням RE, рис. Застосування добору ознак без урахування можливого дублювання дозволило значно скоротити розмірність даних (з N=50000 до N=1000) при збереженні високих результатів класифікації MNIST на рівні 2,7-2,9% помилок. Час навчання класифікатора зменшився при цьому з ~5 хвилин до 5 секунд, а добір ознак зайняв 75 секунд.

План
2. Основний зміст роботи
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?