Обзор современного состояния области компьютерного зрения - Реферат

бесплатно 0
4.5 109
Терминология и общая постановка задачи "Понимания изображения". Изображения различной природы и области их использования. Метод одновременной навигации и составления карты. Достоинства и недостатки свёрточных нейронных сетей. Применение CNN в задачах.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Зрение (зрительное восприятие) - процесс психофизиологической обработки изображения объектов окружающего мира, осуществляемый зрительной системой, и позволяющей получать представление о величине, форме (перспективе) и цвете предметов, их взаимном расположении и расстоянии между ними. «Удивительная сложность проблемы “понимания изображения” может быть проиллюстрирована тем обстоятельством, что ее интеллектуальная (алгоритмическая) составляющая оказалась более трудным “орешком”, чем традиционные задачи типа компьютерной игры в шашки или шахматы […] Компьютер, на равных играющий в шахматы с чемпионами мира, уже создан, а компьютерной программы, “понимающей” любую видимую сцену, пока нет […] Это связано, по-видимому, со сложностью основного предмета, находящегося в центре внимания данной дисциплины, а именно - двумерного изображения» [2].Согласно теории Марра [5], в основе зрительного восприятия лежат процессы сбора, представления, обработки и распознавания информации, отражающей свойства наблюдаемого реального мира.[33] отмечают, что «не существует общепринятой точки зрения, где заканчивается обработка изображений и начинаются другие смежные области, например, анализ изображений и машинное зрение. Зачастую, «обработка изображений» определяется как дисциплина, в которой на входе и на выходе процесса присутствуют изображения». В данном обзоре будет использоваться следующая их трактовка: · Компьютерное зрение - научная дисциплина, изучающая теорию и базовые алгоритмы анализа изображений и сцен [1]. · Машинное (техническое) зрение - комплексная технологическая область научных и инженерных знаний, охватывающая все проблемы разработки практических систем: выбор схем освещения исследуемой сцены, выбор характеристик датчиков, их количества и геометрии расположения, вопросы калибровки и ориентирования, выбор или разработка оборудования для оцифровки и процессорной обработки, разработка собственно алгоритмов и их компьютерная реализация [1]. В книге «Computer vision: models, learning and inference» приводится следующее утверждение, наглядно иллюстрирующее суть данной проблемы: «In a camera, the three-dimensional world is projected onto the optical surface to form the image: a two-dimensional set of measurements.Марр расценивал зрение как систему обработки информации, представленную в трех различных взаимодополняющих уровнях анализа. Данный уровень описывает работу устройства как некоторое отображение информации одного вида в информацию другого вида, формальные свойства которого определяются точно: при этом демонстрируются как пригодность использования отображения для решения соответствующих задач, так и целесообразность [4]. Данный уровень связан с выбором представления для входной и выходной информации и выбором алгоритма, который должен быть использован для преобразования одной информации в другую [4]. Через 30 лет после публикации «Зрения» [4], Томасо Поггио в послесловии к редакции книги добавляет еще один уровень выше вычислительного - уровень обучения (learning level) [5], поясняя это следующим образом: «I am not sure that Marr would agree, but I am tempted to add learning as the very top level of understanding, above the computational level. Уровни связаны между собой, но связи свободны: выбор некоторого алгоритма, например, проводится с учетом того, что он должен делать и с помощью каких технических средств может быть реализован; однако, на каждом уровне имеются большие возможности выбора, и получение интерпретаций для каждого уровня связано с разрешением проблем, которые в достаточной степени независимы от проблем других уровней [4].Обрабатываемые изображения могут порождаться источниками, которые для человека непривычно связывать с наблюдаемыми изображениями (например, ультразвуковые изображения; изображения, получаемые в электронной микроскопии или генерируемые компьютером) [33]. Используются в медицине, системах промышленного технического контроля, системах обеспечения безопасности. Изображения в тепловом диапазоне (8-14 мкм) позволяют пересчитывать интенсивность элементов изображения в значения температуры наблюдаемых поверхностей. Изображения этого диапазона используются в системах промышленного и экологического мониторинга, выявляющих утечки тепла в различных технических устройствах, сетях теплотрасс и т.п.; в системах военного назначения для наведения на «горячие» объекты военной техники - двигатели, факелы ракет и т.п.; в биометрических системах, таких как системы автоматического контроля доступа на основе термограмм человеческого лица, представляющих уникальные изображения, которые чрезвычайно сложно подделать. Изображения в ближнем ИК-диапазоне схожи с изображениями видимого диапазона, но съемка в ближнем ИК позволяет снимать ночью.В общих чертах [1] комплекс основных целевых задач, предъявляемых к системам машинного зрения, может быть сформулирован следующим образом: · Калибровка сенсоров, самоориентация, самопозиционирование; Требования, предъявляемые к методам и алгоритмам машинного зрения [1]: · Р

План
ОГЛАВЛЕНИЕ

Введение

1. Терминология и общая постановка задачи «Понимания изображения»

1.1 Терминология области

1.2 Причины сложности задачи «понимания изображений»

1.3 Уровни анализа

1.4 Изображения различной природы и области их использования

1.5 Требования и задачи, предъявляемые к системам машинного зрения

2. Основные направления и перспективные разработки области компьютерного зрения и систем технического зрения

2.1 Structure-From-Motion

2.1.1 SIFT (Scale Invariant Feature Transform)

2.1.2 SURF (Speed Up Robust Feature)

2.1.3 Сравнение эффективности методов SIFT и SURF

2.1.4 Сопоставление точек интереса

2.2 SLAM (Simultaneous Localization and Mapping): метод одновременной навигации и составления карты

2.2.1 EKF SLAM (Extended Kalman Filter SLAM)

2.2.2 FASTSLAM

2.2.3 LSD-SLAM: Large-Scale Direct Monocular SLAM

2.2.4 Техническое обеспечение для SLAM-навигации и перспективы метода

2.3 Карты внимания (Saliency Maps, Карты Салиентности, Имитация зрительного внимания)

2.3.1 IT-method

2.3.2 Temporal and Local Methods for Saliency Maps

2.3.3 Global Methods for Saliency Maps (SR-, PFT-, PQFT-)

2.3.4 Context-Aware Saliency Detection

2.4 Сверточные нейронные сети (Convolution Neural Networks)

2.4.1 Арихитектура CNN

2.4.2 Достоинства и недостатки сверточных нейронных сетей

2.4.3 Deconvolutional Neural Network (DNN)

2.4.4 Применение CNN в прикладных задачах

2.5 Краткий обзор прочих областей СТЗ

Заключение

Библиографический список

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?