Объект и инструменты исследования. Характеристика платформ для анализа данных. Изучение программных пакетов. Особенности использования DanbooruDownloader. Основы установки Anaconda. Проверка эффективности работы простых методов классификации на тегах.
Аннотация к работе
This includes both human-generated content (music, visual arts, cinema, literature, photography, emails, tweets, programming code, plain speech, 3d blueprints, handwritten text - you name it) and machine-generated data: genomic data, measurements of anything measurable, historical data of human activities, etc. As seen in the results of successful projects in the field, it is entirely possible to enhance or even supplant human skills, knowledge and experience with use of sufficiently sophisticated machine learning techniques, enough computational power to train appropriate models and, most crucially, vast amounts of raw data. As of 2016, Google Translate is comparable to human translators (at least, on the semantic level (Haiying Li, 2014)), can processing text thousands of times faster; works in 103 languages, and recognizes printed, handwritten and spoken text. In the same year, similar techniques were used to remarkable results on diagnostics of diabetic retinopathy, potentially alleviating medical expenditures worth of hundreds of millions of dollars annually (estimation based on (estimated) wages, diagnosis’ time and number of patients) (Graham, 2015). As should be apparent from the fact that data science has only blossomed into maturity in recent years, the task of discovering patterns in the sea of data is not simple, and Big Data is called so for a reason; while constantly shifting with the advance of the technology, lower boundary for what is considered Big Data was in terabytes at least even in 2012 (w:Big data) and projects which produce tens of terabytes of data daily are not unheard of.Источник данных не должен быть «заезженным», т.е.не должен широко использоваться в научных работах по теме: гораздо интереснее проводить анализ, имея хотя бы шанс на получение новых результатов вместо повторения уже проделанной научной работы. Источник данных должен быть достаточно масштабным: шансы на получение эффективных результатов на малых объемах невелики, к тому же часть исследования посвящена вопросу масштабирования анализа данных. Источник данных должен иметь тщательно размечен, т.е. индивидуальные объекты в нем должны быть распределены по множеству различных категорий (с допустимыми пересечениями), что позволит иметь наглядные и легко представимые программно цели для тренировки аналитических моделей. В соответствии с этими требованиями были рассмотрены следующие датасеты: Многие наборы данных, указанные в (Kaggle Inc.) удовлетворяют многим критериям: интересны, объемны, практически применимы, тщательно промаркированы, очевидно, публично доступны, однако формат платформы Kaggle диктует их популярность: большая часть этих наборов обследована десятками и сотнями исследователей, и по многим из них проведены и опубликованы крупные научно-практические работы. Одним из них является пакет Anaconda, базирующийся на Python и большом количестве библиотек обработки и анализа данных.Самым простым способом извлечения и сохранения данных из источника был выбран DANBOORUDOWNLOADER (Nandaka, 2016) благодаря простоте использования и высокой степени кастомизации: Рисунок 1 Окно настроек DANBOORUDOWNLOADER В первых экспериментах большая часть настроек была оставлена без изменений; исключение составляют Default Save Folder, многократно измененный с целью ограничения количества изображений в одной папке, и Image Size, установленный в Thumb для усечения размера индивидуальных изображений для экспериментов. В связи с этим в качестве базового инструмента предобработки была задействована PIL/pillow, однако opencv была установлена на случай необходимости сложной предобработки. Была произведена попытка установить Teano, однако она застопорилась при установке CUDA. При установке и использовании caffe были обнаружены (и, по возможности, решены) следующие проблемы: Неудавшаяся первая сборка в связи с недоступностью файлов подгружаемых пакетов Visual Studio.Random Forest, n_estimators=5 Random Forest, n_estimators=20 score time n speed score time n speed Random Forest, n_estimators=100 Random Forest, n_estimators=200 score time n speed score time n speed Support Vector Classification, kernel=linear Naive Bayes score time n speed score time n speed Support Vector Classification, kernel="linear" Support Vector Classification, kernel="rbf" score time n speed score time n speed Random Forest, n_estimators=100 Random Forest, n_estimators=200 score time n speed score time n speedПо результатам практической части были достигнуты следующие цели. Был успешно выгружен весь объем метаданных изображений, предоставленный источником. Была выгружена заметная часть (>40%) изображений, однако в уменьшенных версиях. Были предприняты попытки установки ПО для решения вычислительных задач на машинном кластере, однако в связи со значительным увеличением потребления вычислительных ресурсов и отсутствием собственно кластера это направление было оставлено в пользу получения наглядных результатов.