Краткий обзор применения технологий Big Data для прогнозирования финансовых инструментов. Анализ традиционных источников данных и выявление настроений из новостей. Подробное рассмотрение анализа поисковых запросов с использованием Google Trends.
Аннотация к работе
Фондовый рынок часто реагирует на мнения большинства, и такая реакция иногда может привести к панике на рынке и не оправданному, с экономической точки зрения, падению акций. Технологии Big Data позволяют инвестором получать быстрый доступ к последним новостям, и осуществлять дальнейший поиск для лучшего понимания ситуации. Сбор, фильтрация, глубокий анализ с использованием сложных статистических моделей и удобная визуализация огромного количества данных генерируемых фондовым рынком создают конкурентное преимущество для инвесторов, использующий технологии Big Data, в рамках формирования успешных торговых стратегий. Но для повышения качества модели авторы используют не только историю котировок акций на конкретном рынке, но и истории со всех рынков, где котируется акция, а это, по словам автора, порядка нескольких гигабайтов данных в минуту. Поскольку изменение стоимости финансовых инструментов, отражает множество решений, принятых участниками рынка, предварительно собравшими и изучившими данные, в основном из интернета, поисковые запросы, возможно, могут стать новым источник данных для моделей прогнозирования.Возможно, подход изменится, и будут использоваться более серьезные технологии, способные анализировать количество поисковых запросов в реальном времени, использовать сложные статистические модели и разнообразные входные данные, к примеру, историей котировок, техническими индикаторами и фундаментальными показателями.
Введение
Традиционными источниками входных данных для моделей прогнозирования поведения финансовых инструментов являлись данные числового формата, такие как цена открытия и закрытия; индексы NASDAQ, S&P 500, NIKKEI, ISE и другие; финансовые показатели компании: выручка, EBITDA, чистая прибыль, чистая стоимость компании, обязательства и другие; технические индикаторы и множества других. Как правило, их количество колебалось от 4 до 10, чтобы не усложнять модель, и поэтому особое внимание уделялось оценке влияния входных факторов на прогнозируемые показатели [1].
В большинстве случаев, исследователи старались создавать более упрощенные модели, используя менее сложные статистические алгоритмы. Возможно, это связанно с требованиями к высокой скорости обработки данных, поскольку для проектирования успешной торговой стратегии, часто, время является одним из критических факторов. Но при этом они использовали современные, на тот момент, информационные технологии, которые позволяли ускорить процесс анализа и повысить качество модели. Таким образом, в начале 21 века, широко применяли различные модели нейронных сетей для получения более точных результатов прогнозирования, пытаясь превзойти традиционные линейные и нелинейные подходы, которые были основой для прогнозирования в 20 веке [2].
Направления использования технологий Big Data для прогнозирования поведения финансовых инструментов
Фондовый рынок часто реагирует на мнения большинства, и такая реакция иногда может привести к панике на рынке и не оправданному, с экономической точки зрения, падению акций. Технологии Big Data позволяют инвестором получать быстрый доступ к последним новостям, и осуществлять дальнейший поиск для лучшего понимания ситуации.
Технологии Big Data позволило разрабатывать более сложные алгоритмы прогнозирования и в режиме реального времени отслеживать их эффективность. Сбор, фильтрация, глубокий анализ с использованием сложных статистических моделей и удобная визуализация огромного количества данных генерируемых фондовым рынком создают конкурентное преимущество для инвесторов, использующий технологии Big Data, в рамках формирования успешных торговых стратегий.
В статье [3] предполагается, что наиболее подходящие данные для определения движения стоимости финансового инструмента содержатся в истории рыночной цены. Но для повышения качества модели авторы используют не только историю котировок акций на конкретном рынке, но и истории со всех рынков, где котируется акция, а это, по словам автора, порядка нескольких гигабайтов данных в минуту.
Но все равно, даже несмотря на широкие возможности технологий Big Data, большинство исследований по прогнозированию фондовых рынков используют структурированные данные. В то время как, подходы связанные с анализом новостей и выявления настроений сравнительно редки изза трудности извлечения необходимой информации из неструктурированных данных. Подобные модели довольно сложны в разработке, но при этом неоднократно доказывали свою эффективность [4, 5].
Поскольку изменение стоимости финансовых инструментов, отражает множество решений, принятых участниками рынка, предварительно собравшими и изучившими данные, в основном из интернета, поисковые запросы, возможно, могут стать новым источник данных для моделей прогнозирования. Далее будут рассмотрены модели прогнозирования финансовых инструментов, использующие в качестве входных данных поисковые запросы.
Анализ истории запросов Google для формирования торговой стратегии
В современном мире, сбор данных часто состоит из поиска источников в Интернете, с использованием поисковиков на подобии Google, в котором реализован сервис Google Trends. С его помощью осуществляется доступ к обобщенной информации об объемах запросов, с применением различных условий поиска, и их изменении во времени. Таким образом, с его помощью можно проанализировать тенденции в сборе данных множества игроков фондового рынка, и сформировать торговую стратеги.
В статье [6] используются данные Google Trends для выявления закономерностей между поисковыми запросами и поведением фондового рынка. В ходе исследования было установлено, что уменьшение объема поисковых запросов определенных финансовых терминов, таких как “debt”, “stocks”, “inflation” и других, предшествуют повышению промышленного индекса Доу-Джонса (DJIA), в то время как увеличение объема предвещает снижение DJIA. Поскольку инвесторы предпочитают торговать на внутреннем рынке, было решено использовать данные по количеству запросов для США, а не глобальные, что привело к повышению качества прогноза поведения рынка.
Данные выводы позволили разработать следующую торговую стратегию для прогнозирования поведения фондового рынка США. При уменьшении объема поисковых запросов по определенным финансовым терминам необходимо закрывать короткие позиции и открывать длинные. А при их увеличении следует открывать короткие позиции и закрывать длинные. технология прогнозирование финансовый инструмент
Для оценки эффективности стратегии провели ее сравнение со стратегией “buy and hold”, на исторических данных за период с января 2004 года по февраль 2011 года. На этом периоде стратегия, разработанная на основе Google Trends, позволила получить прибыль на 326% больше, чем стратегия buy and hold. Кроме этого, с ее помощью было обнаружено увеличение объемов поисковых Google по ключевым словам, связанным с финансовыми рынками, прежде чем фондовый рынок упал. Но надо учитывать, что автор выбрал не удачную стратегию для сравнения, так как большую часть периода эксперимента фондовый рынок США падал, следовательно, buy and hold была не эффективна, поэтому результаты сильно преувеличены.
Более простое исследование было проведено в статье [7], где сопоставляются данные по количеству запросов “‘market correction” и индексом S&P 500 за период с января 2006 по октябрь 2014 года. Данные по запросам были взяты в виде отношения количества запросов за конкретный период к общему числу запросов и нормализованы по шкале от 0 до 100. Если уровень запросов по шкале соответствует 0, тогда S&P 500, по идеи, должен продолжать двигаться в том же направлении, как и раньше и наоборот если он равен 100, то должен изменить свое направлении.
В результате исследования было выявлено, что модель не совсем эффективная и нуждается в доработке. Но в тоже время, в период с 2007 года по 2009 год она отчетливо подтверждает гипотезу автору, поскольку перед кризисом уровень запросов вырос и достиг около 90, а во время кризиса держался на 0, за исключением конца 2008, когда действительно произошла небольшая коррекция рынка.
Исходя из выше изложенного, данные по количеству запросов вполне могут применяться для определения торговой стратегии, поскольку они не только отражают текущее состояния экономики, но также предоставляют представление будущих тенденций в поведении инвесторов. Возможно, для улучшения эффективности моделей, основанных на исследовании поисковых запросов, необходимо применять более сложные методологии и использовать дополнительные данные.
Недостатки моделей основанных на данных поисковых запросов
При разработке моделей прогнозирования финансовых инструментов на основе поисковых запросов необходимо учитывать определенную специфику подобных данных.
Во-первых, в рассматриваемых статьях модели разрабатывались для применения на фондовом рынке США, где высокая доля интернет-пользователей, огромное количество трейдеров и, в целом, развитый фондовый рынок. Поэтому исследование поисковых запросов для построения торговых стратегий в пределах США показывают высокую эффективность. Разработка подобных моделей для других стран может оказаться бессмысленной, в зависимости от уровня развития населения страны в информационном и финансовом плане.
Во-вторых, стоит принимать во внимания, что профессиональные трейдеры используют специализированные платформы для торговли на фондовом рынке, со встроенными поисковыми системами. Таким образом, их мнение не учитывается при реализации подобных моделей.
Вывод
Модели прогнозирования фондового рынка на основе поисковых запросов являются новым направлением, которое в дальнейшем, скорее всего, будет развиваться. Возможно, подход изменится, и будут использоваться более серьезные технологии, способные анализировать количество поисковых запросов в реальном времени, использовать сложные статистические модели и разнообразные входные данные, к примеру, историей котировок, техническими индикаторами и фундаментальными показателями. С их помощью, вероятно, будет увеличено качество прогноза движения цен финансовых инструментов и уменьшено время необходимое для его получения.
Помимо прогнозирования фондового рынка, данные поисковых запросов можно использовать для составления специализированных словарей необходимых для выявления настроений из новостей, о которых упоминалось во введении.
Список литературы
1. G. S. Atsalakis a, K.P. Valavanis. - “Surveying stock market forecasting techniques - Part II: Soft computing methods”. - Elsevier. - 2009г.
2. E. Guresen, G. Kayakutlu, T. U. Daim. - “Using artificial neural network models in stock market index prediction”. - Elsevier. - 2011г.
3. D. Ruta. - “Automated Trading with Machine Learning on Big Data”. - IEEE. - 2014г.
A. A. Nasseri, A. Tucker, S. Cesare. - “Big Data Analysis of STOCKTWITS to Predict Sentiments in the Stock Market”. - Springer. - 2014г.
4. M. Minev, C. Schommer, T. Grammatikos. - “News and stock markets: A survey on abnormal returns and prediction models”. - ILIAS. - 2012г.
5. T. Preis, H. S. Moat, H. E. Stanley. - “Quantifying Trading Behavior in Financial Markets Using Google Trends”. - Nature. - 2013г.
6. V. Dhar. - “Can Big Data machines analyze stock market sentiment?”. - Mary Ann Liebert, Inc. - 2014г.