Возможности системы Google Books Ngram Viewer. Массивы размеченных текстов. Особенности сервиса и представления графиков. Лингвистические особенности системы. Набор пользовательских тэгов. Операции над кривыми графиков. Переносы и сокращения слов.
При низкой оригинальности работы "Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer", Вы можете повысить уникальность этой работы до 80-100%
Система также содержит отдельно корпус британского и американского английского языка, корпус всех вариантов английского языка, корпус художественной литературы на английском языке и так называемый гугловский миллион - книги на английском языке с годами издания с 1500 до 2008. Graph these case-sensitive comma-separated phrases - построить графики для этих словоформ с учетом регистра, разделять запятыми Ngram (окно запроса на построение графика) case-insensitive - при установке флажка в окне система не различает заглавные и строчные буквы between and - между …. и… (окно указания временного периода, вводится год начала исследования и конца исследования) from the corpus - из корпуса (выбрать из выпадающего меню) with smoothing - со сглаживанием (выбрать из выпадающего меню) search lots of books - искать в массивах книг (кнопка команды на поиск и построение графика) Кроме построения графиков, система представляет ссылки к текстам, найденным по запросам (рис. Относительная частота встречаемости N-граммы за определенный год подсчитывается следующим образом: число ее употреблений в данном году делится на общее число словоупотреблений в корпусе в этом же году. При активизации ссылки Embed Chart (встроить график) раскрывается окно, в котором находится описание данного графика в кодах языка гипертекстовой разметки (рис.Система Google Books Ngram Viewer предоставляет беспрецедентные возможности для историко-культурных и лингвистических исследований. Огромные массивы размеченных текстов, возможность изучения поведения слов в нескольких языках одновременно, быстрота получения результатов, многие другие достоинства - все это делает систему исключительно ценным исследовательским инструментом. Представляется также интересным сопоставить Google Books Ngram Viewer и сервис.
Введение
Язык, как известно, - динамичная система. Изменения происходят в нем постоянно, в течение исторических периодов разной продолжительности и на всех уровнях - фонетика и письмо, морфология и лексика, синтаксис и семантика. Частота встречаемости одних элементов и явлений уменьшается, а бывает, что одни явления и элементы полностью исчезают, а другие возникают или начинают встречаться много чаще чем прежде. Изменения в языке имеют тесную связь с явлениями разной природы, но более всего,- психологическими, социальными и культурными. Выявление, описание и интерпретация изменений языка во времени - задача диахронического исследования.
Еще недавно проведение такого исследования требовало больших усилий и затрат времени. Сегодня компьютерные технологии и корпусная лингвистика дают для него принципиально новые инструменты. Корпусы языков и корпусные менеджеры позволяют сравнительно просто получить данные о встречаемости единиц языка в разные промежутки времени.
В настоящей статье описывается система Google Books Ngram Viewer. Возможности и ограничения системы мы попытаемся проиллюстрировать примерами, которые можно интерпретировать как с точки зрения лингвистики, так и с точки зрения истории культуры.
Описание системы Google books Ngram Viewer
Общие сведения. Система Google books Ngram Viewer является в настоящее время наиболее мощным инструментом диахронических исследований. Доступ к ней открыт, начиная примерно с 2009 года. Google books Ngram Viewer представляет собой информационную систему, которая содержит несколько корпусов размеченных текстов книг на 9 языках. Каждый корпус (кроме итальянского) имеет две версии - 2009 и 2012 года. Система также содержит отдельно корпус британского и американского английского языка, корпус всех вариантов английского языка, корпус художественной литературы на английском языке и так называемый гугловский миллион - книги на английском языке с годами издания с 1500 до 2008. Для одного года издания отбиралось не более 6000 книг. Это означает, что для ранних лет издания в БД присутствуют все отсканированные книги, тогда как книги более поздних лет представлены выборочно. Отбор отражает распределение по тематике, характерное для данного года. Самые поздние публикации, доступные для пользователей в настоящее время, относятся к 2008 году.
Объем. На конец 2012 г. база данных насчитывала более 8 млн книг (текстов), что составляет около 6% всех когда-либо опубликованных печатных книг. Корпус книг на русском языке (2012 г.) содержит 591 310 книг (текстов) или 67 137 666 353 словоупотреблений.
Таблица 1 Количественная характеристика корпуса в целом (по данным 2012 года)
Корпус (язык) Число томов Число тэгов разметки
Английский 4 541 627 468 491 999 592
Испанский 854 649 83 967 471 303
Французский 792 118 102 174 681 393
Немецкий 657 991 64 784 628 286
Русский 591 310 67 137 666 353
Итальянский 305 763 40 288 810 817
Китайский 302 652 26 859 461 025
Иврит 70 636 8 172 543 728
Всего 8 116 746861 877 262 497
Примечание. В табл.1 указан только общий корпус английского языка.
Обработка материала
Каждый печатный документ подвергается сканированию, графический образ проходит оптическое распознавание. Полученный электронный документ снабжается метаданными, полученными от библиотек или других учреждений, предоставивших этот документ.
Далее документ подвергается разметке. Каждой словоформе присваивается тэг части речи и год издания документа. Например: жженаго_ADJ кирпича_NOUN 1852 5 3
Числа за годом издания обозначают, соответственно, количество словоупотреблений данной словоформы и количество книг этого года, где она встретилась.
Интерфейс системы. Для каждой заданной лексической единицы (ЛЕ) для заданного временного интервала строится график (рис. 1).
Рис. 1 Общий вид экрана
Рис. 2. Область запроса на построение графика
Graph these case-sensitive comma-separated phrases - построить графики для этих словоформ с учетом регистра, разделять запятыми Ngram (окно запроса на построение графика) case-insensitive - при установке флажка в окне система не различает заглавные и строчные буквы between and - между …. и… (окно указания временного периода, вводится год начала исследования и конца исследования) from the corpus - из корпуса (выбрать из выпадающего меню) with smoothing - со сглаживанием (выбрать из выпадающего меню) search lots of books - искать в массивах книг (кнопка команды на поиск и построение графика)
Кроме построения графиков, система представляет ссылки к текстам, найденным по запросам (рис. 3). Как правило, это библиографические описания книг и фрагменты текстов с выделением в них заданных N-грамм. В некоторых случаях доступен полный текст книги в графическом формате.
Рис.3. Область ссылок к ресурсам Google books. Все области не помещаются на экране, доступ к области ссылок через полосу прокрутки.
Графики изменений частоты встречаемости n-грамм. Основной единицей информации в системе является N-грамма. Под термином N-грамма в данном случае понимают последовательность от одного до пяти слов. Использовать N-граммы более чем из пяти слов не допускается, причем N-грамма должна встречаться в корпусе не менее 40 раз.
По вертикальной оси графика откладывается относительная частота встречаемости заданной N-граммы в данном году, выраженная в процентах. На горизонтальной оси показаны годы, входящие в заданный временной интервал.
Относительная частота встречаемости N-граммы за определенный год подсчитывается следующим образом: число ее употреблений в данном году делится на общее число словоупотреблений в корпусе в этом же году. Так, число словоупотреблений слова «slavery» (рабство) в 1861 г. составило 21 460 на 11 687 страницах 1208 книг. Всего в английском корпусе 2009 г. за 1861 год имеется 386 434 758 словоупотреблений, составляет 5.5 ? 10?5. Результат умножается на 100%. Таким образом, относительная частота встречаемости N-граммы равна 0,0055533307 %. ( J-B. Michel et al, 2011)
При построении графиков динамики частоты употребления используется так называемое «сглаживание» (smoothing) При нулевом сглаживании в графике учитывается относительная частота встречаемости N граммы за каждый год. Тенденция в динамике встречаемости слов прослеживается более отчетливо при скользящем усреднении данных. Если значение сглаживания равно 1, то это означает, что для некоторого года, например, для 1950, к числу словоупотреблений искомого слова за этот год прибавляется число словоупотреблений за предыдущий год (т.е. 1949), и последующий года (т.е.1951), и полученная сумма делится на три. Значение этой величины далее будет отражено на вертикальной оси. В окне “Smoothing” интерфейса, по умолчанию указано сглаживание 3, что означает, что для данного года для данной ЛЕ высчитывается среднее значение из семи чисел - число употреблений слова в данном году и для трех предыдущих и трех последующих лет.
Особенности сервиса и представления графиков
Каждая кривая графика маркируется цветом, в конце кривой указывается, какой N-грамме (слову или словосочетанию) она соответствует (рис.1). Возможно определение координат любой точки графика. Для этого достаточно установить курсор на любую точку над нужным годом. Система в этом случае выдаст сообщение о вертикальной и горизонтальной координатах этой точки для всех кривых. Если же установить курсор непосредственно на кривую, то исследуемая кривая будет выделена (рис. 4).
Рис 4. Сообщение о координатах кривых (label for focus)
При активизации ссылки Embed Chart (встроить график) раскрывается окно, в котором находится описание данного графика в кодах языка гипертекстовой разметки (рис. 5). Описание может быть скопировано и встроено в любой HTML-текст или в пустой текстовый файл с последующим присвоением ему имени с расширением .html. Таким образом, график будет доступен в любой гипертекстовой системе, и функция определения координат останется активной.
Рис.5. Раскрытое окно с описанием данного графика в кодах HTML
Лингвистические особенности системы
Имеется возможность при формулировке условий поиска задавать распознавание заглавных и строчных букв (case sensitive), или игнорировать различие между ними.
В системе нет грамматической нормализации лексических единиц, иначе говоря, поиск лексической единицы (слова или словосочетания) и построение графиков частоты ее встречаемости осуществляется для заданной словоформы.
Набор пользовательских тэгов
Система предусматривает использование пользовательских тэгов для модификации условий построения графиков.
Тэги частей речи
Тэги этой группы могут применяться изолированно (_NOUN_) в этом случае показывается частота употребления данной части речи, а также могут присоединяться к какому-либо знаменательному слову.
Тэг _NOUN_, Часть речи Существительное, Действие: находит только существительное или субстантивированное прилагательное. Напр. «больной» ср. «Больной находится в тяжелом состоянии» и «Больной ребенок» Нотация: больной_NOUN (Все тэги частей речи вводятся заглавными буквами без пробелов) (рис. 6)
Рис 6. График встречаемости слова «больной» как существительного и как прилагательного.
Аналогичным образом работают тэги для других частей речи
Тэг _ADJ_ Часть речи Прилагательное Действие: находит только прилагательные.
Тэг _VERB_ Часть речи Глагол Действие: находит только глаголы.
Тэг _ADV_ Часть речи Наречие Действие: находит только наречия
Тэг _PRON_ Часть речи Местоимение Действие: находит только местоимения
Тэг _DET_ Часть речи Артикль Действие: Этот тэг позволяет игнорировать вид артикля Нотация: До и после подчерка должны быть пробелы (eat _DET_ sandwich). Число элементов N граммы не должно быть более трех (в последней версии системы (октябрь 2013 года) возможности применения этого тэга еще расширены)
Тэг _ADP_ Часть речи Предлог или послелог Действие: находит только предлоги
Тэг _NUM_ Часть речи Числительное Действие: находит только числительные
Тэг_CONJ_Часть речи Союз Действие: находит только союзы
Тэг _PRT_ Часть речи Частица Действие: находит только частицы.
Тэг _INF (Inflections) строит кривые для всех форм словоизменительной парадигмы данного слова (рис.7). Следует отметить, что данная функция работает не всегда корректно, по крайней мере для русского языка.
Рис.7. Частота встречаемости форм словоизменительной парадигмы существительного «корова»
Существуют также тэги позиционирования слов.
Тэг «_START_» - обеспечивает извлечение слова, в том случае, если оно находится в начале предложения.
Тэг «_END_» - обеспечивает извлечение слова, в том случае, если оно находится в конце предложения.
Имеется Тэг «_ROOT_=>» - обеспечивает поиск глагола, выполняющего роль основного предиката в предложении.
Теги выбора корпусов
Система позволяет строить графики по разным корпусам одновременно (см. рис 8). Для этого используются тэги-идентификаторы корпусов: Китайский 2012 chi_sim_2012, Английский 2012 eng_2012, Французский 2012 fre_2012, Немецкий 2012 ger_2012, Иврит 2012 heb_2012, Испанский 2012 spa_2012, Русский 2012 rus_2012, Итальянский 2012 - ita_2012 - идентификаторы корпусов 2012 года
Рис. 8. График встречаемости слова «хлеб» и его английского и немецкого эквивалентов в русском, английском и немецком корпусах
Тег контекста. С октября 2013 года введен тег «подстановочный знак» * (wildcard). Ввод его через пробел после N-граммы (рис. 9) или до нее (рис. 10) позволяет строить график встречаемости десяти наиболее частотных сочетаний N-граммы и слова следующего за нею или ей предшествующего.
Рис.9. Кривые встречаемости десяти биграмм с первым словом «Председатель» (использование подстановочного знака после N-граммы)
Рис 10. Кривые встречаемости десяти биграмм со вторым словом «аплодисменты» (использование подстановочного знака перед N-граммой)
Операции над кривыми графиков
Суммирование (сложение) кривых. Операция позволяет суммировать значения каждой точки по оси ординат двух или более кривых. Для осуществления операции поисковые слова вводятся в окно через знак , например: лошадь лошади лошадей.
Вычитание кривых. Операция позволяет вычитать из значения каждой точки кривой по оси ординат, значение точки другой кривой для той же позиции по оси абсцисс. С помощью этой операции можно представить, насколько частота встречаемости одной N-граммы больше (меньше) другой, и как это различие менялось во времени. Для осуществления операции поисковые слова вводятся в окно через знак -, а выражение необходимо брать в круглые скобки, например: (вежливость - корректность). При этой операции вся кривая или ее часть может находиться в области отрицательных значений (см. рис. 11).
Рис.11. Вычитание значений кривой «корректность» из значений кривой «вежливость»
Умножение графиков. Операция позволяет умножать на n значения всех точек графика. Данная операция позволяет сделать сопоставимым вид кривых, значения которых отличаются на несколько порядков. Слова в поисковое окно вводятся следующим образом: слово*множитель, например, лемматизация*100.
Деление графиков. Операция делит значение каждой точки кривой на значение точки другой кривой, имеющей ту же координату по горизонтальной оси. Операция позволяет установить, во сколько раз один термин встречается чаще другого и как меняется их отношение. Слова в поисковое окно вводятся следующим образом: слово/слово, например сапоги/валенки
Примечание. Операцию деления нельзя использовать по тому же типу, что операцию умножения. Выражение Время/100 означает, что система покажет, во сколько раз в текстах БД слово «время» встречается чаще (реже) чем цифра 100, а не уменьшит результат в сто раз. Это делает невозможным, например, подсчет средней встречаемости нескольких терминов.
Старая (дореволюционная) орфография русского языка
Проблема, приобретающая особую важность в последнее время - это представление русских текстов в графике и орфографии, действовавшей до 1918 г. включительно. Число таких текстов понемногу растет, есть они в Библиотеке Мошкова и на других сайтах. Наличие таких текстов очень ценно для исследования русской лексики. Однако существующие корпуса русского языка, как правило, все тексты дают в современной орфографии. Это лишает исследователей возможности изучать русский язык в его историческом виде. Во-первых, это касается графики, во-вторых, морфологических и лексических отличий языка 18-19 вв. от современного русского языка. Характерной особенностью языка 18-19 вв. по сравнению с современным языком была значительная лексическая и орфографическая вариативность. Там, где в современном языке зафиксирован один вариант слова, в старых текстах можно встретить несколько взаимозаменяемых вариантов. Отсутствие корпусов со старой оригинальной орфографией не позволяет изучить эту сторону языка.
Тексты Google books получены посредством оцифровки и распознавания оригинальных печатных изданий. Поэтому в базе данных Google books тексты книг, изданных до 1919 года (в определенных случаях более поздних изданиях), представлены в старой системе письма, что дает возможность разнообразных исследований.
Тем не менее, остаются проблемы, на которых мы далее остановимся.
Некоторые знаки старой системы русского письма, такие как і (код Unicode - 0456), ? (код Unicode -0463), ? (код Unicode -0473), (и соответствующие заглавные буквы) поисковой системой Ngram viewer не распознаются, и поиск по словам, содержащим эти знаки невозможен. Так поиск триграммы ?едоръ Михайловичъ Достоевскій, в системе не дает результатов.
Следует, однако, отметить, что собственно поисковая система Google и некоторые другие системы (портал Европейская библиотека, электронный каталог Британской библиотеки) осуществляют полноценный поиск по старой русской орфографии, поэтому можно рассчитывать, что и в Ngram viewer скоро эта проблема будет решена.
Пример исследования поведения слова «Бог» с учетом разных вариантов написания
Рис 12 . График встречаемости различных форм написания слова «Бог»
Слово «Богъ» пишется с заглавной буквы с твердым знаком после конечной согласной. Как видно из графика, это - часто употребляемое слово, примерно до 1920 года, после реформы письма его встречаемость уменьшается, хотя форма не исчезает. Примерно до 1950 года зарубежные издательства на русском языке и издательства РПЦ используют старую орфографию. Некоторые издательства используют ее и в настоящее время.
Слово «богъ» пишется со строчной буквы с твердым знаком после конечной согласной. Такое написание использовалось в случае, если речь шла о языческом боге, напр. богъ Марсъ и т.п.
Слово «бог» пишется со строчной буквы в современной орфографии. Отмечается, что естественно, резкое увеличение встречаемости после реформы орфографии, и снижение в 90-е годы.
«Бог» пишется с заглавной буквы в современной орфографии. Поведение кривой в некоторых частях объяснимо. Объяснима меньшая частотность формы по сравнению с формой «бог», хотя написание с заглавной буквы встречается и в послереволюционных изданиях (по крайней мере, когда слово в начале предложения). Объясним и рост в 90-е годы - он связан с «религиозным ренессансом» в обществе. Остается непонятным «всплеск» употреблений этой формы с 1810 по 1820.
Многое проясняет детальный просмотр результатов по ссылке 1800-1819 (рис. 13-15).
Рис.13. Примеры написания словоформы «Бог»: просмотр результатов, найденных N Gramm Viewer по форме написания «Бог» по ссылке 1800-1819 - Мала простонародньа славено-сербска песнарица, издана Вуком Стефанови*ем, у Віуни, 1814
По-видимому, при оцифровке в массив русских книг попадают (скорее всего, изза ошибок при вводе метаданных) книги на других языках, использующих кириллицу, в данном случае на сербском, где слово «Бог» писалось без твердого знака.
Рис 14. Два из четырех употреблений формы «Бог» в книге издания 1803 г.
Знак «ер» напечатан другим кеглем. По-видимому, это причина ошибки распознающей системы.
Рис.15. Сокращение отчества «Богданович» принято за искомое слово
Было проанализировано 10 подобных ссылок. Анализ показал, что при загрузке в БД «Книги Google» возможны следующие типы ошибок
1. Ошибки метаданных - неверно идентифицирован и указан язык документа, (3 примера из 10)
2. Ошибки распознавания - в основном, по-видимому, в результате типографских особенностей текста, но также в результате использования церковнославянского, а не гражданского шрифта (6 примеров)
3. Наконец, в тексте могут быть случаи графической омонимии, это уже проблема поиска, а не ошибка ввода данных (1 пример)
С большой долей уверенности можно утверждать, что «всплеск» в 1810-1820 г. связан не с каким-то историко-лингвистическим явлением, а с техническими ошибками, недостатками информационного ресурса. Очевидно, что некоторое число ошибок неизбежно имеет место в БД, что хорошо видно на графике
Переносы и сокращения слов
В ходе исследования проблем, связанных со старой орфографией, были выявлены еще две проблемы.
Рис.16 График встречаемости N-граммы «француз» в старой и современной орфографии
Обращает внимание, что кривая встречаемости слова «француз» в написании без твердого знака дает большой подъем в первые десятилетия 19 века и до 1920 года идет практически вровень с кривой встречаемости того же слова с твердым знаком. При просмотре ссылок выявлено, что рост употреблений N граммы «француз» без твердого знака в книгах, изданных в 19 веке и начале 20 века, обусловлен а) сокращением слова «французский» (рис. 17):
Рис 17. Сокращение слова «Французского» как «Француз.» система интерпретировала как существительное «Француз». б) переносом слова (рис. 18):
Рис 18. При переносе слова «Французскїе» как «Француз-» «-скїе» система интерпретировала часть перенесенного слова как искомую N-грамму.
Было проведено исследование, насколько наличие переносов слов может влиять на результат (см., напр., рис. 19).
Рис.19. График встречаемости сочетания букв «пре» как самостоятельного слова.
Подобные результаты были получены и для многих других сочетаний букв. Обращает внимание, что переносы чаще встречаются в текстах со старой орфографией, в особенности - в старопечатных книгах (рис. 17). В целом можно сделать предварительное предположение, что переносы слов встречаются чаще в текстах со старой орфографией (особенно в старопечатных книгах), чем в текстах с современной орфографией. Если это так, то это по всей вероятности одна из причин того, что качество распознавания текста старопечатной книги ниже, чем распознавание современной печатной книги.
Бывает и наоборот: конечная часть слова «ский» чаще встречается в современной орфографии (рис. 20, 21).
Рис. 20. График встречаемости части слова «ский». Перенос этого сочетания чаще встречается в современной орфографии.
Иногда части слов присутствуют в тексте оправданно, напр., в случае сокращений. Причем сокращения бывают не только по начальным буквам, но и по конечным. Один из таких примеров рассмотрен ниже. От «ский» мы перешли к другим конечным буквосочетаниям. При поиске по сочетаниям знаков «ская», «кая», «ая», отчетливо видно, что в отдельные периоды времени повышается число встречаемости сочетания «ая» как отдельной N-граммы.
Просмотр результатов поиска показал, в эти периоды выпускалось значительное количество словарей, книг по грамматике и других книг по лингвистике (рис. 22). В подобные издания часто включаются варианты родовых окончаний прилагательных, «ая», «ое» (рис. 23).
Рис.22. Фрагмент текста греческо-русско-французского словаря из базы данных Google Books
Рис.23. График частоты встречаемости родовых окончаний как отдельных N-грамм.
На графике (рис. 23) видно, что рост частоты встречаемости «ое» и «ая» практически совпадает. Иначе ведет себя кривая частоты встречаемости окончания «ый». Это связано с тем, что прилагательное в мужском роде является словарной формой и его окончание обычно не указывается отдельно в словарной статье.
Анализ первых четырех страниц результатов (сортировка по релевантности) показал, что из 40 ссылок 28 (70%) являются словарями, грамматиками, работами по лингвистике.
Использование родовых окончаний в качестве поискового запроса позволило выявить в корпусе работы по лексикографии. Имеет место несомненная корреляция - запрос на родовые окончания дает значительное количество словарей и других лингвистических текстов.
Кроме этого, эти же сочетания знаков используются вместе с цифрами (рис. 24).
Рис. 24. Фрагмент страницы результатов поиска по «ая»
Омонимия
Снятие омонимии - типичная проблема любой информационной системы, в частности для корпусов. Приведенные ниже примеры взяты в одном случае из книг XIX века (рис. 25а, 25б), в другом (рис 27а, 27б) из изданий 1950-х г.г.
Рис.25а Пример употребления глагола «чаять» в первом лице «чаю» в книге из базы данных Google Books
Рис 25б Пример употребления существительного «чай» в родительном падеже в книге из базы данных Google Books
Примеры (рис.25а, 25б) показывают, что омонимия в архаической лексике в корпусе русских книг не снята. Попытка использовать тэг части речи, чтобы построить кривую встречаемости глагола в форме «чаю» (чаю_VERB) дала отрицательный результат: система сообщила, что такая N-грамма не найдена. Попытка построить кривые встречаемости форм словоизменительной парадигмы (рис 26) также оказались неудачными. Система выдала кривую встречаемости лишь одной формы - инфинитива.
Рис.26 Кривая встречаемости всех форм глагола «чаять». В верхней части сообщение «Search for “чаять_INF” yielded only one result» (Поиск по “чаять_INF” дал только один результат)
При этом, однако, при поиске без тэгов по формам «чаетъ», «чаешь» система дает частично релевантный результат: например, «Ты чаешь, сынъ? Сиди въ моихъ коленяхъ…» (из книги «Детская библиотека» 1817 г.). К сожалению, в результатах этих запросов искомые формы глагола перемешаны с переносами таких слов как (отме-)чает, (приме-) чаешь и т.п.
Если в описанном выше случае остается теоретическая возможность снять грамматическую омонимию (например, отрегулировать работу тэгов частей речи, хоть на наш взгляд такая задача исключительно сложна), то в случае со словами омонимами «брак» (изъян), и «брак» (женитьба) снять омонимию практически невозможно.
Рис 27а Пример употребления слова «брак» (изъян) в тексте из базы данных Google Books
Рис. 27б Пример употребления слова «брак» (женитьба) в тексте из базы данных Google Books google лингвистический график слово
Вывод
Система Google Books Ngram Viewer предоставляет беспрецедентные возможности для историко-культурных и лингвистических исследований. Огромные массивы размеченных текстов, возможность изучения поведения слов в нескольких языках одновременно, быстрота получения результатов, многие другие достоинства - все это делает систему исключительно ценным исследовательским инструментом.
Представляется также интересным сопоставить Google Books Ngram Viewer и сервис. НКРЯ «Графики», введенный в 2012 году.
Google Books Ngram Viewer - молодая и развивающаяся система. В ней постоянно происходят изменения: меняется объем корпусов, добавляются новые функции и т.д. Настоящее описание соответствует октябрю 2013 года.
Однако, в связи с тем, что набор корпусов очень большого объема создан, по-видимому, за очень короткий срок, имеются проблемы качества материала. Описанные нами ошибки и недостатки выявлены в ходе сравнительно небольшого предварительного (пилотного) исследования. По-видимому, целесообразно было бы провести более основательное исследование с применением современных методов статистической обработки данных, чтобы понять, как эти и другие проблемы влияют на достоверность получаемых результатов.
Список литературы
1. Захаров В.П., Бурыкин А.А. Наблюдения над орфографической нормой и вариантами в системе автоматической обработки текстов (материалы проекта "Библиотека лексикографа") // От буквы к словарю: Сб. науч. статей к 200-летию со дню рождения академика Я.К. Грота. СПБ., Наука, 2013. С.161-167.
2. Захаров В.П. Веб-пространство как языковой корпус// Компьютерная лингвистика и интеллектуальные технологии: Труды междунар. конф. «Диалог ‘2005» / Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея - М.: Наука, 2005. С. 166-171.
3. Масевич А.Ц. Проблема старой орфографии в текстах корпусов русского языка // Материалы науч. симпозиума «Ретроспектива филологии в информационном обществе знаний» 2013 http://www.retro.crimea.edu/publications/2013_4_masevich.swf
4. Поляков А.Е. Лемматизатор для дореформенной русской орфографии // Информационные технологии и письменное наследие: материалы IV междунар. науч. конф. (Петрозаводск, 3-8 сентября 2012 года).- Петрозаводск, Ижевск, 2012. - 328 с
5. Соловьев В.Д. Частотно-основанный подход к языковой динамике/ Труды международной конференции «Корпусная лингвистика -2013»СПБ, 2013 http://corpora.phil.spbu.ru/talks2013
6. Соловьев В.Д. Частотность как объект корпусных исследований/ труды международной конференции «Корпусная лингвистика-2011». СПБ,2011. С. 328-332. http://corpora.phil.spbu.ru/talks2011
7. Baroni Marco, Lenci Alessandro. Distributional memory: A general framework for corpus-based semantics. Computational Linguistics, 2010. Vol. 36(4): P. 673-721.
8. Davies. M. Google Books (American English) Corpus (155 billion words, 1810-2009). 2011. In http://googlebooks.byu.edu/
9. Google books Ngram Viewer [Электронный ресурс] http://books.google.com/ngrams
10. Michel J. B. et al. Quantitative Analysis of Culture Using Millions of Digitized Books science. Science 331, 176 (2011); DOI 1126/Science. 1199644 http://www.sciencemag.org/content/331/6014/176.full.html
Размещено на .ru
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы