Характеристика Русского Учебного Корпуса. Типы ошибок в русском учебном корпусе, совместная встречаемость тегов, алгоритм классификации. Проблема несбалансированности выборки. Результаты классификации, вклад признаков в различные классификаторы.
Аннотация к работе
Основная часть Формальная постановка задачи О Русском Учебном Корпусе Типы ошибок в русском учебном корпусе Совместная встречаемость тегов Алгоритм классификации Использованные признаки Проблема несбалансированности выборки Результаты классификации Вклад признаков в различные классификаторы Заключение Литература Введение учебный корпус тег классификатор Изучение нестандартной, «неполноценной» речи, то есть эритажного (унаследованного вне собственной языковой среды) и второго (усвоенного после родного) языка началось еще в первой половине 20-го века, однако все ранние работы на эти темы посвящены скорее культурным аспектам освоения, потери языка и методологии его преподавания, чем лингвистической стороне вопроса. Первым типом ошибок, на который обратили внимание исследователи, были ошибки, вызванные влиянием родного языка говорящего на изучаемый язык. Например, в работе An error in error analysis ([Schachter 1974]) показано, что лингвистический анализ японского и китайского языка позволяет предсказать наличие ошибок у носителей этих языков в использовании относительных предложений в английском языке. В исследовании [Helmut Zobl 1980] обсуждается, что различие в порядке слов в предложениях, где прямое дополнение выражено местоимением, вызывает ошибки у носителей английского, изучающих французский, но не наоборот. До настоящего времени подобные системы широко применяются для коррекции употребления артиклей и предлогов, то есть закрытых классов слов, когда для употребления каждого слова из класса можно построить модель. Например, в статье [Рахилина 2016] показано, что эффекты интерференции с доминантным языком в русском языке могут послужить материалом для уточнения грамматического описания русского языка: ошибки помогают обратить внимание на существующие правила. Елена Клячко попробовала использовать для исправления ошибок n-граммную модель, построенную на гугл n-граммах, однако тренировочных данных оказалось недостаточно для качественного определения ошибочных n-грамм в текстах.