Разработка словаря фонем и морфем узбекского языка на основе информации в Uznet (Для дальнейшего внедрения в Google translator) - Диссертация

бесплатно 0
4.5 214
Специфика узбекского языка. Корпусное исследование подъязыка предметной области. Обоснование выбора средств и технологий разработки. Программная реализация морфологического словаря. Структура базы данных. Интеллектуальный морфологический анализатор.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
государственный комитет связи, информатизации И ТЕЛЕКОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ Диссертация на соискание академической степени магистра Разработка словаря фонем и морфем узбекского языка на основе информации в Uznet (Для дальнейшего внедрения в Google translator)Проблема обработки текстов на узбекском языке, «понимания» языка компьютером была и остается актуальной. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Существующая практика разработки программного обеспечения в Узбекистане базируется в основном на статическом подходе и мало освоена отечественными программистами. Средствами исследования являются инструменты Angular JS, Framework Kohana, Microsoft Excel, СУБД MYSQL, язык PHP с библиотекой Angular Framework. The existing practice of software development in Uzbekistan is mainly based on a static approach and few mastered domestic programmers.The existing practice of software development in Uzbekistan is mainly based on the structural-functional approach and is mastered by domestic programmersa little.В данном документе были утверждены программы дальнейшего внедрения и развития информационно - коммуникационных технологий в стране на 2012-2014 годы и перечень ИС органов государственного и хозяйственного управления, органов государственной власти на местах, интегрируемых в Национальную ИС в период 2012-2014 годов. 25 апреля 2014 года состоялась заседание Коллегии Государственного комитета связи, информатизации и телекоммуникационных технологий, посвященных итогам работы отрасли за первый квартал 2014 года, ходу внедрения и развития информационно-коммуникационных технологий, определению перспектив и направлений дальнейшей деятельности. Важным, едва ли не центробразующим звеном цепи автоматической обработки текста на естественном языке является технология нахождения основы слова (стемминг), родственный ей по целям алгоритм (лемматизация), позволяющий определить, что некоторая цепь словоформ составляет одно «словоизменительное гнездо» (имеет одну лемму). Актуальность темы исследования.Проблема обработки текстов на узбекском языке, «понимания» языка компьютером была и остается актуальной. Среди множества задач, которые сводятся к решению данной проблемы, можно назвать такие, как общение с компьютером на естественном языке, информационный поиск, машинный перевод, извлечение содержательной информации из текстов, пополнение баз знаний и создание конкордансов - словарей, содержащих слова из всех работ одного автора.В узбекском языке шесть самостоятельных частей речи: ot(существительное), sifat (прилагательное), son (числительное), olmosh(местоимение), fe’l (глагол), ravish (наречие); три служебных частей речи: ко‘makchi (послелог), bog‘ lovchi (союз), yuklama (частица).Кроме того в узбекском языке три особых групп слов: undov (междометие), modal so‘z (модальные слова), taqlidiy so‘z(подражательные слова). Имена существительные в узбекском языке имеют триграмматических категорий две из них kelishik (падеж) и son (число)является постоянными, egalik (принадлежность) не постоянной, т.е.имена существительные всегда находятся в форме того или иногопадежа, в единственном или множественном числах. Слово в этом падежеуказывает на принадлежность другого предмета, т.е. притягивает ксебе идущее за ним слово: Karimning kitobi - книга Карима kitob varag‘i - страница книги. Если слово в притяжательном падеже и слово, связанное с ним находятся в дистантном отношении, т.е. между ними идет другое, слово в притяжательном падеже оформляется объязательно: Toshkent ko‘chalari (улицы Ташкента)-Toshkentning Navoiy ko‘chasi (улица Навои Ташкента). При прибавлении аффиксов данного падежа происходят следующие изменеия: Если слово закончивается на звук k то аффикс этого падежа произносится и пишется в форме-ка: to‘garakka (в кружок) chelakka (в ведро), tilakka (пожеланию).Морфологический анализатор это набор алгоритмов, которые занимается сопоставлением отдельных слов и словоформ в словаре (лексиконе, если быть точным) и выяснением грамматических характеристик слов. При необходимости для выбранных решений можно повторить морфологический анализ, конкретизируя узлы (оси) и варианты. Программа «Basmorph» предназначена для разбора словоформ башкирского языка, установления их основы, состава и грамматического значения аффиксов, добавляемых к основе при словоизменении и отчасти словообразовании (программа умеет определять словообразовательный аффикс абстрактных существительных-лы?/-лек и аффикс деятеля-сы/-се). Для слов, отсутствующих в словаре, порождаются гипотезы, может работать и без словаря эвристическим способом. Словари ispell обычно состоят из двух файлов: файл с правилами генерации словоформ (так называемый affix-файл) и собственно словарь, где для каждого слова указаны номера правил, которые нужно применить к этому слову.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?