Компьютерный анализ текста - Реферат

бесплатно 0
4.5 50
История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
Компьютерный анализ текста на естественном языке активно развивается в последние годы многими коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных и др. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью."analysis" - разложение) - метод научного исследования (познания) явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы. Аналитические методы широко распространены в социуме, поэтому термин "Анализ" часто воспринимается как синоним исследования вообще и особенно при решении познавательных задач. Анализа является составной частью любого научного исследования, образуя, как правило, его первую стадию, когда исследователь выявляет в описании изучаемого объекта его строение, состав, свойства, признаки и т.п. Такой анализ ориентирован на выявление структуры целого, предполагая фиксацию его частей и установление отношений между ними. Анализ документов - это метод сбора первичных данных, при котором документы используются в качестве главного источника информации; это также совокупность методических приемов и процедур, применяемых для извлечения информации из документальных источников при изучении процессов и явлений в целях решения определенных задач.Так, на стыке биологии и инженерных наук возникла бионика, на стыке психологии и лингвистики - психолингвистика, а на стыке вычислительной техники и лингвистики родилась наука, о которой и пойдет речь дальше. Появление ЭВМ укрепило эти надежды, так как многим языковедам с самого начала было ясно, что компьютеры - это не только "быстро работающие арифмометры", но и мощное средство для автоматизации работы с текстами. К началу 70-х гг. компьютерная лингвистика получила "права гражданства": стали выходить специальные сборники и журналы по компьютерной лингвистике, создавались соответствующие лекции на лингвистических конференциях и конференциях по искусственному интеллекту и, наконец, стали созываться всемирные форумы, посвященные исключительно проблемам этой науки. Лингвисты давно изучают, как устроен текст, и, прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, - автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ.Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных. К сожалению, внедрение математических методов в обработку текста происходит в то время, когда собственно лингвистическая составляющая алгоритмов представлена явно недостаточно, и это не позволяет достичь высокого качества работы прикладных систем. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью. Создание качественного синтаксического анализатора позволяет надеяться на эффективное решение задачи поиска в информации на естественном языке. Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том числе для различных слов (например, "стали" у существительного "сталь" и глагола "стать"), в ходе анализа необходимо производить свертку предложения для всех возможных вариантов.Извлечение информации (англ. information extraction) - в области обработки естественного языка, это разновидность информационного поиска, при которой из неструктурированного машинно-читаемого текста (то есть электронных документов) выделяется некая структурированная информация, то есть категоризированные, семантически значимые данные по какой-либо проблеме или вопросу. Примером извлечения информации может послужить выискивание случаев деловых визитов - формально это записывается так: Нанесли Визит (Компания-Кто, Компания-Кому, Дата Визита), - из новостных лент, таких как: "Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз". В современных информационных технологиях роль такой процедуры, как извлечение ин

План
Оглавление

Введение

Глава 1. Анализ текста

Глава 2. Компьютерный анализ текста

2.1 Понятие компьютерного анализа. История развития

2.2 Проблемы компьютерного анализа текста

2.3 Извлечение информации

2.4 Обработка естественного языка

Глава 3. Программы для компьютерного анализа текста

3.1 Машинный перевод

3.2 Лингвистическое программное обеспечение

3.3 Программы для компьютерного анализа текста

Заключение

Библиографический список и сайтография

Введение
Компьютерный анализ текста на естественном языке активно развивается в последние годы многими коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных и др.

К сожалению, внедрение математических методов в обработку текста происходит в то время, когда собственно лингвистическая составляющая алгоритмов представлена явно недостаточно, и это не позволяет достичь высокого качества работы прикладных систем. Устойчивый уклон в область статистических методов анализа привел к тому, что компьютерная лингвистика оказалась невостребованной. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью.

Цель, которую поставила перед собой автор данной работы - это выяснить, что такое компьютерный анализ текста.

При этом необходимо решить следующие задачи: - ознакомиться с понятием анализ текста;

- рассмотреть, что понимается под компьютерным анализом текста;

- ознакомиться с историей развития компьютерного анализа текста;

- выявить проблемы компьютерного анализа текста;

- привести некоторые программы, используемые при компьютерном анализе текста.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?