Генератор псевдотекстов - Курсовая работа

бесплатно 0
4.5 45
Генераторы, основанные на псевдослучайном выборе букв или слов. Реализация алгоритмов генерации псевдотекстов. Приспособленность языка AWKа к обработке текстовой информации. Генератор псевдотекста с использованием SIMP-таблиц и инициализация массивов.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
В данной курсовой работе исследуются алгоритмы генерации псевдотекстов. Слова, из которых состоит псевдотекст, совсем необязательно существуют в реальном языке, так же как и сам псевдотекст может вовсе не иметь смысла. Псевдотексты играют огромную роль в жизни современного общества. Многие композиторы используют генераторы псевдотекстов для создания стихов к написанной ими музыке.В ходе выполнения курсовой работы были исследованы некоторые алгоритмы генерации псевдотекстов. Генераторы псевдотекста можно условно разделить на две категории: 1) генераторы, генерирующие псевдотекст последовательно, элемент за элементом.В ходе выполнения курсовой работы были исследованы 4 алгоритма генерации псевдотекста, основанные на псевдослучайном выборе букв или слов.Можно создать генератор, генерирующий текст с равными вероятностями появления каждой буквы. Из заданного алфавита выбирается одна из букв и помещается в выходную строку.Аналогично можно построить генератор, который псевдослучайным образом, с одинаковой вероятностью, генерирует не буквы, а слова.Эти вероятности можно приближенно определить, взяв достаточно большой отрывок, написанный по-русски, и рассчитав для него относительные частоты отдельных букв. Строго говоря, эти частоты могут несколько зависеть от характера текста. Еще больше отклонения от нормы в частоте употребления отдельных букв можно наблюдать в некоторых художественных произведениях, особенно в стихах. Поэтому для надежного определения средней частоты появления буквы желательно иметь набор различных текстов, заимствованных из различных источников.За буквой "ч" никак не могут появиться буквы "ы", "я" или "ю", а скорее будет стоять одна из гласных "и" или "е" или согласная "т" (слово "что") и т.д. Для построения генератора псевдотекста, использующего приведенные выше факты, необходимо взять текст на русском языке и вычислить вероятности появления в нем всех двухбуквенных сочетаний. Каждое такое сочетание можно разделить на 2 части - первую букву и вторую букву. Выбрав первую букву текста (можно произвольно, а можно и с учетом таблицы вероятностей), выбираем одно из двухбуквенных сочетаний, начинающихся с этой буквы. Вторая его буква записывается в генерируемую строку и далее рассматриваются сочетания, начинающиеся с этой буквы.Фирмой "Хониуэлл Иннкорпорейтед" разработан генератор псевдотекста, использующий SIMP-таблицы (Simplified Integrated Modular Prose - упрощенная интегрированная модульная проза). Данный генератор позволяет генерировать общеупотребительные псевдонаучные фразы. Его работа основана на генерации случайного четырехзначного числа и выборке из четырех SIMP-таблиц [1] соответствующих частей предложения. Например, если сгенерировано число 3672, а таблицы имеют следующий вид Что касается нашей конкретной задачи, то Таблица BКаждая строка входного файла сопоставляется с каждым шаблоном; если обнаружено соответствие, то выполняется соответствующее действие. Если шаблон не указан, то действие выполняется для каждой входной строки. Если не указано действие, то строка выводится на стандартный вывод. Шаблон BEGIN распознается перед началом чтения файла, шаблон END - после его окончания. У оператора for также имеется форма for (i in array) operator, при этом operator выполняется для i, принимающего последовательно значения всех индексов массива array.В данном генераторе имеется строка, в которой находятся буквы русского алфавита и пробел.Данный генератор содержит массив words, в который добавляется каждое слово, прочитанное из словаря. Словарь представляет собой текстовый файл, каждая строка которого содержит одно слово. После того, как весь файл будет прочитан, переменная n содержит количество слов, содержащихся в массиве words.Данная программа отличается от Программы 2 тем, что строка str не задана явно, а генерируется в процессе выполнения на основе статистических данных. Массив freq для каждой буквы содержит ее относительную частоту появления в тексте, умноженную на 1000. Каждая буква записывается в str столько раз, какого значение соответствующего элемента массива freq. Затем, как и в Программе 2, из str случайно выбираются и выводятся 200 букв. Каждый элемент массива nsuffix является количеством суффиксов (букв, следующих за четырьмя данными буквами), соответствующих данным четырем буквам, которые являются индексами этого массива.В данной программе массив a содержит строки таблицы #---------------------------------------------------------------BEGIN {a[1] = "В частности "a[2] = "С другой стороны, "a[3] = "Однако "a[4] = "Аналогично, "a[5] = "Таким образом "a[6] = "Нетрудно видеть, что "a[7] = "Как показывают приведенные выше соображения, "a[8] = "Например, "a[9] = "Итак, "a[0] = "Что касается нашей конкретной задачи, то "b[1] = "гиперповерхность в пространстве состояний "b[2] = "постоянн

План
Содержание

1. Введение

2. Алгоритмы генерации псевдотекстов

2.1. Генераторы, основанные на псевдослучайном выборе букв или слов

2.1.1. Генератор с равными вероятностями всех букв

2.1.2. Генератор с равными вероятностями всех слов

2.1.3. Генератор с различными вероятностями всех букв

2.1.4. Генератор с более сложным анализом вероятностей

2.2. Генератор, использующий SIMP-таблицы

3. Реализация алгоритмов генерации псевдотекстов

3.1. Генератор псевдотекста со случайным выбором букв без учета вероятностей их появления в текстах на русском языке

3.2. Генератор псевдотекста со случайным выбором слов без учета вероятностей их появления в текстах на русском языке

3.3. Генератор псевдотекста со случайным выбором букв с учетом вероятностей их появления в текстах на русском языке

3.4. Генератор псевдотекста, анализирующий вероятность появления в тексте буквы после четырех букв

3.5. Генератор псевдотекста с использованием SIMP-таблиц

4. Заключение

5. Библиография

Введение
В данной курсовой работе исследуются алгоритмы генерации псевдотекстов. Псевдотекст - это последовательность слов, пробелов и знаков препинания. Слова, из которых состоит псевдотекст, совсем необязательно существуют в реальном языке, так же как и сам псевдотекст может вовсе не иметь смысла. Псевдотексты играют огромную роль в жизни современного общества. Многие композиторы используют генераторы псевдотекстов для создания стихов к написанной ими музыке. Сама музыка также может быть сгенерирована подобными генераторами. Многие газетные и журнальные статьи тоже генерируются компьютерами. При этом используются профессиональные генераторы псевдотекстов, генерирующие текст, мало отличимый от текста, созданного человеком. В связи с вышесказанным, данная курсовая работа является очень актуальной.

Перед автором были поставлены следующие задачи: 1) изучение алгоритмов генерации псевдотекста;

2) реализация изученных алгоритмов;

3) подведение итога выполненной работы.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?