Компьютерные программы, автоматизирующие оценку объектов и контент-анализ текста - Статья

бесплатно 0
4.5 151
Использование математических методов для оценки дидактических объектов. Способы автоматизации оценки объектов методом парных сравнений и определения различных видов информации в тексте с помощью компьютера. Возможности программ, написанных в Free Pascal.


Аннотация к работе
Так, для оценки 30 объектов методом парных сравнений необходимо осуществить не менее 450 различных сопоставлений, в ходе каждого из которых эксперт должен соотнести степень наличия оцениваемого качества в двух сравниваемых объектах. Повысить объективность контент-анализа учебного текста и повторяемость получающихся результатов возможно с помощью компьютерной программы, которая, используя словарь-тезаурус, подсчитывает частоты упоминания различных терминов в текстовом файле, учитывает их сложность и принадлежность к тому или иному классу. Работа эксперта в этом случае сводится к следующему: 1) составление словаря-тезауруса; 2) классификация и оценка входящих в него терминов; 3) подготовка файла с анализируемым текстом; 4) запуск программы анализирующей текст; 5) интерпретация результатов. Программа написана так, что понятие с номером N0 не сравнивается с собой (известно, что результат “0”) и не сравнивается дважды ни с каким другим понятием. 2.1), программа создает текстовый файл vihod.txt из одной строки, содержащий номер объекта N0=8 и результаты его сравнений с понятием 1, понятием 2, …., понятием N в виде “ … 0 0 - … - 0 --” (рис.В статье предложены простые варианты решения проблемы автоматизации оценки объектов методом парных сравнений и определения количества различных видов информации в тексте. Сравнение, оценка и ранжирование объектов, а также определение количества различных видов информации в тексте - важные процедуры измерения, использующиеся в гуманитарных науках.

Введение
В последнее время повысился интерес к применению математических методов в педагогике [2, 3]. Для использования математических моделей, установления качественных и количественных закономерностей необходимо уметь оценивать различные качества педагогических объектов, уровень знаний учеником учебного материала, сложность понятия, формулы, темы, задачи, информативность рисунка и т.д. Также большое значение имеет проблема определения количества того или иного вида информации (например, эмпирической, теоретической, математической) в учебном тексте, лекции, ответе ученика.

Оценка и ранжирование нескольких десятков объектов - довольно трудоемкий процесс для того, чтобы его выполнять вручную. Так, для оценки 30 объектов методом парных сравнений необходимо осуществить не менее 450 различных сопоставлений, в ходе каждого из которых эксперт должен соотнести степень наличия оцениваемого качества в двух сравниваемых объектах. Поэтому лучше автоматизировать этот процесс с помощью компьютерной программы, которая случайным образом предъявляет сравниваемые объекты, воспринимает ответы эксперта и записывает результаты в файл. При этом важно, чтобы эксперт имел возможность сделать перерыв, сохранить результаты, а на следующий день вернуться и продолжить работу.

Контент-анализ многостраничных текстов, подсчет различных терминов-маркеров самим экспертом - дело трудоемкое, а его результат зависит от различных случайных факторов. Повысить объективность контент-анализа учебного текста и повторяемость получающихся результатов возможно с помощью компьютерной программы, которая, используя словарь-тезаурус, подсчитывает частоты упоминания различных терминов в текстовом файле, учитывает их сложность и принадлежность к тому или иному классу. Работа эксперта в этом случае сводится к следующему: 1) составление словаря-тезауруса; 2) классификация и оценка входящих в него терминов; 3) подготовка файла с анализируемым текстом; 4) запуск программы анализирующей текст; 5) интерпретация результатов.

1. Программа для парного сравнения объектов

Для оценки объектов методом парных сравнений используется программа ПР-1, написанная в среде Free Pascal (рис. 1). Допустим, необходимо оценить сложность понятий [7, 9] из школьного курса физики. С помощью Far_manager создают файл vhod.txt, содержащий список из N=25 оцениваемых понятий (рис. 2.1), случайно выбирают понятие с номером N0=8 и запускают компьютерную программу ПР-1. На экране появляются понятие N0=8, а строчкой ниже - случайным образом выбранное понятие из списка, например, понятие 12. Эксперт должен сравнить оцениваемые качества этих двух объектов и ввести с клавиатуры символы “ ”, “0” или “-“. Плюс означает, что оцениваемого качества в объекте 1 больше, чем в объекте 2, ноль - примерно одинаково, а минус - меньше, чем в объекте 2.

IMG_1179d4b3-1489-4cd4-afd7-1e06a4893a5c

После нажатия на клавишу “Enter” снова появляется понятие с номером N0=8 и случайно выбранное понятие 23. Эксперт снова производит сравнение и ставит оценку “ ”, “-“ или “0”. Программа написана так, что понятие с номером N0 не сравнивается с собой (известно, что результат “0”) и не сравнивается дважды ни с каким другим понятием. После окончания процедуры сравнения понятия 8 со всеми остальными понятиями из входного файла (рис. 2.1), программа создает текстовый файл vihod.txt из одной строки, содержащий номер объекта N0=8 и результаты его сравнений с понятием 1, понятием 2, …., понятием N в виде “ … 0 0 - … - 0 - -” (рис. 2.2). Затем эксперт повторяет ту же самую процедуру с другим объектом, например, с понятием N0=10. В случае необходимости эксперт может сделать перерыв или отложить процедуру сравнения на следующий день. С помощью текстового редактора из получающихся строчек (рис. 2.2) формируется двумерная матрица NXN, похожая на представленную на рис. 2.3. В результате полного перебора всего списка понятий каждая пара понятий сравнивалась дважды (сначала i-ое с j-тым, а потом наоборот), что позволяет уменьшить влияние случайных факторов. Результаты сравнения двух объектов записываются на пересечении соответствующих строки и столбца. С левого верхнего угла к правому нижнему идет диагональ из нулей.

IMG_e8f17d20-dcbe-4b37-bab7-fdd9ab904f55

IMG_3dec9827-8afe-496b-b321-9d2706cdd4cd

Для получения оценок объектов получившаяся двумерная матрица из плюсов, нулей и единиц (рис. 2.3) анализируется программой ПР-2 (рис. 3), которая для каждой i-ой строки находит сумму всех плюсов и из нее вычитает сумму всех минусов. Получающийся результат A_i для каждой строки выводится на экран. Если в программе ПР-2 активизировать x[j,i] и закомментировать x[i,j], то она аналогичным образом обработает столбцы матрицы. Соответствующие результаты B_i (i=1, 2, …, N) выводятся на экран. Величина K оцениваемого качества i-ого объекта считается пропорциональной разности A_i-B_i. К ней можно прибавить некоторую постоянную и результат умножить на коэффициент так, чтобы максимальное значение характеристики K равнялось единице, а минимальное - нулю.

2. Программа для контент-анализа текста

Метод контент-анализа, заключается в “переводе в количественные показатели массовой текстовой информации” и их последующей статистической обработке [1]. Для оценки количества содержащихся в тексте эмпирических, теоретических и математических знаний следует определить число использований “эмпирических” терминов (обозначающих объекты и явления, приборы и устройства), “теоретических” терминов (названия физических величин), математических терминов (математические величины, операции, символы в формулах) и общенаучных терминов (например, “докажем”, “измерения”, “проанализируем” и т.д.). Единицей измерения объема информации является одно упоминание термина. Так как в русском языке средняя длина слова 6,3 буквы (включая пробел), то для нахождения суммарного числа слов N (объема информации в тексте I) достаточно общее количество букв разделить на 6,3.

Методика такого качественно-количественного анализа содержания учебных текстов предполагает выбор исчерпывающих и взаимоисключающих критериев и определение правила для надежного фиксирования нужных характеристик текста так, чтобы получающиеся результаты не зависели от эксперта, имели высокую повторяемость и отражали объективные характеристики текста [1]. Физический текст включает в себя собственно текстовую информацию, рисунки (графическая информация) и формулы. Чтобы оценить количество информации в рисунках и формулах будем заменять их максимально короткими предложениями, которые полно передают заключенную в них учебную информацию. Речь идет о полезной информации, необходимой для усвоения соответствующего параграфа учебника (ненужная информация, содержащаяся в рисунках не учитывается).

Приближенно можно считать, что количество “формульной” информации пропорционально числу математических символов, встречающихся в тексте и в формулах. Каждый символ соответствует некоторому понятию. Сложность символов будем оценивать по пятибальной шкале: 1. Сложность S=1: одиночные символы (не вектора), сумма, разность, произведение и деление. 2. Сложность S=2: возведение в степень, извлечение корня, сложение и вычитание векторов. 3. Сложность S=3: формула содержит тригонометрические функции, логарифмы, скалярное произведение векторов. 4. Сложность S=4: пределы, дифференциалы, производные, векторное произведение. 5. Сложность S=5: интегралы, операторы и т.д. Подсчитывается число математических символов в параграфе со сложностью S=1, 2, 3, 4, 5, и результаты присваиваются элементам матрицы mat_sim[i] (программа Analizer, процедура Formuli).

IMG_fd886274-98cb-4a81-828d-3bed3f9d01be

На рис. 4 представлена специальная программа Analyzer (среда Free Pascal), которая, используя словарь-тезаурус, подсчитывает частоты упоминания различных физических и математических терминов в текстовом файле. Контент-анализ текста осуществляется следующим образом: 1. Определяют сложность и количество “формульной” информации путем подсчета числа математических символов различной сложности в тексте и формулах; результаты вводят в mat_sim[i]. 2. Заменяют рисунки краткими описаниями, содержащими информацию об изображенных на рисунках физических и математических объектах. 3. Создают текстовый файл в формате vhod1.txt, содержащий анализируемый текст с описаниями рисунков без формул (рис. 5). 4. Составляют список физических математических и общенаучных терминов, встречающихся в данном тексте. Для этого используют программы Word_stat, Word_count, Word_statistic, которые можно найти в Интернете. 5. Создают словарь-тезаурус текста, содержащий общие части однокоренных терминов (например, слова дифракция, дифрагировать, дифракционный - общая часть “дифра”), который сохраняют в файле slovar.txt (рис. 6.1). 6. Каждый термин относят к одному из классов “эмпирический”, “теоретический”, “математический”, “общенаучный”, и оценивают его сложность по шкале 1-2-3; результаты записывают в файл slovar.txt. 7. Запускают программу Analyzer, которая обращаясь к файлу slovar.txt, анализирует текст, хранящийся в файле vhod1.txt, а результаты записывает в файл vihod1.txt. Также создается профиль текста, состоящий из матрицы наиболее часто встречающихся слов и их частот (рис. 6.2). 8. Интерпретируют полученные результаты, создают таблицы, строят гистограммы и т.д.

IMG_bfd45d84-49fa-4320-b910-482b45d5f89a

IMG_c3cad228-9bb2-4086-98ee-412f72006009

Вывод
В статье предложены простые варианты решения проблемы автоматизации оценки объектов методом парных сравнений и определения количества различных видов информации в тексте. Сравнение, оценка и ранжирование объектов, а также определение количества различных видов информации в тексте - важные процедуры измерения, использующиеся в гуманитарных науках. С помощью программ ПР-1 и ПР-2 (рис. 1 и 3), помогающих реализовать метод парных сравнений, удалось оценить дидактическую сложность понятий, обозначающих физические приборы, величины и физические эксперименты [7, 9]. Все это позволило осуществить классификацию учебников и тем школьного курса физики на основе оценки их физической и математической сложности, установить закономерности распределения учебного материала [5, 6, 8]. Программа ПР-3 (рис. 4) применялась для контент-анализа параграфов различных учебников физики [4].

Список литературы
1. Аверьянов Л.Я. Контент-анализ. Монография. М.: РГИУ, 2007. 286 с.

2. Битинас Б. Многомерный анализ в педагогике и педагогической психологии. Вильнюс, 1971. 347 с.

3. Дюк В.А. Компьютерная психодиагностика. С.П.: Братство, 1994. 364 с.

4. Майер Р.В. Автоматизированный метод количества различных видов информации и ее сложности в физическом тексте с помощью ПЭВМ // ”Известия высших учебных заведений. Поволжский регион. Гуманитарные науки”. N3 2014. С. 203 - 212.

5. Майер Р.В. Классификация тем школьного курса физики на основе оценки их физической и математической сложности // Инновации в образовании. 2014. № 9. С. 29-38.

6. Майер Р. В. Метод оценки физической сложности тем школьного курса физики // Концепт. 2014. № 08 (август). ART 14199. URL: http://e-koncept.ru/2014/14199.htm . Гос. рег. Эл. No ФС 77-49965.

7. Майер Р.В. Оценка дидактической сложности физических понятий методом парных сравнений // Мир науки. Научный интернет-журнал [Электронный ресурс]. 2014, Выпуск 3. 8 с. http://mir-nauki.com .

8. Майер Р.В. Оценка дидактической сложности различных учебников физики // Современные научные исследования и инновации. Май 2014. № 5 [Электронный ресурс]. URL: .

9. Майер Р.В. Эффективный метод оценки дидактической сложности физических понятий // Фундамент. исследования. N 11. 2014. C. 904-909.

10. Психосемантика слова и лингвостатистика текста: Методические рекомендации к спецкурсу / Сост. А.П. Варфоломеев. Калининград: Калинингр. Ун-т, 2000. 37 с.

11. Толстова Ю.Н. Основы многомерного шкалирования: учебное пособие. М.: КДУ, 2006. 160 с.

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?