Обоснование согласованности концепции универсального системообразующего фактора с представлением о вероятностном прогнозировании. Разработка и апробация способа оптимизации процесса выработки у человека неосознаваемых субсенсорных условных реакций.
При низкой оригинальности работы "Концепция системообразующего фактора в теории функциональных систем", Вы можете повысить уникальность этой работы до 80-100%
Вместе с тем, его учет представляется необходимым при анализе ВНД в вероятностно организованной ("случайной") среде (Батуев А.С., 2005; Фейгенберг И.М., 2008; Wilde G.S., 1998; Brune H., 2003; LEPELLEY M.E. e. a., 2004), обычно воспроизводимой в эксперименте на основе неоднозначной для индивидуума связи между условным раздражителем и подкреплением (вероятностный характер безусловного раздражителя, околопороговая интенсивность условного стимула, варьирование межстимульных интервалов и т.д.); «жестко детерминированная» среда при этом рассматривается как частный случай. За исключением ключевого положения о вероятностном прогнозировании, эта трактовка соответствует биологической теории эмоций, ранее разработанной в рамках ТФС (положительные эмоции возникают при совпадении достигнутого результата с прогнозом аппарата акцептора, отрицательные - при несовпадении). Цель работы: изучить механизмы информационной патологии ВНД в рамках ТФС, интегрированной с представлением о вероятностном прогнозировании на основе концепции о системообразующей роли полезного результата. На основе концепции системообразующего фактора интегрировать модель поведенческого акта и принцип системного квантования (от потребности к ее удовлетворению), с одной стороны, и представление о вероятностном прогнозировании, с другой. В рамках ТФС, интегрированной с представлением о вероятностном прогнозировании, провести компьютерное моделирование условнорефлекторной деятельности в "случайной" среде; сопоставить выявленные закономерности с экспериментальными данными, известными из литературы.
Список литературы
По теме диссертации опубликовано 33 печатных работы (из них - одна монография).
Структура и объем диссертации
Диссертация изложена на 174 страницах машинописи, содержит введение, обзор литературы, материал и методы исследования, главу полученных результатов и их обсуждение, заключение, выводы, список литературы. Работа содержит 16 рисунков и 12 таблиц. Список литературы включает 392 источника, из которых 167 - в отечественных изданиях.
МАТЕРИАЛ И МЕТОДЫ
Исследование с участием практически здоровых лиц в возрасте от 18 до 35 лет (всего 34 человека, из них 3 женщины) проводилось в соответствии с требованиями межвузовского комитета по этике при ассоциации медицинских и фармацевтических вузов. Опыты на животных выполнены на белых беспородных крысах-самцах массой 250-310 г (всего 258 животных). Также проводилась компьютерная имитация условнорефлекторного обучения при различных сочетаниях параметров вероятностно организованной среды (более 32 000 имитационных экспериментов). Исследования на испытуемых-добровольцах проведены автором лично, эксперименты на животных - совместно в А.В.Толокновым и Н.К.Хитровым. Первичная и статистическая обработка данных, анализ литературы, разработка теоретических положений и выводов, подготовка текстов публикаций, а также компьютерных программ (имитационного моделирования условнорефлекторного обучения, неосознаваемой ритмической стимуляции) сделаны автором лично.
В 1-й, 2-й и 4-й сериях экспериментов на животных вырабатывали инструментальный рефлекс нажатия на педаль на фоне светового (в 3-й серии - звукового) условного сигнала. Подкрепляющим было электрокожное раздражение лап через решетку пола, превышающее болевой порог на 20-30% и длящееся 5 с. Если при этом осуществлялось нажатие на педаль, электрокожное раздражение досрочно прекращалось, что стимулировало поисковые (пробные) инструментальные реакции. Крысы могли полностью избежать электрокожного раздражения при правильном выполнении инструментального акта (нажатии на педаль в период действия условного сигнала). При этом в одних экспериментальных группах электрокожная стимуляция отменялась в 100% случаев, тогда как в других использовали 50% или 25%-е вероятностное подкрепление. Ежедневно в каждом опыте предъявляли 40 сочетаний.
При определении продолжительности условной стимуляции и межстимульных интервалов не учитывалось время нажатия на педаль; животное удалялось с педали, если длительность нажатия превышала 15 с. При определении длительности интервалов между условными сигналами не учитывалось также время электрокожной стимуляции и период в 2 с после нее (необходимый для прекращения хаотических перемещений и восстановления поисковой активности), а выполняемые при этом нажатия как поисковые реакции не учитывались. Рефлекс считали выработанным при достоверном превышении общего (за все опыты с данным животным) числа правильных реакций над априорным уровнем их случайного осуществления (Салтыков А.Б. и др., 1986). Для этого использовали критерий c2, р < 0,05.
Эмоциональное напряжение оценивали по частоте дефекации, интенсивности хаотичных перемещений, визгу, царапаньям клетки (Хананашвили М.М., 1983, 2008). Если от опыта к опыту нарастало эмоциональное безразличие к стимуляции, снижались поисковая активность и масса тела, выпадала шерсть и наблюдались другие признаки приобретенной беспомощности, животное устранялось из эксперимента.
В 1-й серии крысы были разделены на 4 группы по 10 особей в каждой (табл. 1). Интервалы между условными стимулами задавали по таблице случайных чисел: для 1-й и 3-й групп они колебались от 1 до 113 с (в среднем 57 с), для 2-й и 4-й от 1 до 17 с (в среднем 9 с). При равномерном во времени распределении поисковых инструментальных реакций (до выявления связи между условным сигналом и подкреплением) априорная вероятность случайного нажатия на педаль на фоне 3-секундного горения лампочки в 1-й и 3-й группах составляла 3 с / (3 с 57 с) = 0,05, а во 2-й и 4-й - 3 с / (3 с 9 с) = 0,25. В 1-й и 2-й группах
Таблица 1
Условия выработки инструментального оборонительного рефлекса у крыс 1-й серии (ВСПР - вероятность случайной правильной реакции; в скобках - математическое ожидание варьируемых величин)
№ группы ВСПР Продолжительность Частота подкрепления правильных реакций, % условного сигнала, с Интервалов между условными сигналами, с
1 2 3 4 0,05 0,25 0,05 0,25 3 3 3 3 1-113 (57) 1-17 (9) 1-113 (57) 1-17 (9) 100 100 50 50 применяли 100%-е подкрепление правильных реакций, а в 3-й и 4-й - 50%-е (определяемое по таблице случайных чисел).
Во 2-й серии было 8 групп по 8 особей в каждой. В группах I-IV правильные инструментальные реакции подкреплялись отменой электрокожной стимуляции в 100% случаев, а в группах V-VIII - в 25%. В каждой группе длительности светового стимула и межстимульного периода подбирали так, чтобы их суммарная продолжительность в среднем равнялась 40 с (табл. 2). Длительность каждого условного стимула определяли по таблице случайных чисел. Продолжительность последующего межстимульного интервала зависела от длительности предшествовавшей условной стимуляции: в группах I и V они были одинаковыми, в группах II и VI межстимульный интервал превышал
Таблица 2
Условия выработки инструментального оборонительного рефлекса у крыс 2-й серии (в скобках указано математическое ожидание варьируемых величин)
№ группы ВСПР Продолжительность Частота подкрепления правильных реакций, % условного сигнала, с Интервалов между условными сигналами, с
I II II IV V VI VII VIII 0,5 0,25 0,125 0,05 0,5 0,25 0,125 0,05 1 - 39 (20) 1 - 19 (10) 1 - 9 (5) 1 - 3 (2) 1 - 39 (20) 1 - 19 (10) 1 - 9 (5) 1 - 3 (2) 1 -39 (20) 3 - 57 (30) 7 - 63 (35) 19 - 57 (38) 1 - 39 (20) 3-57 (30) 7 - 63 (35) 19 - 57 (38) 100 100 100 100 25 25 25 25 предшествующий условный сигнал в 3 раза, в III и VII - в 7 раз, в IV и VIII - в 19 раз. До выявления связи между условным сигналом и подкреплением ВСПР для указанных пар групп составило (табл. 2): 20 с / (20 с 20 с) = 0,5; 10 с / (10 с 30 с) = 0,25; 5 с / (5 с 35 с) = 0,125; 2 с / (2 с 38 с) = 0,05.
В 3-й серии предъявлялся звуковой условный сигнал при 100%-м подкреплении правильных реакций. Было сформировано 8 групп животных по 9 особей в каждой. В группах 1, 3, 5, 7 использовали сильный звуковой раздражитель (60 ДБ), в группах 2, 4, 6, 8 - слабый (20 ДБ). Условия эксперимента подбирали так, чтобы в разных группах продолжительность межстимульных интервалов и/или интенсивность условной стимуляции были разными (табл. 3).
ВСПР в 1-й и 2-й группах составляла 2 с / (2 с 38 с) = 0,05; в 3-й и 4-й - 10 с / (10 с 30 с) = 0,25; и т.д. Эксперимент был автоматизирован на базе компьютера
Таблица 3
Условия выработки инструментального оборонительного рефлекса у крыс 3-й серии
№ группы ВСПР Продолжительность Интенсивность звукового условного стимула, ДБ условного сигнала, с Интервалов между условными сигналами, с.
4-я серия экспериментов уточняла динамику поисковой инструментальной активности в различные периоды обучения при 100%-м режиме подкрепления, условным был световой сигнал. Животных разделили на 4 группы по 10 особей в каждой (табл. 4). До момента выявления связи между условным сигналом и подкреплением априорная вероятность случайного нажатия на педаль на фоне горения лампы в 1-й группе равнялась 3 с / (3 с 57 с) = 0,05, во 2-й - 3 с / (3 с 9 с) = 0,25 и т.д.
Таблица 4
Условия выработки инструментального оборонительного рефлекса у крыс 4-й серии (в скобках указано математическое ожидание варьируемых величин)
№ группы ВСПР Продолжительность, с условного сигнала интервалов между условными сигналами
Неосознаваемая ритмическая стимуляция испытуемых-добровольцев осуществлялась с помощью компьютера IBM PC/AT c дисплеем EGA. Первоначально в течение 5 мин навязывался высокоамплитудный ?-ритм ЭЭГ частотой 10 Гц с предъявлением неосознаваемого раздражителя в электронегативные фазы (всего 3000 сочетаний). Каждый 100-мс цикл эксперимента начинался с белой вспышки (длительностью 20 мс, яркостью 40 кд/м2) всего экрана дисплея. Через 35 мс в центре экрана с той же яркостью белыми буквами высвечивался неосознаваемый стимул (слово размером 1,8*0,5 см), содержащий информацию, облегчающую последующую когнитивную деятельность. На 65-й мс цикла неосознаваемый стимул устранялся, а его место "забивалось" символами "Х".
Через 3 мин после прекращения неосознаваемой стимуляции выполнялось тестовое задание, предполагающее когнитивную деятельность. В экспериментальную группу входило 12 чел. Проведены 2 контрольных исследования: в одном из них (10 чел.) в процессе неосознаваемой стимуляции не навязывался ?-ритм ЭЭГ; в другом (12 чел.) - отсутствовала неосознаваемая стимуляция перед выполнением "когнитивного" теста.
Компьютерную имитацию процесса выработки инструментального рефлекса в вероятностно организованной среде осуществляли на "Плюримат" (Франция). Для каждой комбинации изучаемых параметров проводили по 50 имитационных экспериментов, что позволяло вычислять среднее арифметическое числа необходимых для обучения поисковых инструментальных реакций, а также доверительный интервал. Всего выполнено около 32 000 имитационных экспериментов.
Статистическая обработка проводилась на основе непараметрических критериев: U (Манна-Уитни), c2. Для наглядного представления экспериментальных данных подсчитывались средние арифметические величины и их 95%-е доверительные интервалы.
Результаты исследования и их обсуждение
1. Обоснование соответствия вероятностного прогнозирования концепции системообразующего фактора
Традиционное для ТФС игнорирование вероятностных оценок обусловлено определенной трактовкой системообразующего фактора, не имеющей универсального значения. Она предполагает незамедлительное упорядочивание межкомпонентных связей сразу после достижения полезного результата (полного или частичного удовлетворения потребности) и столь же быстрый их распад при внезапном его отсутствии (Анохин П.К., 1978; Судаков К.В., 1984, 2006). Такая трактовка акцентирует внимание на отдельно взятом (последнем) поведенческом акте, делая избыточной комплексную оценку совокупности поведенческих реакций (необходимую для выявления вероятности интересующего события). Указанный акцент подчеркивается даже названием известной модели (рис. 1) и затрудняет анализ ВНД в "случайных" средах.
Рис. 1 Модель поведенческого акта (Анохин П.К., 1970). ПА - пусковая, ОА - обстановочная афферентация
Однако в рамках этой модели, на наш взгляд, все же можно допустить вероятностное прогнозирование на этапе афферентного синтеза (на основе комплексной оценки хранящихся в памяти параметров ранее полученных результатов). Еще большее значение имеет то, что представление о незамедлительном формировании и распаде функциональных систем не является единственно возможным для ТФС. На основе концепции системообразующего фактора К.В.Судаковым (1984, 1999, 2006) разработан принцип системного квантования поведения. Каждый квант включает в себя потребность (мотивацию), целенаправленное поведение, этапные и конечные результаты, их оценку на основе обратной афферентации (рис. 2). Известно, что отдельные промежуточные результаты могут способствовать, а другие - препятствовать удовлетворению
Рис. 2 Отдельный "квант" поведенческой активности (Судаков К.В., 1984). А, Б, В, Г, ...n - события внешнего мира; Р1-Р6 - промежуточные положительные ( ) и отрицательные (-) результаты поведения потребности. Из этого, на наш взгляд, следует возможность комплексной оценки совокупности промежуточных результатов в пределах отдельного кванта, т.е. выявление вероятности интересующего события (вероятностный прогноз параметров очередного результата). Таким образом, представление о вероятностном прогнозировании принципиально согласуется с концепцией универсального системообразующего фактора и может быть интегрировано с ТФС.
2. Интеграция ТФС и представления о вероятностном прогнозировании.
На рис. 3 представлена модель поведения, учитывающая вероятностно-статистические характеристики среды. В отличие от прототипа (рис. 1) она допускает вероятностное прогнозирование на каждом этапе поведенческой дея-
Рис. 3 Модель поведения в вероятностно организованной среде. А - пусковая, ОА - обстановочная афферентация тельности, начиная с афферентного синтеза. Также вводятся два новых компонента, отражающих вероятностные аспекты этапа реализации программы действий: аппарат принятия решения об изменении (сохранении) программы действий и "буфер памяти" (промежуточных результатов). Принятие решения осуществляется после каждого поведенческого акта на основе комплексного учета результатов не только последнего, но и всех предыдущих поведенческих актов, выполненных при реализации текущей программы (информация о них накапливается в "буфере памяти"). Такая трактовка позволяет избегать немедленной перестройки афферентного синтеза, принятия новой цели, формирования новой программы при каждом несоответствии результатов очередного поведенческого акта имеющимся ожиданиям. Это облегчает анализ механизма формирования оптимальной программы действий в вероятностно организованной среде и, в конечном счете, системной организации поведения (поскольку достижение конечного полезного результата является системообразующим фактором). Проведенная коррекция получила определенную поддержку: «Нам весьма импонирует попытка... дополнить системную архитектонику поведенческих актов двумя новыми аспектами, отражающими вероятностные аспекты поведения (действий, скажем мы), - "буфер памяти" и аппарат вероятностных решений об изменении программ действия» (Судаков К.В, 2003).
Дискретность (инерционность) изменений программы действий, в свою очередь, предполагает квантование процесса информационного взаимодействия индивидуума со средой. Каждому "информационному кванту" соответствует определенная программа действий (рис. 4). После принятия вероятностного решения о ее изменении информационный квант завершается и начинается новый (с новой программой действий, подлежащей реализации). В процессе удовлетворения потребности возможна последовательная смена несколько информационных квантов, если ранее использованные программы поведения оказались недостаточно удовлетворительными. Это представление конкретизирует вероятностный механизм поиска оптимальной программы действий при реализации описанного К.В.Судаковым (рис. 2) системного кванта поведенческой деятельности: «Можно согласиться..., что "информационные кванты" в условиях вероятностного удовлетворения соответствующей потребности в окружающей среде динамически, иерархически перебираются и последовательно сменяют друг друга. Авторы справедливо полагают, что иногда до момента удовлетворения потребности могут смениться несколько "информационных квантов", результатом которых, по мнению авторов, является изменение программы действий» (Судаков К.В., 1999).
Рис. 4 "Информационный квант" взаимодействия индивидуума со средой
Учет вероятностного прогнозирования в рамках ТФС позволяет сформулировать целостную концепцию, отражающую значение вероятностного прогнозирования в формировании информационной патологии ВНД на разных этапах поведения (афферентного синтеза, формирования цели и др.). Информационная патология возникает на фоне высоко мотивированного поведения в ситуации субъективной неопределенности, инициирующей вероятностное прогнозирование и психоэмоциональное напряжение. Субъективная неопределенность возникает при наличии взаимоисключающих мотиваций или путей удовлетворения одной и той же потребности (Симонов П.В., 1987, 1993), сложном характере обстановочной и пусковой афферентаций, конкуренции целей (моделей будущего результата) и во многих других случаях, наиболее полно раскрываемых в рамках ТФС.
3. Компьютерное моделирование условнорефлекторного обучения в вероятностно организованной среде
А. Алгоритм компьютерного моделирования.
Интеграция ТФС и представления о вероятностном прогнозировании позволяет воспроизводить (имитировать) на компьютере процесс выработки инструментального рефлекса в "случайной" среде. Предполагается, что на этапе афферентного синтеза ориентировочно-поисковые инструментальные реакции распределены равномерно относительно (1-й информационный квант). При этом вероятность р(а) случайного выполнения инструментальной реакции в сопряженные с предъявлением условного сигнала интервалы времени равна отношению длительности этих интервалов к длительности эксперимента. Ошибочная реализация вырабатываемого поведенческого акта, не сопряженная с предъявлением условного сигнала, равна 1 - р(а). Кроме того, в "случайной" среде вероятность р(к/а) получения подкрепления в связи с действием условного сигнала может быть меньше единицы, а вне времени его предъявления - р(к/b) - больше нуля. После выявления связи между условным сигналом и подкреплением вероятность выполнения инструментальных реакций в связи с условным сигналом резко повышается, т.е. начинается следующий, 2-й информационный квант (осуществляется новая программа действий на основе неизменной цели).
Предположим, вырабатывается рефлекс нажатия на рычаг во время действия условного раздражителя с использованием положительного (пищевого) подкрепления. Пусть совершено N ориентировочно-поисковых нажатий. Тогда математическое ожидание числа нажатий на рычаг, случайно пришедшихся на период действия условного сигнала, равно N• p(a), а количества полученных при этом пищевых подкреплений - N• p(а)•р(к/а). Аналогично производится подсчет для других случаев, представленных в матрице возможных исходов (табл. 5); при этом отсутствие положительного подкрепления рассматривается как отрицательное подкрепление.
Компьютерное моделирование осуществлялось методом Монте-Карло: генератор случайных чисел "распределял" каждую имитируемую поисковую реакцию в одну из ячеек 4-польной таблицы (к ее содержимому прибавлялась единица) с учетом предварительно заданных параметров среды. После имитации инструментальной реакции по критерию c2 для 4-польной таблицы производился выбор между двумя статистическими гипотезами: Н0 - связь между
Таблица 5
Математическое ожидание числа подкреплений различной модальности, получаемых в ходе обучения (обозначения в тексте)
Условный сигнал Число подкреплений положительных отрицательных
Предъявлен Отсутствует N• p(а)•р(к/а) N• [1-p(а)]•р(к/b) N• p(а)•[1-р(к/а)] N• [1-p(а)]•[1-р(к/b)] предъявлением условного сигнала и подкреплением отсутствует и Н1 - связь между предъявлением условного сигнала и подкреплением существует. В случае принятия нулевой гипотезы "генерировалась" очередная инструментальная реакция. Напротив, выбор альтернативной гипотезы означал прекращение имитации: считалось, что после этого вероятность правильного выполнения (в связи с условным сигналом) инструментальных реакций резко повышалась, т.е. начинался новый информационный квант с новой, более оптимальной программой действий.
Системообразующим фактором в процессе моделирования является полезный результат. Под программой действий понимается осуществление поисковых инструментальных реакций. Работа аппарата акцептора моделируется алгоритмом заполнения матрицы возможных исходов (табл. 5). Она накапливает поступающую к гипотетическому обучаемому информацию, что позволяет рассматривать ее как "буфер памяти" (рис. 3). Механизм принятия вероятностного решения об изменении (сохранении) программы действий имитируется статистическим критерием c2; уровень значимости (ошибка 1-города) определяет "инерционность" работы механизма принятия вероятностных решений и задается как независимый параметр.
Описанная методика предполагает, что каждый имитируемый инструментальный акт с определенной вероятностью сопровождается соответствующим подкреплением. Указанное условие соблюдается не всегда, примером чего служат наши собственные исследования на животных (см. "Материал и методы"). В этом случае компьютерное моделирование усложняется необходимостью учета дополнительных параметров: среднего числа поисковых реакций, приходящихся на единицу времени; продолжительности условной стимуляции, длительности межстимульных интервалов.
Б. Результаты компьютерного моделирования.
Компьютерная имитация позволяет прогнозировать число поисковых инструментальных реакций, необходимых для обучения при вероятностном безусловном подкреплении. Создан атлас 3-мерных графиков (примеры на рис. 5, 6), показывающих скорость выработки рефлекса при различных комбинациях изучаемых параметров.
Компьютерная имитация демонстрирует большую или меньшую "инерционность" процесса обучения, в том числе в жестко детерминированных усло-
Рис. 5 Зависимость скорости обучения от параметров "случайной" среды при 100% вероятности подкрепления правильных реакций [p(k/a)=1]. По абсциссе - р(а) случайного выполнения правильной реакции; по ординате - p(k/b) положительного подкрепления неправильных реакций; по аппликате - число поисковых реакций, необходимых для установления связи между условным сигналом и подкреплением; a = 0,001 - величина ошибки 1-города, достижение которой в процессе имитации означает установление гипотетическим животным связи между условным сигналом и подкреплением виях (рис. 5). Это согласуется с экспериментами на животных и человеке: для формирования рефлекса обычно требуется не менее 5 сочетаний (Воронин Л.Г., 1977; Батуев А.С.; и мн.др.). Однако при относительно больших значениях параметра"альфа" (ошибки 1-города) имитируемый рефлекс "образуется" сразу после первого сочетания, т.е. практически без вероятностных оценок.
Наибольшая скорость обучения прогнозируется в "жестко детерминированных" условиях [p(k/a) = 1, p(k/b) = 0], что воспроизводит известный из литературы эффект (Меницкий Д.Н., Трубачев В.В., 1974; Bitterman M.E., 1979; Mazur J.E., 1997). При этом если значение p(k/b) близко к нулю, процесс выработки рефлекса существенно не меняется (рис. 5). Иная картина складывается, если вероятность положительного подкрепления в связи с действием условного раздражителя существенно ниже единицы (рис. 6). В этом случае даже незначительное изменение величины p(k/b) на всем интервале ее варьирования заметно влияет на скорость обучения и, соответственно, на формирование информационной патологии ВНД. Именно об этом свидетельствуют и экспериментальные данные (Grey D.A., 1978; MCNAMARA J.M. e.a., 1983).
Компьютерное моделирование воспроизводит и другие известные эффекты: невозможность обучения при одинаковых вероятностях подкрепления реакций, выполненных в связи и вне связи с условным сигналом [p(a/k) = p(b/k)]; высокую устойчивость к угасанию рефлексов, выработанных в условиях вероятностного подкрепления (Меницкий Д.Н., 1986; Фейгенберг И.М., 2008; Kinlston J.F., 1987); замедление обучения после неоднократных предварительных предъявлений стимула, используемого в дальнейшем в качестве условного [Тверицкая И.Н., 1985; Larats D.B. e.a., 1988). Поскольку компьютерное моделирование не предполагает использования каких-либо эмпирических данных, соответствие полученных результатов уже известным закономерностям подтверждает адекватность интеграции ТФС и представления о вероятностном прогнозировании.
Рис. 6 Зависимость скорости обучения от параметров "случайной" среды при 55% вероятности подкрепления правильных реакций [p(k/a)=0,55; альфа = 0,001]. Обозначения такие же, как на рис. 5
Представленные графики иллюстрируют также закономерности формирования 100%-но подкрепляемого рефлекса на околопороговый по интенсивности сигнал. Предположим, вырабатывается классический слюноотделительный рефлекс на слабый звуковой сигнал, правильно воспринимаемый индивидуумом с вероятностью 0,55. Тогда в ходе обучения 55% безусловных подкреплений будет ассоциироваться с условным стимулом, а 45% - с его отсутствием [р(а/к) = 0,55; р(b/к) = 0,45]. При этом расчетная величина N резко повышается (рис. 6), что согласуется с низкой скоростью обучения при околопороговой интенсивности условного сигнала (Clifton R.K., e.a., 1994; Commons M.L., 1991; Macmillan N.A., 2005) и возможностью формирования информационной патологии.
Таким образом, компьютерная имитация выявляет оптимальные и неблагоприятные для обучения комбинации параметров вероятностно организованной среды. Неблагоприятные условия характеризуются сложностью информационного взаимодействия индивидуума со средой и способствуют развитию информационной патологии ВНД, особенно на этапе афферентного синтеза.. При этом процесс обучения может существенно зависеть от величины р(а) - вероятности случайного выполнения правильной реакции (в дальнейшем - ВСПР). Между тем, при проведении экспериментальных исследований этот параметр традиционно не учитывается, не разработана и общепринятая методика его оценки.
4. Экспериментальная проверка некоторых закономерностей условнорефлекторного обучения, выявленных с помощью компьютерного моделирования.
А. Методика оценки инструментального рефлекса, учитывающая вероятность случайной правильной реакции (ВСПР)
Теоретическая оценка ВСПР основывается на предположении о том, что до выявления связи между условным сигналом и подкреплением инструментальные реакции животного равномерно распределены во времени относительно биологически индифферентного условного раздражителя (это предположение использовалось и при компьютерном моделировании). Например, при выработке рефлекса нажатия на педаль на фоне действия условного сигнала первоначальные (поисковые, пробные) нажатия следует считать равномерно распределенными во времени. В таком случае математическое ожидание ВСПР равно отношению длительности предъявления условного раздражителя к общей продолжительности эксперимента. При этом из расчетов следует исключить интервалы, в течение которых невозможно осуществление дополнительных поисковых реакций: время, затрачиваемое на реализацию собственно нажатий, а также периоды электрокожной стимуляции и последующего восстановления поисковой активности (прекращения хаотических перемещений).
Зная математическое ожидание ВСПР, а также количество выполненных обучаемым животным правильных и ошибочных инструментальных реакций, по критерию c2 проводится выбор между статистическими гипотезами: Н0 - связь между инструментальными реакциями и предъявлением условного раздражителя отсутствует и Н1 - связь между инструментальными реакциями и предъявлением условного раздражителя существует. Принятие гипотезы Н1 (р < 0,05) свидетельствует о формировании у животного условного рефлекса. При этом критерий c2 комплексно учитывает правильные и неправильные реализации инструментальных реакций, а также статистическую погрешность: она не превышает достигнутого уровня значимости. Последнее обстоятельство позволяет сравнивать экспериментальные результаты, полученные при разных значениях ВСПР.
Соответствие математического ожидания ВСПР реальным значениям проверялось экспериментально. Для графического изображения динамики частоты правильных реакций выделяли 5 периодов обучения (I-V). Для этого общее число инструментальных реакций, потребовавшееся каждому животному для формирования рефлекса, делили на 5 равных частей и определяли процент правильных реализаций в каждой из них. В дальнейшем вычисляли среднюю арифметическую и доверительный интервал для всех периодов обучения в соответствующей группе животных. Рис. 7 иллюстрирует такое представление данных (1-я серия экспериментов)
Из рисунка видно, что в начальный период обучения частота правильных реакций совпадала с теоретически предсказанными значениями ВСПР; результаты других экспериментов оказались аналогичными, что свидетельствует об адекватности теоретической оценки ВСПР.
Рис. 7 Динамика изменения частоты правильных реакций в зависимости от вероятности их безусловного подкрепления и величины ВСПР (1-я серия экспериментов) 1 - 1-я группа (ВСПР = 0,05, 100% подкрепление правильных реакций); 2 - 2-я группа (ВСПР = 0,25, 100%); 3 - 3-я группа (ВСПР = 0,05, 50%); 4 - 4-я группа (ВСПР = 0,25, 50%). По ординате - частота правильных реакций (% к общему числу реакций); по абсциссе - периоды обучения
Б. Влияние величины ВСПР на скорость формирования инструментального рефлекса у крыс.
Изучалось влияние величины ВСПР на формирование рефлекса при разных режимах безусловного подкрепления. Сравнивались результаты только тех групп животных, условия обучения которых были идентичны по длительностям условной стимуляции и межстимульных интервалов.
1-я серия экспериментов (табл. 6). Сопоставление результатов I-й и III-й групп (ВСПР = 0,05) показало, что снижение частоты подкрепления со 100% до 50% достоверно, почти в 3 раза замедляет выработку рефлекса. При этом уже на этапе афферентного синтеза животные совершали частые хаотические перемещения, царапали клетку, пищали и демонстрировали другие признаки информационного стресса (Хананашвили М.М., 1983). Это согласуется с распро-
Таблица 6
Различия в числе инструментальных реакций, потребовавшихся для обучения крыс 1-й серии (в скобках указаны номера экспериментальных групп)
* - p < 0,05 (достоверность отличий) страненным мнением о затруднении процесса обучения при вероятностном режиме подкрепления (Пигарева М.Л., Мац В.Н., 1984; Cohen S.L., 1981; MCNAMARA J.M., 1983; и мн.др.).
Однако сопоставление результатов II-й и IV-й групп (ВСПР = 0,25) выявило иную закономерность: независимо от частоты подкрепления для формирования рефлекса требовалось примерно одинаковое число поисковых инструментальных реакций. Ранее некоторые авторы (Трубачев В.В., 1968; Хананашвили М.М., 1970, 1972; Ishida M., 1978) отмечали парадоксальную неизменность скорости обучения при 100%-м и 50%-м режимах подкрепления, объясняя это влиянием не учитываемых факторов. По-видимому, одним из таких факторов является ВСПР.
Аналогичные результаты получены во 2-й серии экспериментов, в которой использовались 100% и 25%-й режимы подкрепления, а также другие длительности условной стимуляции и межстимульных интервалов. Если ВСПР равнялась 0,125 или 0,25, варьирование частоты подкрепления в диапазоне 25-100% практически не влияло на скорость обучения (табл. 7). Это видно из попарного сравнения экспериментальных групп, обучавшихся при одинаковой длительности предъявления условного стимула и межстимульных интерва-
Таблица 7
Различия в числе инструментальных реакций, потребовавшихся для обучения крыс 2-й серии (в скобках - номера экспериментальных групп)
* - p < 0,05 (достоверность отличий) лов: II-VI и III-VII. Очевидно, использованные при этом значения ВСПР оптимальны для обучения.
Напротив, при ВСПР=0,05 низкая частота подкрепления с самого начала способствовала развитию информационного стресса и достоверно замедляла формирование рефлекса (группы IV и VIII).
Особый интерес представляет сопоставление результатов I и V групп (ВСПР = 0,5): использование вероятностного режима подкрепления правильных реакций достоверно ускоряло формирование рефлекса. Это объясняется особенностями экспериментальной модели: в I-й группе электрокожное раздражение отменялось при выполнении хотя бы одного нажатия на педаль в период весьма продолжительного (в среднем 20 с) условной стимуляции. В этих условиях даже необученное животное с выраженной поисковой активностью избавлялось от большинства электрокожных раздражений, даже не «включаясь» в процесс обучения (нажатию на педаль на фоне условного стимула). Поэтому у животных I-й группы первоначально формировался "незапланированный" рефлекс частых нажатий на педаль без какого-либо учета условного сигнала (рис. 9а). Напротив, использованный в V-й группе 25%-й режим положительных подкреплений предполагал достаточно частую электрокожную стимуляцию, что, в конечном счете, ускоряло выработку рефлекса нажатия на педаль на фоне условного сигнала.
Сопоставление результатов I-й и V-й групп свидетельствует о том, что достижение полезного результата (как системообразующего фактора) может инициировать образование функциональных систем не только с адаптивным, но и амбивалентным значением. "Незапланированный" рефлекс имел адаптивное значение для животных в I-й группы и, в то же время, достоверно замедлял обучение в целом (образование более "экономного" рефлекса нажатия на педаль на фоне условной стимуляции, - животные V-й группы с 25%-м подкреплением формировали его достоверно быстрее). Иными словами, "незапланированный" рефлекс имел амбивалентное значение. Теоретический анализ свидетельствует, что этот пример не единичный. Напомним известный опыт с вживлением электродов в зоны гипоталамуса, раздражение которых вызывает положительные эмоции. Стимулируя указанные зоны нажатием на рычаг, животное достигает субъективно положительного результата, хотя длительное продолжение эксперимента обычно приводит к его истощению и даже гибели. При этом положительное подкрепление (как системообразующий фактор!) формирует условный рефлекс, неоднократное воспроизведение которого вызывает амбивалентные и даже заведомо дизадаптивные последствия. Аналогичные примеры демонстрирует клиническая медицина: некоторые варианты наркомании, алкоголизма, ожирения, близорукости и т.д. Их учет расширяет сферу применения ТФС, подчеркивая отсутствие четкой границы между адаптивными и дизадаптивными проявлениями (нормой и патологией).
Наиболее выраженные эмоциональные реакции наблюдались при 25% режиме подкрепления, особенно у животных V-й и VIII-й групп. У части животных развились признаки информационного невроза (Ханашашвили М.М., 1983, 2008) и, на его фоне, - приобретенной беспомощности (Seligman M.E., 1975; Kram M.L. e.a., 2000; Greenwood B.N., Fleshner M., 2008): от опыта к опыту снижалась поисковая активность, уменьшалась масса тела, выпадала шерсть, нарастало эмоциональное безразличие к предъявляемым стимулам (табл. 8). При этом поисковые реакции оставались равномерно распределенны-
Таблица 8
Зависимость формирования приобретенной беспомощности от величины ВСПР во 2-й серии экспериментов
№ группы, ВСПР Частота подкрепления правильных реакций, % Число крыс с приобретенной беспомощностью Число обучившихся крыс
V, 0,5 VI, 0,25 VII, 0,125 VIII, 0,05 25 25 25 25 2 0 1 5 8 8 8 8 ми относительно условного сигнала, т.е. информационные расстройства ВНД возникали на этапе афферентного синтеза.
В 3-й серии экспериментов вероятностная организация среды определялась околопороговой интенсивностью условного раздражителя (табл. 9). Варьирование интенсивности условного стимула по-разному влияло на формирование рефлекса в зависимости от величины ВСПР. При ВСПР=0,05 (группы I и II) снижение интенсивности звукового сигнала существенно замедляло процесс обучения (р < 0,05). Аналогичный результат показали животные V-й и VI-й групп, обучение которых проводилось при других длительностях условной сти-
Таблица 9
Различия в числе инструментальных реакций, потребовавшихся для обучения крыс 3-й серии, от величины ВСПР и интенсивности условной стимуляции (в скобках номера экспериментальных групп)
ВСПР Число реакций сильный условный сигнал (60ДБ) слабый условный сигнал (20ДБ)
* - p < 0,05, ** - p < 0,01 (достоверность отличий) муляции и межстимульных интервалов. Выявленная закономерность согласуется с представлением о том, что недостаточно надежное восприятие условного сигнала затрудняет информационное взаимодействие со средой в процессе ориентировочно-поисковой деятельности (Костандов Э.А., 1983; Jakubowska E., 1976; Swan J.A., Pearce J.M., 1986). Вместе с тем, слабая интенсивность условного сигнала не замедляла формирование рефлекса при ВСПР=0,25 (группы III-IV, VII-VIII), которое, по-видимому, является оптимальным для обучения в рамках используемой экспериментальной модели.
Таким образом, выявлено существование оптимальных и пессимальных для процесса обучения величин ВСПР в рамках используемых экспериментальных моделей. Оптимальные значения ВСПР облегчают информационное взаимодействие организма со средой и способствуют формированию условнорефлекторных связей. При этом зависимость скорости обучения от "неблагоприятных&
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы