Информационные технологии в микробиологии - Дипломная работа

бесплатно 0
4.5 79
Описание программы статистической обработки данных. Классификация последовательностей с помощью байесовского подхода. Построение дендрограммы штаммов вируса клещевого энцефалита, выделенных на территории Беларуси и взятых из банка данных Gen Bank.


Аннотация к работе
Современная биология, и микробиология, в частности, стала производителем огромных объемов экспериментальных данных, осмысливание которых невозможно без привлечения современных информационных технологий (ИТ) и эффективных математических методов анализа данных и моделирования биологических систем и процессов. Развитие человечества будет неразрывно связано с биологией и информатикой, поскольку с развитием технологий и приборов возрастает количество исследований и, следовательно, объем получаемой информации, которая для принесения пользы должна быть грамотным образом обработана. Особенно стремительный прогресс информационных технологий (ИТ) наблюдается в последние десятилетия 20-го века. К числу наиболее впечатляющих достижений информатики относятся: u персональные компьютеры высокой производительности, обеспечившие массовое распространение информационных технологий во всех областях знаний, в том числе в биологии; Несколько десятилетий назад проведение исследований занимало гораздо больше времени, не только изза менее совершенных биологических приборов, но и изза необходимости длительного трудоемкого анализа полученных данных, кроме того за частую анализ данных был уделом специалистов, так как это требовало серьезной предварительной подготовки.Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты программ имеют большое количество методов анализа, популярные пакеты - количество функций, достаточное для универсального применения. Специализированные же пакеты ориентированы на какую-либо узкую область анализа данных [2]. Самой часто упоминаемой (и используемой) в отечественных статьях является приложение MS Excel из пакета офисных программ компании Microsoft MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и POWERPOINT.Как было отмечено выше, секвенирование сегодня является одним из самых необходимых методов исследования, благодаря которому можно узнать огромное количество информации об исследуемом объекте [3]. Имея на руках секвенированную нуклеотидную последовательность, исследователь хочет получить из нее максимальную информацию.Геном эукариот характеризуется двумя основными особенностями: повторенность нуклеотидных последовательностей; разделением по составу на различные фрагменты, характеризуемые специфическим содержанием нуклеотидов. Повторенная ДНК состоит из нуклеотидных последовательностей различной длины и состава, которые встречаются в геноме несколько раз либо в тандемно-повторенном, либо в диспергированном виде. Последовательности ДНК, которые не повторяются, называются уникальной ДНК (single-copy DNA). Размер части генома, занятой повторяющимися последовательностями, широко варьирует между таксонами. Первые 3 группы решают задачу, когда максимум что известно про повторы - примерная длина и степень дивергенции.Поиск гомологии в БД нуклеотидных последовательностей необходим при решении самых разных задач, например: u предсказание функций неизвестных генов; Несмотря на то, что имеются эффективные методы и алгоритмы сравнения пары нуклеотидных последовательностей, они недостаточно быстры, чтобы выполнить сравнение между заданной последовательностью и всеми последовательностями БД ввиду большого объема последней.Генетическое типирование штаммов вируса КЭ (клещевой энцефалит), изолированных на территории Беларуси, проводили с помощью молекулярной гибридизации. Дальнейшие исследования были направлены на определение нуклеотидных последовательностей фрагментов геномов белорусских штаммов вируса КЭ. Филогенетический анализ проводили с использованием данных, опубликованных в GENBANK, относительно штаммов вируса КЭ из Латвии и Литвы. В качестве прототипных штаммов трех генотипов вируса КЭ использованы штаммы Софьин (генотип 1), Neudoerfl (генотип 2) и Васильченко (генотип 3). Следует отметить, что наиболее близким к исследованным штаммам был вирус КЭ, выделенный на территории Латвии - штамм Latvia-8110.Область человеческой деятельности, связанная с процессом преобразования информации с помощью персонального компьютера, в отличие от биологии, существует лишь около 50 лет. Однако с момента своего возникновения, выполняя свою основную функцию: разработка методов и средств преобразования информации и использование их в организации технологического процесса переработки информации, она оказывала все более возрастающее влияние на все области знаний, включая микробиологию. Анализируя историю развития науки, можно сделать вывод, что подавляющее большинство достижений науки о микроорганизмах последних десятилетий было бы невозможно без использования информационных технологий.

План
Оглавление байесовский дендрограмма энцефалит статистический

Перечень сокращений

Введение

Глава 1. Обзор литературы

1.1 Программы статистической обработки данных

1.2 Классификация последовательностей с помощью байесовского подхода

1.3 Методы поиска повторов в последовательностях ДНК

1.4 Поиск гомологии в БД нуклеотидных последовательностей

Глава 2. Опыт реализации информационных технологий в собственных исследованиях

2.1 Построение дендрограммы штаммов вируса клещевого энцефалита, выделенных на территории Беларуси и взятых из компьютерного банка данных Gen Bank

Заключение

Литература

Введение
Современная биология, и микробиология, в частности, стала производителем огромных объемов экспериментальных данных, осмысливание которых невозможно без привлечения современных информационных технологий (ИТ) и эффективных математических методов анализа данных и моделирования биологических систем и процессов.

Развитие человечества будет неразрывно связано с биологией и информатикой, поскольку с развитием технологий и приборов возрастает количество исследований и, следовательно, объем получаемой информации, которая для принесения пользы должна быть грамотным образом обработана.

Особенно стремительный прогресс информационных технологий (ИТ) наблюдается в последние десятилетия 20-го века. Можно проследить хронологическое совпадение со значимыми открытиями в различных областях биологии. К числу наиболее впечатляющих достижений информатики относятся: u персональные компьютеры высокой производительности, обеспечившие массовое распространение информационных технологий во всех областях знаний, в том числе в биологии;

u сверхмощные вычислительные системы (суперкомпьютеры и сверхбольшие вычислительные кластеры);

u сверхбольшие носители информации, обеспечивающие накопление и сохранение огромных объемов данных;

u мировая сеть Интернет, обеспечившая доступ к глобальным распределенным информационным и программным ресурсам;

u огромное разнообразие универсальных и специализированных языков программирования;

u методы анализа данных, основанные на достижениях теории искусственного интеллекта;

u технологии моделирования динамики сверхсложных систем, состоящих из огромного разнообразия взаимодействующих элементов [1].

Несколько десятилетий назад проведение исследований занимало гораздо больше времени, не только изза менее совершенных биологических приборов, но и изза необходимости длительного трудоемкого анализа полученных данных, кроме того за частую анализ данных был уделом специалистов, так как это требовало серьезной предварительной подготовки. С появлением и совершенствованием современных программ обработки данных статистическая обработка поднялась на новый уровень. Теперь исследователь-микробиолог может и не иметь математической подготовки. Достаточно оперировать статистическими понятиями и, самое главное, правильно выбрать метод анализа. Все осуществимо благодаря компьютеру и новейшим программам.

Для современной микробиологии компьютерный анализ очень важен для исследования нуклеиновых кислот ДНК (дезоксирибонуклеиновая кислота) и РНК (рибонуклеиновой кислоты). Функциями нуклеиновых кислот являются хранение, передача, воспроизведение генетической информации в ряду поколений. Так, в ДНК любой клетки закодирована информация о всех белках данного организма, о том, какие белки, в какой последовательности и в каком количестве будут синтезироваться.

В настоящее время секвенирование ДНК приобрело самые широкие масштабы. В секвенированных нуклеотидных последовательностях (НП) заключено огромное количество информации, связанной с молекулярной генетикой различных живых организмов. Для извлечения этой информации разрабатываются определенные методы с целью решения самых разнообразных задач молекулярной генетики, или как теперь говорят, геномики. Созданы многочисленные программы анализа нуклеотидных последовательностей, которые сегодня являются неотъемлемой частью многих биологических исследований [1].

Исходя из всего вышесказанного, цель моей работы проанализировать вклад информатики в развитие микробиологии на основе литературных данных и собственного опыта использования информационных технологий в научной деятельности.

Задачи: u охарактеризовать программы, используемые в микробиологических исследованиях при анализе полученных данных;

u на примере использования информационных технологий в собственных исследованиях показать важность ИТ для исследователей живых объектов.

Вывод
Область человеческой деятельности, связанная с процессом преобразования информации с помощью персонального компьютера, в отличие от биологии, существует лишь около 50 лет. Однако с момента своего возникновения, выполняя свою основную функцию: разработка методов и средств преобразования информации и использование их в организации технологического процесса переработки информации, она оказывала все более возрастающее влияние на все области знаний, включая микробиологию. Анализируя историю развития науки, можно сделать вывод, что подавляющее большинство достижений науки о микроорганизмах последних десятилетий было бы невозможно без использования информационных технологий. Так, например, автоматическая расшифровка нуклеотидных последовательностей позволила с достаточной быстротой и точностью выполнять многие задачи всех направлений биологии. Суммарные объемы первичных экспериментальных данных только по молекулярно-генетическому уровню организации жизни превышают сотни терробайт. В результате автоматической расшифровки нуклеотидных последовательностей в молекулярной биологии и генетике за последние 20 лет произошел информационный взрыв. Объемы получаемых данных поражают воображение: опубликованы полные последовательности геномов 74 организмов включая 11 архебактерий, 48 эубактерий, 15 эукариот. На подходе 212 геномов прокариот и 157 эукариот. Общее число нуклеотидов в секвенированных последовательностях превысило 1010.

Таким образом, можно сделать вывод о значительном вкладе науки информатики в развитие микробиологии, поскольку, как известно, полученные, но не обработанные данные, не всегда могут представлять действительную ценность и значимость для науки.

Список литературы
1. Редько В.Г. Теория и методы обработки информации // Информационные процессы. - 2007. - т. 7. - №3. - С. 214-217.

2. http://bmn.medstalker.com

3. International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome // Nature. -2001. - Vol. 409. - pp. 860-921.

4. Франк-Каменецкий М.Д. Компьютерный анализ генетических текстов. - М.: Наука. - 1990. - 393 с.

5. Гельфанд М.С. Компьютерный анализ последовательностей ДНК // Молекулярная биология. - 1998. - т. 32. - №1. - C. 103-120.

6. Гельфанд М.С. Биоинформатика от эксперимента к компьютерному анализу и снова к эксперименту // - 2003. - том 73. - №11. - C. 987-994.

7. Venter J.C. The Sequence of the Human Genome // Science. - 2001. - Vol. 291. - no. 5507. - pp. 1304-1351.

Предметный указатель

А анализ, 6, 8, 10, 12, 15, 19, 22

Анализу, анализ, анализом, анализе, анализы, 6, 8, 12, 15, 22

Б база данных, 4, 10, 17, 18, 19, 21

Д дендрограмма, 12, 13

ДНК, 3, 4, 6, 9, 10, 15, 19

И информационные технологии, 1, 4, 5, 7, 14

Информационные технологии, 2

М методы, 5, 6, 10, 11, 15, 19

Н нуклеотидная последовательность, 3, 4, 6, 9, 10, 11, 12, 14, 17

П пакеты программ. См. пакет программный пакет, 8 программы, 6, 7, 8, 12, 17, 19, 23

С секвенирование, 6, 9, 11

Интернет-ресурсы в предметной области исследования http://www.ncbi.nlm.nih.gov/

National Center for Biotechnology Information (NCBI) организован в 1988 как отделение National Library of Medicine (NLM) в National Institutes of Health (NIH). В настоящее время это крупнейшая биологическая база данных (молекулярная биология, биохимия и генетика). NCBI имеет мощные системы обработки и представления этих данных. Содержит следующие базы данных и программы для поиска: GENBANK, REFSEQ, DBSNP, UNIGENE, OMIM, Genomic Biology, Entrez, Entrez Genomes, BLAST, программы BLAST поиска, базы данных для BLAST поиска, базы аминокислотных последовательностей, базы нуклеотидных последовательностей. Здесь можно найти руководства или рекомендации по выполнению тех или иных операций, описание методов исследования, растворов, расчетов, подбор рестриктазах для исследования. Можно следить за свежими публикациями. Имеются обзоры и справочник. Внимание уделяется также образованию и образовательным ресурсам. Книги на сайте NCBI читать подряд неудобно, но зато есть возможность поиска.

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed

PUBMED. Организован National Center for Biotechnology Information (NCBI) National Institutes of Health (NIH). PUBMED - это информационный ресурс Национального Института Здравоохранения США, состоящий из множества разделов. Он содержит более 16 миллионов цитат из научных журналов биомедицинской и естественнонаучной направленности, начиная с 1950-х годов. Здесь размещаются ссылки на полные тексты статей и другие связанные ресурсы (на страницы Национальной Библиотеки медицины США; на страницу Medline - базу материалов о более чем 700 заболеваниях и состояниях, о лекарственных средствах, на этом портале есть также медицинская энциклопедия и медицинский словарь и много другой полезной информации; на базы данных по токсикологии и токсическим веществам и др.). Поиск в базе данных журналов можно осуществлять по предмету или по названию журнала, по сокращенному названию, аббревиатуре ISO и другим параметрам. PUBMED содержит полное содержание MEDLINE и PREMEDLINE баз данных и некоторые статьи не входящие в них. Очень удобно доверить регулярный просмотр ссылок на PUBMED программе BIOMAIL.

O Medline на уже упоминавшемся "BIOMEDNET".

O Medline на "HEALTHWORD Online".

O Medline на "Medscape Molecular Medicine". http://www.biomail.org

БИОМЭЙЛ - это бесплатный сервис для автоматизации поиска медицинской и биологической научной литературы. Биомэйл подсоединяется к огромной базе данных - PUBMED, которая объединяет в себе весь Медлайн и дополнительную базу данных с более свежими поступлениями, многие из которых еще не напечатаны, или даже находятся в рукописном виде. От двух раз в неделю, до 1 раза в месяц БИОМЭЙЛ разыскивает самые свежие статьи, которые интересуют его пользователей и рассылает ссылки на них по электронной почте. С помощью БИОМЭЙЛ можно: · одновременно вести до 20 поисков с разными шаблонами ключевых слов;

· получать статьи найденные по вашей тематике, которые появились в PUBMED всего несколько дней или часов назад;

· иметь доступ к краткому содержанию статей или даже к полному тексту статей прямо прямо из полученных писем;

· экпортировать важные статьи в любую базу данных или менеджер ссылок;

· хранить интересующие вас статьи на сервере, что делает вашу библиографию доступной в любой стране мира (был бы Интернет);

· если у вас есть электронная почта - БИОМЭЙЛ поможет вам быть в курсе событий, даже если вы не можете регулярно посещать PUBMED.

БИОМЭЙЛ абсолютно бесплатен. Более того, можно сгрузить исходный код программы и установить этот сервис внутри института, поликлиники, лаборатории. http://molbiol.edu.ru

Практическая молекулярная биология. Сайт является не заменимым для биохимиков, генетиков, микробиологов и молекулярных биологов. Это крупнейшая биологическая база данных. Сайт содержит подробный справочник, который состоит из наиболее важных разделов. Здесь можно найти руководства и рекомендации по выполнению тех или иных операций, подробное описание методов исследования (работа с бактериями, бактериофагами, эукариотическими организмами, дигибридные системы, методы выделения и анализа ДНК про- и эукариотических организмов, работа с белками), методики и расчеты для приготовления растворов, подбор необходимых для исследования ферментов и реактивов. Можно следить за свежими публикациями. Имеются обзоры различных биологических ресурсов и программ, а также ссылки на биологические журналы и гранты биологического профиля. Внимание уделяется также образованию и образовательным ресурсам. Имеются сведения о компаниях и русскоязычных институтах биологического профиля, а также ссылки на полезные web-ресурсы. http://www.bmn.com

BIOMEDNET организован Elsevier Science. Это web-сайт для биологов и медиков. Можно получать новости сайта по E-mail. u Публикуются обзоры, новости, обзоры конференций;

u Хорошая подборка аннотированных web-ресурсов;

u Список журналов со свободным доступом (часто временно/ради рекламы доступны хорошие журналы), возможность подписаться на "содержание журналов";

u Возможность поиска фирм производителей конкретной медико-биологической продукции;

u Имеются: medline; Technical Tips (коллекция мол. биол. протоколов);

u База вакансий с возможностью поиска. http://www.delphion.com

IBM Patent Server. IBM Intellectual Property Network (IPN). Позволяет искать и просматривать патентные документы. Обеспечивает доступ к: v United States patents (US). 1971 - до настоящего времени, еженедельное обновление. Полный текст с картинками. От U.S. Patent and Trademark Office. v European patents - applications (EP-A). 1979 - до настоящего времени, еженедельное обновление. Библиографический текст с картинками. От European Patent Office; Vienna, Austria. v European patents - issued (EP-B). 1980 - до настоящего времени, еженедельное обновление. Библиографический текст с картинками. От European Patent Office; Vinna, Austria. v Patent Abstracts of Japan (JP). 10/1976- до настоящего времени, еженедельное обновление. Библиографический текст, первая страница. От JAPIO, Japan Patent Information Organization; Toyko, Japan. v IBM Technical Disclosure Bulletins.

Картинки приходят в "*.pdf" формате, причем их качество обычно весьма плохое. http://www.sciencedirect.com

База данных и поисковая система, содержащая оглавления научных журналов издательства Elsevier по естественным наукам. Предлагает вниманию пользователей материалы по научной, медицинской и технической информации: более 2000 рецензируемых журналов, сотни книжных серий, руководств и справочников. Поиск информации можно осуществлять по ключевым словам. Возможен вариант расширенного поиска (по названию журнала, статьи; поиск по автору, и др.). Для организаций, подписанных на издания Elsevier, предоставлен полнотекстовый доступ к статьям, в других случаях - доступ только к рефератам. Позволяет следить за текущей литературой. http://www.sciencekomm.at

Более 4000 ссылок на биологические и медицинские журналы содержится на "science.komm" (там же удобные ссылки на полнотекстовые источники, словари, базы данных по абстрактам и т.п.). По web-ссылке вы попадаете на сайт конкретного журнала. На многих журналах можно подписаться на рассылку оглавления по E-mail. http://www.scirus.com/srsapp/

Scirus - наиболее полная поисковая система для ученых в Интернете. Основанный на последних поисковых технологиях, он ищет более, чем в 300 миллионах определенных для науки Web-страницах, позволяя пользователям быстро находить: u Научные, медицинские и технические сведения;

u Последние публикации; рецензируемые журналы; патенты и журналы, которые обычно пропускают другие поисковые системы. u Поисковик предлагает уникальные функциональные возможности для ученых и исследователей u Эта поисковая система обращает внимание только на те Web-страницы, которые содержат научную информацию. http://nar.oxfordjournals.org

NAR database. Ежегодно первый номер журнала "Nucleic Acid Research" посвящен обзору молекулярно-биологических баз данных. Обзорную статью этого номера и сортированные (по темам и по алфавиту) списки баз данных в HTML формате можно найти на сайте журнала (кнопка "NAR database issue"). http://www.ncbi.nlm.nih.gov/entrez/query/static/citmatch.html

Citation Matcher. Организован National Center for Biotechnology Information (NCBI) National Institutes of Health (NIH). Позволяет найти статью по библиографическим данным. Возможен поиск сразу же большого количества статей. Можно использовать Citation Matcher через E-mail (E-Mail Citation Matcher); чтобы узнать правила работы достаточно послать письмо с текстом HELP. http://searchlauncher.bcm.tmc.edu

Search Launcher организован Baylor College of Medicine. Сайт предоставляет возможность проводить различные молекулярно-биологические анализы/поиски со стандартного и очень простого интерфейса (реально серьезные анализы проводятся на других серверах). На сервере можно выполнять простые преобразования последовательностей. Есть возможность организовать анализ сразу пачки последовательностей. Ресурс просто незаменим для тех, кто не чувствует себя большим мастером по анализу последовательностей. http://www.issep.rssi.ru/journal

Биологическая секция Соросовского Образовательного Журнала. Журнал выходит ежемесячно общим тиражом в 13 000 экземпляров и распространяется бесплатно. Статьи Соросовского Образовательного Журнала в формате pdf с хорошими графиками и картинками. Статьи написаны российскими профессорами популярным языком. Написаны на хорошем современном научном уровне. Главный редактор журнала профессор молекулярной генетики Валерий Сойфер (университет Джордж Мейсон под Вашингтоном), что гарантирует от непропорционального патриотизма. На мой взгляд статьи могут быть интересны и специалистам, особенно если статья касается смежной области, о которой нужно получить первое представление. В разделе биология более 300 статей. http://www.google.com

Всемирно известная поисковая система Google. Позволяет производить простой поиск по ключевым словам, возможен вариант расширенного поиска по группам (среди книг, музыкальных файлов или видеофайлов, новостей и т.д.), особым признакам (определение, тип файла) и т.д. Поиск информации в сети Интернет обычно начинается с этого сайта. http://www.vak.org.by

Сайт Высшей аттестационной комиссии Республики Беларусь. Тут размещены материалы, касающиеся подготовки научных кадров, присуждения ученых степеней и званий, краткие паспорта специальностей и программы-минимумы кандидатских экзаменов по специальности; в разделе "Каталог файлов" представлены доступные для скачивания файлы нормативных документов с приложениями и шаблоны регистрационных документов. Организован поиск по сайту и в сети Интернет. http://highwire.stanford.edu/

Этот сайт секции библиотеки Стэнфордского университета предлагает вниманию пользователей огромную базу материалов, которые можно загрузить бесплатно в полном объеме. Источниками предлагаемых статей являются 975 журналов, читатели имеют возможность доступа к полным текстам почти 1 435 924 статей, которые перед публикацией получили рецензию экспертов. Возможен быстрый поиск и расширенный поиск (по авторам статей, названиям, цитатам, ключевым словам и т.д.).

Личный сайт в WWW Lan07.narod.ru

Граф научных интересов

Магистрантки Лисовой А.Н. биологический факультет, специальность микробиология

Презентация магистерской диссертации

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?