Программное обеспечение для распознавания вторичных структур ДНК, связанных с эпигенетическими факторами, методами машинного обучения - Дипломная работа
Рассмотрение алгоритма нахождения зависимостей между вторичными структурами ДНК и их эпигенетическими факторами. Проектирование структуры программного обеспечения. Разработка подсистемы дисперсионного анализа "ANOVA"; пользовательского интерфейса.
При низкой оригинальности работы "Программное обеспечение для распознавания вторичных структур ДНК, связанных с эпигенетическими факторами, методами машинного обучения", Вы можете повысить уникальность этой работы до 80-100%
программный эпигенетический алгоритм дисперсионныйЦелью данной выпускной квалификационной работы является разработка исследовательского программного(ПО) обеспечения для распознавания паттернов, позволяющего выявить корреляцию между вторичными структурами ДНК и эпигенетическими факторами, методами машинного обучения для кластеризации “без учителя”. В работе так же были проанализированы алгоритмы классификации и исследованы зависимости характеристик, обучающих данных с прогнозируемой способностью методов. В этой научно-исследовательской работе для анализа наборов данных и классификатора шаблонов использовались библиотеки Pandas, NUMPY, LIGHTGBM, Sklearn, Scikit-learn и Matplotlib. На втором этапе была написана кроссплатформенное приложение, с помощью которого были найдены закономерности, а также посчитана корреляция между ними. The purpose of this final qualification work is developing research software(Software) the software for the recognition of patterns allowing to reveal correlation between secondary structures of DNA and epigenetic factors, methods of machine learning for a clustering "without teacher".В современном мире роль машинного обучения (МО) стремительно возрастает, как и число специалистов в этой области. В настоящее время одним из основных направлений, связанных с МО, является разработка методов автоматического анализа данных. В соответствии с материалами [1], предоставленными Всемирной организацией здравоохранения (ВОЗ), секвенированный файл ДНК человека занимает объем в 3,2 ГБ информации. Обнаружение консервативных позиций вторичных структур ДНК представляет интерес для эволюционных исследований последовательности генома так как указывает на их функциональную значимую роль.На данный момент существует несколько готовых открытых программ по анализу геномных данных функциональных аннотаций ДНК, включая аннотацию вторичными структурами ДНК и эпигенетическими факторами. CHROMASIG - программа которая работает с картированными данными, получаемыми в результате экспериментов технологий секвенирования следующего поколения (NGS) [3]. Основными преимуществами программы CHROMASIG являются: - может находить коррелирующие между собой области хроматиновых сигнатур; может создавать отчеты в виде иллюстрированного pdf файла. Основными недостатками программы CHROMASIG являются: - не имеет пользовательского интерфейса;В следующих разделах обсудим наборы данных, как они организованы, а также их подготовку для построения модели машинного обучения.Каждая буква представляет собой нуклеотид, их четыре вида: A - аденин, T - тимин, G - гуанин, C - цитозин. Саму первичную последовательность ДНК получают из секвенатора, процесс получения первичной последовательности называется секвенированием. В результате секвенирования получают формальное описание первичной структуры линейной макромолекулы в виде последовательности мономеров в текстовом виде.Такая пространственная структура удерживается множеством водородных связей, образуемых азотистыми основаниями, направленными внутрь спирали. Кроме канонической правозакрученной спирали, так называемой B-формы ДНК, в настоящее время показано, что ДНК способна образовывать множество альтернативных структур, таких как структуры стебель-петля, квадруплексы, триплексы, а также H-форму и Z-форму.В данной главе рассмотрим используемые методы в ходе выпускной квалификационной работы.В данной выпускной квалификационной работе также проверяется гипотеза о том, что существует взаимосвязь между вторичными структурами ДНК и эпигенетическими факторами в виде некоторой корреляции по плотности расположения внутри хромосомы. Плотностью расположения функционального элемента внутри хромосомы считается процентное соотношение покрытия некоторого участка, например, от 10 до 25 оснований, функциональным элементом. По данным аннотации вторичными структурами ДНК и эпигенетическими факторами были посчитаны значения плотности распределения вторичных структур ДНК и эпигенетических факторов для каждого из видов данных. Для подсчета плотностей в геноме, были взяты 22 файла генома человека, где одна хромосома записана в одном файле.После нахождения распределения плотностей функциональных элементов на хромосомах в геноме человека для каждого из файлов, был написан алгоритм [9,10] для дальнейшего поиска корреляции между двумя заданными аннотациями (алг. Также было реализовано визуальное отображения распределения плотностей функциональных элементов (Рис. Участки графика, где плотность равняется нулю свидетельствует о том, что данный участок не был обработан секвенатором в виду технических сложностей. Был реализован отдельный вывод ненормализованных и уже нормализированных участков двух графиков с корреляцией более 80%, а также вывод значения корреляции для этого участка, его номера из всех участков и его тип (Рис.
План
Оглавление
Введение
1. Обзор готовых средств
2. Вторичные структуры ДНК их эпигенетические данные
2.1 Первичные структуры ДНК
2.2 Вторичные структуры ДНК и их эпигенетические факторы
3. Описание методов обработки данных
3.1 Подсчет плотности
3.2 Нахождение паттернов
3.3 Подсчет параметров генома
3.4 Использование многопоточности
4. Машинное обучение в биоинформатике
4.1 Метрики оценки качества классификации
4.2 Линейная регрессия
4.2.1 Теория
4.2.2 Результаты
4.3 Логистическая регрессия
4.3.1 Теория
4.3.2 Результаты
4.4 Метод KNN
4.4.1 Теория
4.4.2 Результаты
4.5 Градиентный бустинг
4.5.1 Теория
4.5.2 Результаты
4.6 Метод опорных векторов
4.6.1 Теория
4.6.2 Результаты
4.7 Метод Lasso
4.7.1 Теория
4.7.2 Результаты
4.8 Случайный лес
4.8.1 Теория
4.8.2 Результаты
4.9 Оценка качества обучающей выборки
4.10 Сравнение методов и выбор метода классификации
5. Описание интерфейса
5.1 Сравнение библиотек
5.2 Используемые методы GUI
6. Результат работы
7. Описание вклада каждого участника
Заключение
Список литературы
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы