Вход для сотрудников

Федеральное государственное бюджетное научное учреждение
«ФЕДЕРАЛЬНЫЙ НАУЧНЫЙ ЦЕНТР ПИЩЕВЫХ СИСТЕМ
ИМ. В.М.ГОРБАТОВА»
Российской Академии Наук

УДК 577.2.08:577.21
Табл. 2. Ил. 2. Библ. 11.

DOI: 10.21323/2071-2499-2023-2-52-55

Использование градиентного бустинга деревьев решений для анализа генетических последовательностей

Корниенко В.Ю., канд. биол. наук, Петецкая В.Н., Фомина Т.А., канд. техн. наук
ФНЦ пищевых систем им. В. М. Горбатова
Ключевые слова: искусственный интеллект, идентификация, машинное обучение, искусственные нейронные сети, градиентный бустинг, полногеномный анализ,
Реферат:
Особенностью этой работы является анализ нуклеотидной последовательности полных геномов с использованием машинного обучения. В этой статье мы использовали библиотеку машинного обучения CatBoost для решения задачи классификации ДНК фрагментов двух модельных организмов, которые в некоторых случаях идентифицируют при исследовании продуктов питания. В результате работы было получено 38 обученных моделей для классификации микроорганизмов по участку генома. Размер баз данных для обучения был равен размеру баз данных для проверки. Количество записей варьировало от 398 до 588 859 для длин фрагментов ДНК в диапазоне от 9 до 11 000 нуклеотидов. В результате работы была показана возможность использования алгоритма градиентного бустинга деревьев решений для анализа генетической информации. Предложено использовать градиентный бустинг для целей идентификации организмов как дополнительный метод или как отдельный метод при исследовании организмов с частично секвенированным геномом.


The use of gradient boosting decision tree for the analysis of genetic sequences

Kornienko V.Yu., Petetskaya V.N., Fomina T.A.
Gorbatov Research Center for Food Systems
Key words: machine learning, artificial neural networks, artificial intelligence, gradient boosting, identification, genome-wide analysis
Summary:
The special feature of this work is the analysis of nucleotide sequences of complete genomes using machine learning. In this article, we used the CatBoost machine-learning library to solve the problem of classifying DNA fragments of two model organisms. These model organisms are sometimes identified in investigations of food products. As a result of the work, 38 trained models were obtained for classifying microorganisms by genome region. The size of the training databases was equal to the size of the validation databases. The number of records ranged from 398 to 588,859 for the lengths of DNA fragments in the range from 9 to 11,000 nucleotides. As a result of the work, the possibility of using the gradient boosting decision tree algorithm for the analysis of genetic information is shown. We proposed using gradient boosting for the identification of organisms as an additional method or as a separate method in the study of organisms with a partially sequenced genome.


СПИСОК ЛИТЕРАТУРЫ / REFERENCES:

Матвеев, Д.И. Классификация медицинских данных с использованием многослойных перцептронов / Д.И. Матвеев, С.П. Дударов // Успехи в химии и химической технологии: сб. науч. тр. Том XXXIII, У78 № 11 (221). – М.: РХТУ им. Д. И. Менделеева, 2019. – 106 с.

Matveyev, D.I. Klassifikatsiya meditsinskikh dannykh s ispol'zovaniyem mnogosloynykh pertseptronov [Classification of medical data using multilayer perceptrons] / D.I. Matveyev, S.P. Dudarov // Uspekhi v khimii i khimicheskoy tekhnologii: sb. nauch. tr. Tom XXXIII, U78 № 11 (221). – M.: RKHTU im. D. I. Mendeleyeva, 2019. – 106 р.

Mieth, B. Combining multiple hypothesis testing with machine learning increases the statistical power of genome-wide association studies / B. Mieth et al. // Scientific reports. – 2016. – Т. 6. – № 1. – Р. 36671. DOI: 10.1038/srep36671.

Наркевич, А.Н. Интеллектуальные методы анализа данных в биомедицинских исследованиях: нейронные сети / А.Н. Наркевич, К.А. Виноградов, К.М. Параскевопуло, А.М. Гржибовский // Экология человека. – 2021. – № 4. – С. 55-64. DOI: 10.33396/1728-0869-2021-4-55-64.

Narkevich, A.N. Intellektual'nyye metody analiza dannykh v biomeditsinskikh issledovaniyakh: neyronnyye seti [Intellectual methods of data analysis in biomedical research: neural networks] / A.N. Narkevich, K.A. Vinogradov, K.M. Paraskevopulo, A.M. Grzhibovskiy // Ekologiya cheloveka. – 2021. – № 4. – P. 55-64. DOI: 10.33396/1728-0869-2021-4-55-64.

Koo, C.L. A review for detecting gene-gene interactions using machine learning methods in genetic epidemiology / C.L. Koo et al. // BioMed research international. – 2013. – Т. 2013. – P. 432375. DOI: 10.1155/2013/432375.

Дружков, П.Н. Использование градиентного бустинга деревьев решений для предсказания стабильности водородной связи в белке / П.Н. Дружков, Н.Ю. Золотых // Научно-технический вестник информационных технологий, механики и оптики. – 2011. – № 6 (76).

Druzhkov, P.N. Ispol'zovaniye gradiyentnogo bustinga derev'yev resheniy dlya predskazaniya stabil'nosti vodorodnoy svyazi v belke [Using gradient boosting of decision trees to predict the stability of a hydrogen bond in a protein] / P.N. Druzhkov, N.Yu. Zolotykh // Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki. – 2011. – № 6 (76).

Корниенко, В.Ю. Общие сведения о машинном обучении и его применении для решения биологических задач / В.Ю. Корниенко, М.Ю. Минаев // Все о мясе. – 2021. – № 3. – С. 40-43. DOI: 10.21323/2071-2499-2021-3-40-43.

Korniyenko, V.Yu. Obshchiye svedeniya o mashinnom obuchenii i yego primenenii dlya resheniya biologicheskikh zadach [General information about machine learning and its application for solving biological problems] / V.Yu. Korniyenko, M.Yu. Minayev // Vsyo o myase. – 2021. – № 3. – P. 40-43. DOI: 10.21323/2071-2499-2021-3-40-43.

Yang, J. Genome-wide complex trait analysis (GCTA): methods, data analyses, and interpretations / J. Yang et al. // Genome-wide association studies and genomic prediction. – 2013. – Р. 215-236. DOI: 10.1007/978-1-62703-447-0_9.

Korte, A. The advantages and limitations of trait analysis with GWAS: a review / A. Korte, A. Farlow // Plant methods. – 2013. – Т. 9. – № 1. – Р. 1-9. DOI: 10.1186/1746-4811-9-29.

Wang, S. Tagging SNP-set selection with maximum information based on linkage disequilibrium structure in genome-wide association studies / S. Wang et al. // Bioinformatics. – 2017. – Т. 33. – № 14. – Р. 2078-2081. DOI: 10.1093/bioinformatics/btx151.

Hayes, B. Overview of statistical methods for genome-wide association studies (GWAS) / B. Hayes // Genome-wide association studies and genomic prediction. – 2013. – Р. 149-169.

Tiu, E.S.K. An evaluation of various data pre-processing techniques with machine learning models for water level prediction / E.S.K. Tiu, Y.F. Huang, J.L. Ng, N. AlDahoul, A.N. Ahmed, A. Elshafie // Natural Hazards. – 2022. – Т. 110. – № 1. – Р. 121-153. DOI: 10.1007/s11069-021-04939-8.


Контакты:

Корниенко Владимир Юрьевич
unipraim@yandex.ru
Петецкая Валентина Николаевна
v.petetskaya@fncps.ru
Фомина Татьяна Алексеевна
fomina1032@yandex.ru

Для цитирования:

Корниенко, В.Ю. Использование градиентного бустинга деревьев решений для анализа генетических последовательностей / В.Ю. Корниенко, В.Н. Петецкая, Т.А. Фомина // Все о мясе. – 2023. – № 2. – С. 52-55. DOI: 10.21323/2071-2499-2023-2-52-55.

For citation:

Kornienko, V.Yu. The use of gradient boosting decision tree for the analysis of genetic sequences /  V.Yu. Kornienko, V.N. Petetskaya, T.A. Fomina // Vsyo o myase. – 2023. – № 2. – Р. 52-55. DOI: 10.21323/2071-2499-2023-2-52-55.





Политика конфиденциальности

Противодействие коррупции

Карта сайта

Яндекс цитирования Яндекс.Метрика