Научная
деятельность
Университет ИТМО

Ученые разработали алгоритм, который поможет более точно находить связь между генами и болезнями

Исследователи Центра геномного разнообразия ИТМО и НЦМУ «Персонализированной медицины» создали алгоритм под названием GPrior (от английского Gene Prioritizer), который использует массив данных, полученных в результате полногеномного исследования ассоциаций (GWAS), и находит конкретные гены, которые отвечают за ту или иную болезнь. В качестве примера ученые рассматривали шизофрению, коронарную болезнь сердца и воспалительные заболевания кишечника. Подробнее об исследовании и его перспективах рассказываем в материале ITMO.NEWS.

GWAS и его недостатки

Метод поиска полногеномных ассоциаций (GWAS) позволил накопить значительный массив отдельных ДНК-вариантов, ассоциированных с риском развития заболеваний. Однако он не дает представление о конкретных генах, нарушение функции которых становится причиной «поломки» в организме. Дело в том, что благодаря использованию GWAS можно получить результат, ограниченный возможностями технологии микрочипового генотипирования ― он позволяет лишь уточнить участки генома (локусы), которые ассоциированы с заболеванием. Но эти участки могут включать десятки генов, из которых только один или несколько действительно связаны с болезнью, поэтому использовать такой метод в разработке тех или иных медицинских решений довольно трудно.

Чтобы получать более конкретные и точные результаты, ученые всего мира разрабатывают методы постпроцессинга информации, полученной от GWAS. Но сложность в том, что исследователям приходится работать с очень большим массивом неизвестных данных ― не понятно, на какие из генов в ассоциированных геномных локусах нужно обратить внимание, а какие ― проигнорировать.

<p class="show_photo_comment">Манхэттенский график, изображающий некоторые тесно связанные локусы риска. Каждая точка представляет собой однонуклеотидный полиморфизм, расположение которого в геноме показано на оси Х, а на оси Y показан уровень ассоциации. Пример взят из исследований полногеномных ассоциаций для нарушений микроциркуляции в сосудах. Источник: M. Kamran Ikram / <a href="https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BB%D0%BD%D0%BE%D0%B3%D0%B5%D0%BD%D0%BE%D0%BC%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA_%D0%B0%D1%81%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D1%86%D0%B8%D0%B9#/media/%D0%A4%D0%B0%D0%B9%D0%BB:Manhattan_Plot.png" rel="noreferrer nofollow" target="_blank">wikipedia.org</a> (CC BY 2.5)</p>
<p class="show_photo_comment">Манхэттенский график, изображающий некоторые тесно связанные локусы риска. Каждая точка представляет собой однонуклеотидный полиморфизм, расположение которого в геноме показано на оси Х, а на оси Y показан уровень ассоциации. Пример взят из исследований полногеномных ассоциаций для нарушений микроциркуляции в сосудах. Источник: M. Kamran Ikram / <a href="https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BB%D0%BD%D0%BE%D0%B3%D0%B5%D0%BD%D0%BE%D0%BC%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA_%D0%B0%D1%81%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D1%86%D0%B8%D0%B9#/media/%D0%A4%D0%B0%D0%B9%D0%BB:Manhattan_Plot.png" rel="noreferrer nofollow" target="_blank">wikipedia.org</a> (CC BY 2.5)</p>

Сотрудники Центра геномного разнообразия ИТМО совместно с НЦМУ «Персонализированной медицины» разработали собственный подход к решению проблемы. GPrior ― это инструмент на основе машинного обучения, который помогает приоритезировать гены, связанные с риском заболевания. В архитектуре инструмента используется нестандартный метод ― positive unlabeled learning. Его отличительной особенностью является возможность обучения модели только на положительных примерах.

«В большинстве случаев сложно с уверенностью говорить о том, что один какой-то ген в большом множестве не отвечает за развитие фенотипа. Когда мы работаем с данными GWAS, мы имеем дело с ограниченным числом положительных примеров (генов, роль которых в развитии фенотипа мы точно знаем) и большим количеством генов, про которые ничего нельзя сказать конкретно (то есть они скрыто-положительные или скрыто-отрицательные). Задача нашего алгоритма состоит в разгадывании этого ребуса ― мы стремимся разметить все эти неизвестные данные», ― рассказывает Никита Колосов, автор исследования, сотрудник Международной лаборатории «Компьютерные технологии», программист Центра геномного разнообразия и НЦМУ «Персонализированной медицины».

Отделить зёрна от плевел

Но как научить компьютерный алгоритм понимать, что важно в множестве данных? В классическом подходе к классификаторам машинного обучения (например, если алгоритм тренируют на распознавание опухоли по фотографии) для обучения модели используется множество положительных примеров (фотографий, на которых опухоль точно есть) и множество отрицательных примеров (фотографий, на которых опухоли точно нет). Для генетической приоритезации этот способ не подходит ― здесь слишком много неразмеченных и неустановленных данных на входе.

Поэтому ученые пошли по другому пути: они используют целых пять классификаторов, которые последовательно анализируют сет данных и позволяют «навесить» на каждый ген в сете функциональную аннотацию. При этом используются два типа признаков, которые сами авторы назвали SNP-level и gene-level. На уровне SNP (от английского Single Nucleotide Polymorphism) исследуются очень схожие цепочки нуклеотидов на гомологичном участке хромосом. На более высоком, генном, уровне функциональные аннотации присваиваются уже самим генам ― это позволяет создать некую таблицу со всеми генами и их функциями.

<p class="show_photo_comment">Схема работы алгоритма GPrior. Источник: изображение из статьи / <a href="https://www.nature.com/articles/s41431-021-00930-w/figures/1">www.nature.com</a></p>
<p class="show_photo_comment">Схема работы алгоритма GPrior. Источник: изображение из статьи / <a href="https://www.nature.com/articles/s41431-021-00930-w/figures/1">www.nature.com</a></p>

«Мы берем результаты полногеномного поиска ассоциаций и те варианты, которые скоррелированы с тем или иным фенотипом (например заболевания), а затем соединяем с определенными генами посредством присвоения разных функциональных аннотаций. Для генов мы используем дополнительные аннотации, например уровень экспрессии в какой-то ткани (почках, печени и так далее). И потом на основании этих признаков мы приоритезируем все эти исследуемые гены. В итоге получается список, который говорит о том, какие гены вероятнее всего потенциально ответственны за развитие этого фенотипа», ― объясняет Никита Колосов.

Универсальный ансамбль

Как подчеркивают авторы работы, предлагаемый ими метод не только демонстрирует высокую эффективность, но и является гибким универсальным инструментом, который позволяет индивидуально подходить к каждому новому набору данных. Именно потому, что в его основе ― ансамбль из пяти классификаторов, которые последовательно анализируют множество данных.

Разработанная учеными программа находится в открытом доступе ― ею может пользоваться любой исследователь из любой точки мира. Разработчики планируют заниматься непрерывной поддержкой алгоритма и его дальнейшим улучшением.

Но в целом, подчеркивают авторы, пока что удовлетворительного решения такой сложной задачи, как поиск риск-генов для полигенных заболеваний, нет. Ученым все еще приходится сталкиваться с большим количеством специфических проблем.

<p class="show_photo_comment">Никита Колосов. Фото: Екатерина Шевырёва / ITMO.NEWS</p>
<p class="show_photo_comment">Никита Колосов. Фото: Екатерина Шевырёва / ITMO.NEWS</p>

По словам Никиты Колосова, шаг от полногеномного поиска ассоциаций к конкретным генетическим элементам, которые потенциально ответственны за развитие заболевания, сам по себе весьма нетривиален. Но это важная задача, ведь, зная генетические причины болезни, можно выработать и эффективные фармацевтические решения.

«Понять генетическую структуру и определить ту совокупность генов, из-за которой развивается заболевание ― это было бы прорывным открытием, ― рассуждает исследователь. ― Ведь многие полигенные болезни ― шизофрения или коронарная болезнь сердца ― обусловлены совместным эффектом мутаций в большом количестве генов, которые между собой как-то взаимодействуют. Деконструирование таких сложных признаков, выявление их генетических причин ― это важный момент для медицины. Совместная работа ведущих геномных и биоинформатических центров, таких как ИТМО, НЦМУ "Персонализрованной медицины", Института Броада, в нашем случае ― ключ для создания эффективных решений».

Подробнее об исследовании: Nikita Kolosov, Mark J. Daly, Mykyta Artomov. Prioritization of disease genes from GWAS using ensemble based positive-unlabeled learning. European Journal of Human Genetics, 29, 1527–1535 (2021).