Биоинформатики СПбГУ разработали сборщик для расшифровки геномов коронавирусов

Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название coronaSPAdes, позволяет собирать геномы РНК-вирусов, и в первую очередь коронавирусов. По предварительным данным, с ее помощью уже удалось восстановить последовательности геномов ранее неизвестных коронавирусов.

© Пресс-служба СПбГУ© Пресс-служба СПбГУ

Модуль coronaSPAdes — это специальный режим сборщика SPAdes (Saint Petersburg Assembler) — флагманского продукта лаборатории «Центр алгоритмической биотехнологии» СПбГУ, известного во всем мире. С помощью SPAdes ученые из разных стран анализируют патогены, вызвавшие вспышку Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек.

Сборщик SPAdes и различные режимы его работы позволяют производить расшифровку геномов живых организмов, в том числе вирусов. Дело в том, что биологи до сих пор не умеют читать геномы так же, как мы читаем книгу: от начала и до конца. Вместо этого они «прочитывают» небольшие фрагменты, которые потом собирают в полный текст. Поэтому сборка генома мало чем отличается от сборки пазла из миллиона частей. Эта задача относится к одной из самых сложных алгоритмических проблем в биоинформатике, и, чтобы ее решить, необходимо использовать специальные инструменты — геномные сборщики.

«На создание модуля coronaSPAdes нас подвигли запросы научного сообщества, — рассказал сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников, один из основных авторов нового продукта. — Из разных лабораторий к нам поступали многочисленные вопросы о том, как лучше с помощью утилит семейства SPAdes собирать РНК-вирусы. Одними из таких центров являются Европейский институт биоинформатики (EMBL-EBI), с которым у нас есть совместный грант Российского фонда фундаментальных исследований, и сообщество ученых, работающих над поиском новых корона- и других вирусов в публичных данных в рамках научной коллаборации Serratus. Так как существующие модули сборщика SPAdes не дают ощутимого преимущества перед программами-конкурентами, была поставлена задача создать новый модуль, который учитывает уникальные особенности строения генома коронавирусов и данных секвенирования».

Решающая роль в этой разработке принадлежит сотруднику Центра алгоритмической биотехнологии СПбГУ Дмитрию Мелешко. Также важно отметить, что coronaSPAdes основан на предыдущих разработках лаборатории и кодовой базе семейства сборщиков SPAdes (metaSPAdes, rnaSPAdes, metaviralSPAdes, biosyntheticSPAdes). Без этих наработок создание модуля было бы невозможным.

Первая версия coronaSPAdes была разработана за пару недель. Выполнить работу в столь сжатые сроки помогли тестовые данные, предоставленные научной коллаборацией Serratus. Сегодня создатели сборщика заняты его дальнейшим совершенствованием, однако уже сейчас он позволяет восстанавливать геномы коронавирусов de novo, гораздо эффективнее и качественнее, чем альтернативные подходы. Например, из некоторых наборов данных были собраны полноразмерные геномы, по предварительным данным, ранее неизвестных коронавирусов.

Модуль coronaSPAdes учитывает особенности данных секвенирования РНК, а также реализует уникальные алгоритмические решения, нацеленные на улучшение восстановления последовательности генома коронавирусов. Более того, подходы, заложенные в coronaSPAdes, могут быть использованы в дальнейшем для разработки новых сборщиков, использующих информацию о структуре иных типов геномов.

«Сборщик coronaSPAdes сразу стал активно применяться учеными, но нам сложно оценить границы использования, потому что мы не отслеживаем всех пользователей. CoronaSPAdes является программой с открытым исходным кодом (open source), которая доступна для скачивания и использования всем желающим. По нашим данным, помимо EMBL-EBI интерес к сборщику проявили такие крупные исследовательские сообщества, как Serratus, MetaSUB Consortium и NextFlow», — отметил Антон Коробейников.

Как рассказала заместитель директора Центра алгоритмической биотехнологии Института трансляционной биомедицины СПбГУ Алла Лапидус, за короткое время в лаборатории создано несколько новых программ, целью которых является быстрая и качественная обработка геномных данных, необходимых для анализа вирусов (и не только), вызывающих различные болезни, и в первую очередь коронавирусов.

«В 2020 году эпидемиологическая обстановка в мире не позволяет ученым и медикам расслабиться — не успели еще справиться с коронавирусом, как появились сообщения о, возможно, новом штамме свиного гриппа, получившем название G4 EA H1N1, — отметила Алла Лапидус. — Выяснить, действительно ли этот штамм новый или ранее известный сезонный штамм, в первую очередь поможет анализ его генома. А на днях появились сообщения о случаях бубонной чумы в Китае, вызываемой бактерией Yersinia pestis. В такой непростой обстановке возрастает не только потребность в аналитических методах, но и в грамотных специалистах. В этом году прошел первый в истории СПбГУ выпуск магистерской программы “Биоинформатика”, и я желаю нашим выпускникам больших научных достижений и открытий».

Для информации

Лаборатория «Центр алгоритмической биотехнологии» была создана в СПбГУ в конце 2014 года в рамках проекта мегагрантов СПбГУ для решения важнейших вычислительных задач современной биомедицины. Флагманский продукт лаборатории — программа SPAdes (Saint Petersburg Assembler) — используется тысячами специалистов в области геномики по всему миру.

Источник: Пресс-служба СПбГУ

Метки , , . Закладка постоянная ссылка.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *