Молекулярный штрих-код и сеть

Новости

ДомДом / Новости / Молекулярный штрих-код и сеть

Nov 10, 2023

Молекулярный штрих-код и сеть

Том коммуникативной биологии

Биология коммуникаций, том 5, Номер статьи: 1411 (2022) Цитировать эту статью

1834 г. Доступов

1 Цитаты

18 Альтметрика

Подробности о метриках

Традиционно для различения завозных случаев малярии от аутохтонных случаев малярии использовалась история поездок пациентов, но спящие стадии Plasmodium vivax в печени затрудняют этот подход. Молекулярные инструменты предлагают альтернативный метод выявления и картирования импортированных случаев. Используя подходы машинного обучения, включающие иерархический индекс фиксации и анализ дерева решений, примененные к 799 геномам P. vivax из 21 страны, мы идентифицировали штрих-коды 33-SNP, 50-SNP и 55-SNP (GEO33, GEO50 и GEO55) с высокой способностью прогнозировать. страна происхождения инфекции. Коэффициент корреляции Мэтьюса (MCC) для существующего, широко применяемого штрих-кода 38-SNP (BR38) превысил 0,80 в 62% стран. Панели GEO превзошли BR38 со средним значением MCC > 0,80 в 90% стран в GEO33 и в 95% в GEO50 и GEO55. Для поддержки анализа данных была создана онлайн-система классификаторов с открытым доступом, основанная на вероятности (vivaxGEN-geo). Методы выбора и классификатора SNP можно легко изменить для других случаев использования для поддержки программ борьбы с малярией.

Последние три мировых доклада о малярии выявили тревожный рост числа случаев малярии, а за пределами Африки к югу от Сахары — увеличение доли малярии, вызываемой Plasmodium vivax, что подрывает согласованные усилия по снижению передачи инфекции, предпринимавшиеся в последнее десятилетие1. Эти тенденции подчеркивают острую необходимость в новых инструментах наблюдения и необходимость уделять больше внимания видам Plasmodium, не относящимся к falciparum. Одной из особых проблем в борьбе с малярией является высокая мобильность населения, что приводит к импорту изолятов Plasmodium из одной страны в другую (завозные случаи), что может препятствовать местным усилиям по борьбе с малярией и повышать риски вспышек и распространения устойчивости к противомалярийным препаратам. Чтобы противодействовать этой проблеме, существует острая необходимость в разработке инструментов, которые помогут определить, где пациенты заразились.

Отличить местную и завозную инфекцию особенно сложно для P. vivax, учитывая способность паразита образовывать спящие стадии печени (гипнозоиты), которые могут реактивироваться через несколько недель или месяцев после первоначального заражения, а также его способность вызывать высокостойкие, селезеночные поражения. и инфекции циркулирующей крови с низкой плотностью крови, которые могут ускользнуть от рутинной диагностики2,3,4. Возрождение P. vivax во многих регионах, где он когда-то был практически уничтожен, подчеркивает важность тщательного надзора5,6. В условиях низкой эндемичности относительная доля завозных случаев обычно увеличивается по мере снижения заболеваемости, что подчеркивает важность инструментов эпиднадзора, которые могут выявлять завозные случаи P. vivax, в частности, в этих регионах5. Традиционно завозные случаи выявлялись и картировались с использованием информации об истории поездок пациентов, но стойкие инфекции селезенки и крови, а также поздние рецидивы ограничивают точность этого подхода в отношении P. vivax. Молекулярные инструменты для выявления и картирования завозных случаев P. vivax представляют собой привлекательное дополнение к традиционным эпидемиологическим инструментам.

Секвенирование на основе ампликонов стало предпочтительным подходом для целевого генотипирования малярийных паразитов7,8. Используя высокопараллельные платформы секвенирования, такие как секвенаторы Illumina последнего поколения, секвенирование на основе ампликонов можно применять с умеренной и высокой производительностью, с высокой точностью и чувствительностью. Эти платформы являются гибкими и позволяют итеративно улучшать штрих-коды однонуклеотидного полиморфизма (SNP), что может обеспечить доступный подход к генотипированию, пригодный для молекулярного надзора на уровне населения.

Предыдущие исследования использовали митохондриальные и апикопластные маркеры, чтобы отличить импортированные изоляты P. vivax от местных, но разрешение этих органелларных геномов ограничено9,10,11. В 2015 году была выявлена ​​панель из 42 SNP, обычно называемая широким штрих-кодом, для облегчения идентификации паразитов и географического присвоения12. Широкий штрих-код 42-SNP был получен на основе геномных данных, полученных от 13 изолятов из 7 стран, и применялся в нескольких исследованиях с использованием целевых анализов генотипирования12,13,14. В более недавнем исследовании был выявлен еще один штрих-код SNP P. vivax с использованием данных 433 изолятов из 17 стран15. Этот штрих-код также был призван облегчить как дактилоскопию, так и географическое определение, но экспериментальные анализы для этого штрих-кода недоступны, и он остается только инструментом in-silico15. Кроме того, все исследования малярии с использованием географических штрих-кодов на сегодняшний день основывались на визуальных методах, таких как анализ основных компонентов, для оценки страны происхождения. Хотя этот подход имеет некоторую полезность, он умеренно субъективен и не отвечает потребностям конечных пользователей перевода, таких как Национальные программы по борьбе с малярией (NMCP), которые могут не обладать навыками генетической эпидемиологии или биоинформации, необходимыми для создания и интерпретации этих графиков.

 0, minimum depth of 1 and minimum Minor Allele Count (MAC) of 2 to produce Dataset 0. The restriction to bi-allelic SNPs is a standard approach undertaken in malaria population genomics to simplify downstream computations and does not impose constraints on the analysis of polyclonal infections, which are still detectable through the composite of allelic variants across the respective SNPs (see27,28,29). Individual genotype calls were defined as heterozygotes based on an arbitrary threshold of a minor allele ratio > 0.1 and a minimum of 2 reads for each allele; all other genotype calls were defined as homozygous for the major allele. Dataset 0 was further filtered to exclude non-independent samples, defined arbitrarily as isolate pairs with genetic distance less than 0.001, resulting in 1,227 samples with 662,641 SNPs, denoted as Dataset 1. Dataset 1 was then subjected to iterative data quality filtering to derive the best representative number of samples and informative SNPs without any genotype missingness by iteratively removing samples with higher missingness and calculating the number of informative SNPs (defined as SNPs with MAC > = 2), from the remaining samples. Based on the plot of the result of this data quality filtering (Supplementary Fig. 1), we identified 826 samples and 229,317 SNPs to be included in Dataset 2. The isolates in Dataset 2 were initially assigned to country based on the available metadata, which was further evaluated using 1) country-level prediction using the BALK classifier against all 229,317 SNPs and 2) manual confirmation by constructing a neighbor-joining tree based on genetic distance. Isolates whose country assignment differed from the prediction result and that were not in the same country cluster as observed manually from the neighbor-joining tree were considered suspected imported infections and removed from the dataset to produce Dataset 3, comprising 799 samples and 229,317 SNPs. For comparative assessment of candidate SNP panels, a new dataset (Dataset 4) was produced which comprised the samples in Dataset 3, but only the SNPs selected by the consecutive SNP selection process (we refer to these SNP panels as GEO barcodes) and 38 assayable SNPs from a commonly used 42-SNP P. vivax barcode developed by the Broad institute12. The SNP panel comprising the 38 assayable Broad Institute barcode SNPs is referred to as BR38. The BR38 SNP panel was integrated in the study for evaluation on its own as well as in combination with the newly selected GEO SNP panels as it has been implemented in several countries./p>