Глубокий

Блог

ДомДом / Блог / Глубокий

Oct 09, 2023

Глубокий

Том коммуникативной биологии

Биология связи, том 6, Номер статьи: 241 (2023) Цитировать эту статью

1050 доступов

2 Альтметрика

Подробности о метриках

Одна из основных проблем биовизуализации, часто сильно недооцениваемая, заключается в том, останутся ли признаки, извлеченные для задачи распознавания или регрессии, действительными для более широкого набора аналогичных экспериментов или при наличии непредсказуемых возмущений в процессе получения изображения. Такая проблема становится еще более важной, когда она рассматривается в контексте функций глубокого обучения из-за отсутствия априорно известной взаимосвязи между дескрипторами черного ящика (глубинными функциями) и фенотипическими свойствами изучаемых биологических объектов. В связи с этим широкое использование дескрипторов, например дескрипторов, полученных из предварительно обученных сверточных нейронных сетей (CNN), затруднено тем фактом, что они лишены очевидного физического смысла и сильно подвержены неспецифическим искажениям, т.е. зависят не от фенотипов клеток, а скорее от артефактов приобретения, таких как изменения яркости или текстуры, сдвиги фокуса, автофлуоресценция или фотообесцвечивание. Предлагаемая программная платформа Deep-Manager дает возможность эффективно выбирать те признаки, которые имеют меньшую чувствительность к неспецифическим возмущениям и в то же время высокую дискриминирующую способность. Deep-Manager можно использовать как в контексте ручных, так и в контексте глубоких функций. Беспрецедентные характеристики метода доказаны с помощью пяти различных тематических исследований: от выбора вручную созданных характеристик интенсивности зеленого флуоресцентного белка при исследовании гибели клеток рака молочной железы, связанной с химиотерапией, до решения проблем, связанных с контекстом глубокого трансферного обучения. Deep-Manager, доступный бесплатно по адресу https://github.com/BEEuniroma2/Deep-Manager, подходит для использования во многих областях биовизуализации и предназначен для постоянного обновления за счет новых изменений и модальностей получения изображений.

Воспроизводимость является серьезной проблемой в биомедицинских исследованиях, особенно когда они направлены на создание прочной основы для будущих клинических методов лечения для улучшения здоровья человека. Биологические данные часто сильно варьируются, главным образом из-за неконтролируемых экспериментальных параметров. Это особенно драматично в случае получения биоизображений для количественного анализа. Если изображения не получены на одном и том же микроскопе, с одинаковыми настройками, с использованием одного и того же источника света и одной и той же клеточной поддержки, эти изображения нелегко сравнить, если не будут реализованы методы стандартизации, которые, однако, могут изменить ожидаемую динамику сигналов. Это огромное ограничение в применении к биологии методов вычислительной науки, таких как мощные инструменты анализа изображений на основе искусственного интеллекта.

В этом отношении выявление подмножества признаков изображения, которые оптимально относятся к конкретному заболеванию или, в более общем смысле, к исследуемому аспекту1,2, по-прежнему остается передовой проблемой, которую часто недооценивают, особенно в задачах классификации на основе изображений. Производительность классификаторов, использующих подмножество созданных вручную функций или функций «черного ящика», как правило, не масштабируется и обычно резко снижается при использовании с наборами данных, отличными от тех, которые используются для построения классификаторов, из-за отсутствия воспроизводимости и возможности обобщения3. Основная причина заключается в том, что экспериментальные выборки, доступные для этапа отбора признаков, обычно скудны или не настолько универсальны, чтобы охватить возможные допустимые вариации, даже возникающие в одних и тех же биологических условиях. На практике, когда результаты, полученные на меньшем наборе экспериментов, распространяются на более общее и независимое множество случаев, ожидается, что производительность резко ухудшится, как показано на рис. 1 (левая, красная ветвь). Независимо от того, используются ли функции ручного обучения или глубокого трансферного обучения (DTL)4,5 (т. е. дескрипторы, поступающие из предварительно обученной сверточной нейронной сети (CNN)), важно выбирать функции, которые обеспечивают очень большую достоверность среди гетерогенных биологические эксперименты с соответствующей репрезентативностью и обобщаемостью результатов. Этот аспект недооценивался, особенно в контексте функций DTL, где необходимо решить две другие важные проблемы: размерность функций (тысячи функций для данного изображения) и избыточность (многие функции сильно коррелируют). Внимание было сосредоточено главным образом на том, как уменьшить количество извлекаемых признаков, а не на том, как выбрать наиболее общие (т. е. действительные) из них. Выбор наиболее репрезентативных дескрипторов, как созданных вручную, так и DTL, на биомедицинских изображениях далеко не простой процесс и очень подвержен риску того, что характеристики будут зависеть не от фенотипов клеток, а скорее от яркости, текстурных артефактов, изменений фокуса. , автофлуоресценция и другие непредсказуемые нарушения. Чтобы решить эту проблему, мы представляем здесь платформу под названием Deep-Manager (DM) (синяя ветвь на рис. 1), которая позволяет идентифицировать и практически выбирать лучшие признаки для данной задачи классификации после извлечения с помощью настраиваемых функций или после передача по заданной пользователем предварительно обученной сети DL. Термин «глубокие» явно относится к глубоким функциям, для которых проблема эффективного выбора функций не решена, а риск систематической ошибки огромен3. Однако, как показано в этой работе, платформа может также работать на созданных вручную интенсивностях и особенностях текстуры, которые обычно количественно оцениваются в биомедицинских изображениях. Таким образом, DM может существенно помочь биологам в их повседневной практике проверить общую достоверность рационально выбранных признаков. Платформа DM идентифицирует извлеченные признаки, которые конкретно представляют характеристики объектов клеток/тканей, отбрасывая неспецифические макроскопические вариации, которые непреднамеренно возникают в наборе обучающих данных. Это имеет решающее значение, когда процесс получения изображения очень сложен и имеет практический предел повторяемости (например, коррелирует ли измеренная интенсивность зеленого излучения с конкретным событием или просто с явлениями автофлуоресценции? На уровне низкой интенсивности ответ нетривиален. ). Например, в биологических экспериментах с живыми клетками6 процесс сбора данных может длиться долго (например, дни), а условия сбора данных трудно контролировать в течение всего периода, как при использовании фазово-контрастного пропускающего света, так и при покадровой флуоресцентной съемке (TM). микроскопия7,8. Неоднородность видеопоследовательностей внутри эксперимента, а также вариации между экспериментами из-за неконтролируемых изменений в настройке сбора данных9 также приводят к высоким рискам ошибочных выводов из-за низкой достоверности извлеченных признаков. Эти эффекты вызывают ошибки в модели распознавания и вводящие в заблуждение биологические или клинические выводы (например, ложный ответ на лекарство). В связи с этим платформа DM позволяет эффективно выбирать среди всех признаков, извлеченных из нейронной сети DTL или с помощью настроенных вручную дескрипторов, те, которые имеют меньшую чувствительность к возмущениям и в то же время высокую дискриминирующую способность (рис. 1). синяя ветка). После применения различных тестов на деградацию к набору обучающих данных (рис. 1, правое расширение) функции характеризуются с точки зрения их дискриминантной мощности (DP) и чувствительности к деградации (SENS), измеренных как относительная разница значений DP перед и после инъекции деградации (подробности см. в разделе «Методы»). Затем используется многопороговый подход для отделения объектов с высоким DP и низким SENS (голубые точки на рис. 1, синяя ветвь) от других групп объектов (низкий DP и/или высокая чувствительность, зеленые и синие точки на рис. 1). синяя ветка). Выбранные объекты затем можно использовать в задаче классификации, предложенной пользователем, где его просят загрузить независимый тестовый набор помеченных изображений, набор тестовых данных, чтобы проверить достоверность выбранных функций путем оценки их DP по другому набору ( Рисунок 1).

thSENS (0.1) and SENS = 0.11 > thSENS (0.1) respectively) to perturbations (autofluorescence, photobleaching, saturation). Nevertheless, descriptor g75, still remains significant in terms of t-test analysis (p-value < ***) but presents a sensitivity value SENS larger than the threshold due to an unacceptable worsening in the DP performance after perturbation injection. n = 1293 biologically independent samples have been considered./p>