Preview

Сибирский журнал клинической и экспериментальной медицины

Расширенный поиск

Исследование изображений в открытых датасетах глазного дна при диабетической ретинопатии, предназначенных для обучения нейросетевых алгоритмов

https://doi.org/10.29001/2073-8552-2025-40-1-218-225

Аннотация

Сахарный диабет – распространенное инвалидизирующее заболевание, которое без надлежащего лечения приводит к ухудшению зрения и слепоте. В данной статье представлены результаты анализа дубликатов и модифицированных изображений в открытых датасетах (наборы данных, которые можно свободно скачать в сети Интернет), содержащих снимки глазного дна с проявлениями диабетической ретинопатии.

Цель: определение качества и пригодности открытых датасетов, доступных по запросу «диабетическая ретинопатия» («diabetic retinopathy») на платформе Kaggle.com, для использования в обучении моделей машинного обучения.

Материал и методы. Было проанализировано более 100 открытых источников данных с суммарным количеством изображений глазного дна с диабетической ретинопатией, составившим почти 2 млн. Исследование изображений проводилось в несколько этапов: сначала датасеты скачивались, имя и уникальная хеш-сумма каждого изображения по алгоритму SHA-3 сохранялись в специально созданную базу данных, затем считались повторные вхождения хешсумм внутри базы данных в разных наборах, производился поиск модифицированных имен файлов.

Результаты. Исследование показало, что дубликаты изображений достаточно распространены, максимальное количество повторений в разных датасетах достигало 14 . Было выявлено, что 56% всех изображений повторяются хотя бы дважды в разных наборах данных. Также была проведена работа по поиску модифицированных изображений, то есть изображений с измененным размером. В ходе анализа было обнаружено 9 наборов данных с такими изображениями, что составляет 24% от общего числа изображений в базе.

Заключение. Полученные результаты могут быть использованы для оптимизации процесса обучения и улучшения качества работы алгоритмов компьютерного зрения в офтальмологии. Также они указывают на необходимость разработки мер по предотвращению дублирования и модификации изображений в наборах данных, чтобы обеспечить их высокое качество и надежность результатов обучения нейросетевых моделей, так как создание датасетов без стандартизации и верификации не приведет к улучшению результатов машинного обучения.

Об авторах

А. И. Бурсов
Федеральное государственное бюджетное учреждение науки Институт системного программирования имени В.П. Иванникова Российской академии наук (ИСП РАН); Российский университет дружбы народов имени Патриса Лумумбы (РУДН)
Россия

Бурсов Андрей Игоревич, советник по цифровой медицине, ИСП РАН; ассистент, кафедра медицинской информатики и телемедицины, РУДН

109004, Москва, ул. Александра Солженицына, 25,

117198, Москва, ул. Миклухо-Маклая, 7



Д. М. Сафонова
Научно-исследовательский институт глазных болезней имени М.М. Краснова (НИИГБ им. М.М. Краснова)
Россия

Сафонова Дарья Максимовна, канд. мед. наук, научный сотрудник, отдел современных методов лечения в офтальмологии

119435, Москва, ул. Россолимо 11А, Б



Список литературы

1. Sun H., Saeedi P., Karuranga S., Pinkepank M., Ogurtsova K., Duncan B.B. et al. IDF Diabetes Atlas: Global, regional and country-level diabetes prevalence estimates for 2021 and projections for 2045. Diabet. Res. Clin. Pract. 2022;183:109119. https://doi.org/10.1016/j.diabres.2021.109119

2. Nanegrungsunk O., Ruamviboonsuk P., Grzybowski A. Prospective studies on artificial intelligence (AI)-based diabetic retinopathy screening. Ann. Transl. Med. 2022;10(24):1297. https://doi.org/10.21037/atm-2022-71

3. Huang X., Wang H., She C., Feng J., Liu X., Hu X. et al. Artificial intelligence promotes the diagnosis and screening of diabetic retinopathy. Front. Endocrinol. (Lausanne). 2022;13:946915. https://doi.org/10.3389/fendo.2022.946915

4. Li J.O., Liu H., Ting D.S.J., Jeon S., Chan R.V.P., Kim J.E. et al. Digital technology, tele-medicine and artificial intelligence in ophthalmology: A global perspective. Prog. Retin. Eye Res. 2021;82:100900. https://doi.org/10.1016/j.preteyeres.2020.100900

5. Nakayama L.F., Zago Ribeiro L., Novaes F., Miyawaki I.A., Miyawaki A.E., de Oliveira J.A.E. Artificial intelligence for telemedicine diabetic retinopathy screening: a review. Ann. Med. 2023;55(2):2258149. https://doi.org/10.1080/07853890.2023.2258149

6. Liang X., Wen H., Duan Y., He K., Feng X., Zhou G. Nonproliferative diabetic retinopathy dataset (NDRD): A database for diabetic retinopathy screening research and deep learning evaluation. Health Informatics J. 2024;30(2):14604582241259328. https://doi.org/10.1177/14604582241259328

7. Guo J., Li X., Zhang W., Zhong J., Liu S. Validation of automatic diabetic retinopathy screening and diagnosis via deep neural networks on multi-modal retinal fundus image datasets. 2023 International Annual Conference on Complex Systems and Intelligent Science (CSIS-IAC), Shenzhen, China; 2023:834–840. http://dx.doi.org/10.1109/CSISIAC60628.2023.10363900

8. Alwakid G., Gouda W., Humayun M., Jhanjhi N.Z. Deep learning-enhanced diabetic retinopathy image classification. Digit. Health. 2023;9:20552076231194942. https://doi.org/10.1177/20552076231194942


Дубликаты изображений достаточно распространены, максимальное количество повторений в разных датасетах достигало 14, 56% всех изображений повторяются хотя бы дважды в разных наборах данных. Обнаружено 9 наборов данных с модифицированными изображениями с измененным размером, что составляет 24% от общего числа изображений в базе.

Рецензия

Для цитирования:


Бурсов А.И., Сафонова Д.М. Исследование изображений в открытых датасетах глазного дна при диабетической ретинопатии, предназначенных для обучения нейросетевых алгоритмов. Сибирский журнал клинической и экспериментальной медицины. 2025;40(1):218-225. https://doi.org/10.29001/2073-8552-2025-40-1-218-225

For citation:


Bursov A.I., Safonova D.M. Study of images in open datasets of the ocular fundus in diabetic retinopathy designed for training neural network algorithms. Siberian Journal of Clinical and Experimental Medicine. 2025;40(1):218-225. (In Russ.) https://doi.org/10.29001/2073-8552-2025-40-1-218-225

Просмотров: 146


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2713-2927 (Print)
ISSN 2713-265X (Online)