Разработка сервиса для автоматического извлечения именованных сущностей из неструктурированных медицинских русскоязычных текстов
https://doi.org/10.29001/2073-8552-2025-40-2-201-210
Аннотация
Введение. В настоящее время значительная часть медицинских данных формируется и хранится в неструктурированном (текстовом) виде. Одним из способов обработки неструктурированной информации является извлечение именованных сущностей (NER – Named entity recognition). В классическом представлении решение задачи NER при работе с медицинскими текстами сводится к поиску объектов или понятий, имеющих определенный контекст и связанных с упоминаемыми в тексте действиями или событиями. В качестве конечного множества терминов для решения подобной задачи может быть использована Унифицированная национальная медицинская номенклатура (УНМН), разрабатываемая с 2022 г. на основе международных и федеральных справочников, а также других источников. На момент выполнения исследования в открытой научной литературе не было найдено сведений о существовании инструмента для решения задачи NER при работе с неструктурированными медицинскими текстами на русском языке.
Цель исследования: разработка инструмента для извлечения именованных сущностей из русскоязычных медицинских текстов.
Материал и методы. В качестве терминологического свода для решения задачи распознавания именованных сущностей использовалась УНМН. В алгоритмы предобработки текста включены сегментация текста, токенизация и синтаксический разбор предложений, лемматизация и морфологический анализ слов. Тестирование инструмента проводилось на клинических рекомендациях (КР), актуальных на момент проведения исследования. Основной метрикой качества считалась доля автоматически верно распознанных терминов относительно экспертной разметки.
Результаты. В ходе исследования был разработан Аннотатор медицинских текстов – сервис, предназначенный для решения задачи NER с последующими разметкой и категоризацией извлекаемых терминов УНМН. Данный сервис основан на использовании больших языковых моделей и собственных лингвистических правил. Аннотатор медицинских текстов может применяться для анализа текстов на русском языке с использованием любой терминологической системы. Аннотатор медицинских текстов является гибридным инструментом, обеспечивающим автоматическое извлечение до 93% терминов из свободного текста актуальных КР. Качество работы данного сервиса сопоставимо с зарубежными инструментами для решения задачи NER при работе с текстами на английском языке: cTAKES с точностью в 91% и MetaMap – с F1-score в 88% соответственно.
Заключение. В статье представлен гибридный сервис для распознавания именованных объектов в неструктурированных медицинских текстах. Сервис был апробирован путем извлечения терминов УНМН из актуальных клинических рекомендаций с последующей проверкой медицинскими экспертами. Полученные результаты демонстрируют потенциал как этого инструмента, так и Унифицированной национальной медицинской номенклатуры.
Ключевые слова
Об авторах
Л. В. РонжинРоссия
Ронжин Лев Вячеславович, аналитик лаборатории семантического анализа медицинской информации
117513, Москва, ул. Островитянова, 1
П. А. Астанин
Россия
Астанин Павел Андреевич, аналитик лаборатории семантического анализа медицинской информации, ассистент кафедры медицинской кибернетики и информатики им. С.А. Гаспаряна
117513, Москва, ул. Островитянова, 1
С. Е. Раузина
Россия
Раузина Светлана Евгеньевна, канд. мед. наук, доцент, заведующий лабораторией семантического анализа медицинской информации, доцент кафедры медицинской кибернетики и информатики им. С.А. Гаспаряна
117513, Москва, ул. Островитянова, 1
П. А. Ядгарова
Россия
Ядгарова Полина Алексеевна, аналитик лаборатории цифрового развития медицинского образования
117513, Москва, ул. Островитянова, 1
Т. В. Зарубина
Россия
Зарубина Татьяна Васильевна, д-р мед. наук, профессор, чл.-корр. РАН, директор Института цифровой трансформации медицины, заведующий кафедрой медицинской кибернетики и информатики им. С.А. Гаспаряна
117513, Москва, ул. Островитянова, 1
Список литературы
1. Гусев А.В., Зингерман Б.В., Тюфилин Д.С., Зинченко В.В. Электронные медицинские карты как источник данных реальной клинической практики. Реальная клиническая практика: данные и доказательства. 2022;2(2):8–20. https://doi.org/10.37489/2782-3784-myrwd-13
2. Лебедев С.В., Жукова Н.А. Слияние медицинских данных на основе онтологий. Онтология проектирования. 2017;7(2):145–159. https://doi.org/10.18287/2223-9537-2017-7-2-145-159
3. Demner-Fushman D., Chapman W.W., McDonald C.J. What can natural language processing do for clinical decision support? Journal of Biomedical Informatics. 2009;42(5):760–772. https://doi.org/10.1016/j.jbi.2009.08.007
4. Aronson A.R., Lang F.M. An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association. 2010;17(3):229–236. https://doi.org/10.1136/jamia.2009.002733
5. Hunter L.E. Life sciences linkout. Journal of Biomedical Informatics. 2006;39(2):192–202. https://doi.org/10.1016/j.jbi.2005.09.006
6. Humphreys B.L, Tuttle M.S. Something new and different: The Unified Medical Language System. Information services & use. 2022;42(1):95– 106. https://doi.org/10.3233/ISU-210138
7. Зарубина Т.В., Раузина С.Е., Астанин П.А. Создание базы медицинских знаний на основе национального метатезауруса для унификации разработки систем поддержки принятия клинических решений. Вестник Российской академии медицинских наук. 2024;79(2):175– 192. https://doi.org/10.15690/vramn17390
8. Reátegui R., Ratté S. Comparison of MetaMap and cTAKES for entity extraction in clinical notes. BMC Medical Informatics and Decision Making. 2018;18(S3):74. https://doi.org/10.1186/s12911-018-0654-2
9. Астанин П.А., Ронжин Л.В., Федоров А.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения аббревиатур терминов унифицированной национальной медицинской номенклатуры из текстов научных статей. Врач и информационные технологии. 2023;4:24–35. https://doi.org/10.25881/18110193_2023_4_24
10. Астанин П.А., Раузина С.Е., Зарубина Т.В. Построение этиопатогенетического образа концептов метатезауруса UMLS с использованием графовых метрик. Программные системы: теория и приложения. 2023;14(3):59–94. https://doi.org/10.25209/2079-33162023-14-3-59-94
11. Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита. Социальные аспекты здоровья населения. 2023;69(3):14. https://doi.org/10.21045/2071-5021-2023-69-3-14
12. Abdaoui A., Pradel C., Sigel G. Load what you need: Smaller versions of multilingual BERT. In: Proceedings of SustaiNLP / EMNLP; 2020. https://doi.org/10.48550/arXiv.2010.05609
13. Droganova K., Lyashevskaya O., Zeman D. Data conversion and consistency of monolingual corpora: Russian UD treebanks. Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018); December 13–14, 2018; Oslo University, Norway. Linköping Electronic Conference Proceedings 155;7:52–65.
14. Marneffe M.-C., Manning C., Nivre J., Zeman D. Universal Dependencies. Computational Linguistics. 2021;47(2):255–308. https://doi.org/10.1162/coli_a_00402
15. Qi P., Zhang Y., Zhang Y., Bolton J., Manning C.D. Stanza: A Python natural language processing toolkit for many human languages. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020;101–108. https://doi.org/10.18653/v1/2020.acl-demos.14
16. Дяченко П.В., Иомдин Л.Л., Лазурский А.В., Митюшин Л.Г., Подлесская О.Ю., Сизов В.Г. и др. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус). В кн.: Национальный корпус русского языка: 10 лет проекту. Труды Института русского языка им. В.В. Виноградова. М.; 2015:272–299.
17. Гращенко Л.А. О модельном стоп-словаре. Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. 2013;1(150):40–46.
18. Asiler M., Yazıcı A. BB-Graph: A subgraph isomorphism algorithm for efficiently querying big graph databases. Preprint [arXiv:1706.06654]; 2018. https://doi.org/10.1234/abcd.5678
19. Синева И.С., Головченко В.Е. Применение методов многомерного статистического анализа и NLP для классификации научных публикаций. DSPA: Вопросы применения цифровой обработки сигналов. 2024;14(2):44–51.
Разработан Аннотатор медицинских текстов – сервис, предназначенный для решения задачи распознавания именованных сущностей с последующими разметкой и категоризацией извлекаемых терминов Унифицированной национальной медицинской номенклатуры. Тестирование инструмента проводилось на клинических рекомендациях, а основной метрикой качества считалась доля автоматически верно распознанных терминов относительно экспертной разметки.
Рецензия
Для цитирования:
Ронжин Л.В., Астанин П.А., Раузина С.Е., Ядгарова П.А., Зарубина Т.В. Разработка сервиса для автоматического извлечения именованных сущностей из неструктурированных медицинских русскоязычных текстов. Сибирский журнал клинической и экспериментальной медицины. 2025;40(2):201-210. https://doi.org/10.29001/2073-8552-2025-40-2-201-210
For citation:
Ronzhin L.V., Astanin P.A., Rauzina S.E., Yadgarova P.A., Zarubina T.V. Development of a service for automatically extraction of medical concepts from Russian unstructured texts. Siberian Journal of Clinical and Experimental Medicine. 2025;40(2):201-210. (In Russ.) https://doi.org/10.29001/2073-8552-2025-40-2-201-210