Preview

Сибирский журнал клинической и экспериментальной медицины

Расширенный поиск

Разработка сервиса для автоматического извлечения именованных сущностей из неструктурированных медицинских русскоязычных текстов

https://doi.org/10.29001/2073-8552-2025-40-2-201-210

Аннотация

Введение. В настоящее время значительная часть медицинских данных формируется и хранится в неструктурированном (текстовом) виде. Одним из способов обработки неструктурированной информации является извлечение именованных сущностей (NER – Named entity recognition). В классическом представлении решение задачи NER при работе с медицинскими текстами сводится к поиску объектов или понятий, имеющих определенный контекст и связанных с упоминаемыми в тексте действиями или событиями. В качестве конечного множества терминов для решения подобной задачи может быть использована Унифицированная национальная медицинская номенклатура (УНМН), разрабатываемая с 2022 г. на основе международных и федеральных справочников, а также других источников. На момент выполнения исследования в открытой научной литературе не было найдено сведений о существовании инструмента для решения задачи NER при работе с неструктурированными медицинскими текстами на русском языке.

Цель исследования: разработка инструмента для извлечения именованных сущностей из русскоязычных медицинских текстов.

Материал и методы. В качестве терминологического свода для решения задачи распознавания именованных сущностей использовалась УНМН. В алгоритмы предобработки текста включены сегментация текста, токенизация и синтаксический разбор предложений, лемматизация и морфологический анализ слов. Тестирование инструмента проводилось на клинических рекомендациях (КР), актуальных на момент проведения исследования. Основной метрикой качества считалась доля автоматически верно распознанных терминов относительно экспертной разметки.

Результаты. В ходе исследования был разработан Аннотатор медицинских текстов – сервис, предназначенный для решения задачи NER с последующими разметкой и категоризацией извлекаемых терминов УНМН. Данный сервис основан на использовании больших языковых моделей и собственных лингвистических правил. Аннотатор медицинских текстов может применяться для анализа текстов на русском языке с использованием любой терминологической системы. Аннотатор медицинских текстов является гибридным инструментом, обеспечивающим автоматическое извлечение до 93% терминов из свободного текста актуальных КР. Качество работы данного сервиса сопоставимо с зарубежными инструментами для решения задачи NER при работе с текстами на английском языке: cTAKES с точностью в 91% и MetaMap – с F1-score в 88% соответственно.

Заключение. В статье представлен гибридный сервис для распознавания именованных объектов в неструктурированных медицинских текстах. Сервис был апробирован путем извлечения терминов УНМН из актуальных клинических рекомендаций с последующей проверкой медицинскими экспертами. Полученные результаты демонстрируют потенциал как этого инструмента, так и Унифицированной национальной медицинской номенклатуры.

Об авторах

Л. В. Ронжин
Российский национальный исследовательский медицинский университет имени Н.И. Пирогова
Россия

Ронжин Лев Вячеславович, аналитик лаборатории семантического анализа медицинской информации

117513, Москва, ул. Островитянова, 1 



П. А. Астанин
Российский национальный исследовательский медицинский университет имени Н.И. Пирогова
Россия

Астанин Павел Андреевич, аналитик лаборатории семантического анализа медицинской информации, ассистент кафедры медицинской кибернетики и информатики им. С.А. Гаспаряна

117513, Москва, ул. Островитянова, 1 



С. Е. Раузина
Российский национальный исследовательский медицинский университет имени Н.И. Пирогова
Россия

Раузина Светлана Евгеньевна, канд. мед. наук, доцент, заведующий лабораторией семантического анализа медицинской информации, доцент кафедры медицинской кибернетики и информатики им. С.А. Гаспаряна

117513, Москва, ул. Островитянова, 1 



П. А. Ядгарова
Российский национальный исследовательский медицинский университет имени Н.И. Пирогова
Россия

Ядгарова Полина Алексеевна, аналитик лаборатории цифрового развития медицинского образования

117513, Москва, ул. Островитянова, 1 



Т. В. Зарубина
Российский национальный исследовательский медицинский университет имени Н.И. Пирогова
Россия

Зарубина Татьяна Васильевна, д-р мед. наук, профессор, чл.-корр. РАН, директор Института цифровой трансформации медицины, заведующий кафедрой медицинской кибернетики и информатики им. С.А. Гаспаряна

117513, Москва, ул. Островитянова, 1 



Список литературы

1. Гусев А.В., Зингерман Б.В., Тюфилин Д.С., Зинченко В.В. Электронные медицинские карты как источник данных реальной клинической практики. Реальная клиническая практика: данные и доказательства. 2022;2(2):8–20. https://doi.org/10.37489/2782-3784-myrwd-13

2. Лебедев С.В., Жукова Н.А. Слияние медицинских данных на основе онтологий. Онтология проектирования. 2017;7(2):145–159. https://doi.org/10.18287/2223-9537-2017-7-2-145-159

3. Demner-Fushman D., Chapman W.W., McDonald C.J. What can natural language processing do for clinical decision support? Journal of Biomedical Informatics. 2009;42(5):760–772. https://doi.org/10.1016/j.jbi.2009.08.007

4. Aronson A.R., Lang F.M. An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association. 2010;17(3):229–236. https://doi.org/10.1136/jamia.2009.002733

5. Hunter L.E. Life sciences linkout. Journal of Biomedical Informatics. 2006;39(2):192–202. https://doi.org/10.1016/j.jbi.2005.09.006

6. Humphreys B.L, Tuttle M.S. Something new and different: The Unified Medical Language System. Information services & use. 2022;42(1):95– 106. https://doi.org/10.3233/ISU-210138

7. Зарубина Т.В., Раузина С.Е., Астанин П.А. Создание базы медицинских знаний на основе национального метатезауруса для унификации разработки систем поддержки принятия клинических решений. Вестник Российской академии медицинских наук. 2024;79(2):175– 192. https://doi.org/10.15690/vramn17390

8. Reátegui R., Ratté S. Comparison of MetaMap and cTAKES for entity extraction in clinical notes. BMC Medical Informatics and Decision Making. 2018;18(S3):74. https://doi.org/10.1186/s12911-018-0654-2

9. Астанин П.А., Ронжин Л.В., Федоров А.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения аббревиатур терминов унифицированной национальной медицинской номенклатуры из текстов научных статей. Врач и информационные технологии. 2023;4:24–35. https://doi.org/10.25881/18110193_2023_4_24

10. Астанин П.А., Раузина С.Е., Зарубина Т.В. Построение этиопатогенетического образа концептов метатезауруса UMLS с использованием графовых метрик. Программные системы: теория и приложения. 2023;14(3):59–94. https://doi.org/10.25209/2079-33162023-14-3-59-94

11. Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита. Социальные аспекты здоровья населения. 2023;69(3):14. https://doi.org/10.21045/2071-5021-2023-69-3-14

12. Abdaoui A., Pradel C., Sigel G. Load what you need: Smaller versions of multilingual BERT. In: Proceedings of SustaiNLP / EMNLP; 2020. https://doi.org/10.48550/arXiv.2010.05609

13. Droganova K., Lyashevskaya O., Zeman D. Data conversion and consistency of monolingual corpora: Russian UD treebanks. Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018); December 13–14, 2018; Oslo University, Norway. Linköping Electronic Conference Proceedings 155;7:52–65.

14. Marneffe M.-C., Manning C., Nivre J., Zeman D. Universal Dependencies. Computational Linguistics. 2021;47(2):255–308. https://doi.org/10.1162/coli_a_00402

15. Qi P., Zhang Y., Zhang Y., Bolton J., Manning C.D. Stanza: A Python natural language processing toolkit for many human languages. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020;101–108. https://doi.org/10.18653/v1/2020.acl-demos.14

16. Дяченко П.В., Иомдин Л.Л., Лазурский А.В., Митюшин Л.Г., Подлесская О.Ю., Сизов В.Г. и др. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус). В кн.: Национальный корпус русского языка: 10 лет проекту. Труды Института русского языка им. В.В. Виноградова. М.; 2015:272–299.

17. Гращенко Л.А. О модельном стоп-словаре. Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. 2013;1(150):40–46.

18. Asiler M., Yazıcı A. BB-Graph: A subgraph isomorphism algorithm for efficiently querying big graph databases. Preprint [arXiv:1706.06654]; 2018. https://doi.org/10.1234/abcd.5678

19. Синева И.С., Головченко В.Е. Применение методов многомерного статистического анализа и NLP для классификации научных публикаций. DSPA: Вопросы применения цифровой обработки сигналов. 2024;14(2):44–51.


Разработан Аннотатор медицинских текстов – сервис, предназначенный для решения задачи распознавания именованных сущностей с последующими разметкой и категоризацией извлекаемых терминов Унифицированной национальной медицинской номенклатуры. Тестирование инструмента проводилось на клинических рекомендациях, а основной метрикой качества считалась доля автоматически верно распознанных терминов относительно экспертной разметки.

Рецензия

Для цитирования:


Ронжин Л.В., Астанин П.А., Раузина С.Е., Ядгарова П.А., Зарубина Т.В. Разработка сервиса для автоматического извлечения именованных сущностей из неструктурированных медицинских русскоязычных текстов. Сибирский журнал клинической и экспериментальной медицины. 2025;40(2):201-210. https://doi.org/10.29001/2073-8552-2025-40-2-201-210

For citation:


Ronzhin L.V., Astanin P.A., Rauzina S.E., Yadgarova P.A., Zarubina T.V. Development of a service for automatically extraction of medical concepts from Russian unstructured texts. Siberian Journal of Clinical and Experimental Medicine. 2025;40(2):201-210. (In Russ.) https://doi.org/10.29001/2073-8552-2025-40-2-201-210

Просмотров: 19


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2713-2927 (Print)
ISSN 2713-265X (Online)