Skip to content Skip to navigation

Автоматична обработка на медицински записи

Автоматична обработка на медицински записи – лингвистични предизвикателства

Елена Паскалева

(Институт за паралелна обработка на информацията, Българска академия на науките)

 

Резюме

Статията разглежда лингвистичните аспекти и предизвикателства в процеса на извличане на информация от медицински текстове – електронни епикризи. Разгледани са специфични проблеми и инструменти, свързани с особеностите на медицинския текст и постигнатите резултати в автоматичната обработка на естествен език върху български материал – от текст обработката до построяването на концептуални структури. Обсъждат се основни теми в движението от единиците на корпуса до концептуалната структура на медицинския документ: граматическо анотиране, използване на процедурите на плиткия синтаксис, създаване на терминологичен глосарий със семантични роли, изследване на контекстното поведение на ключови термини от предметната област, възможна употреба и надстройка над съществуващи международни стандарти за медицинска онтология.

 

Abstract

The paper presents the linguistic aspects and challenges in the process of information extraction from medical texts – electronic patient records. Specific problems and techniques related to the specificity of medical texts and to the peculiarities of Bulgarian language as well as the NLP obtained results in the field of Computational Linguistics are envisaged – from the text processing to the construction of conceptual structures. Main topics in the movement from the corpus units to the conceptual structure of medical document are discussed – grammatical annotation, use of shallow parsing results, creation of terminological glossary with semantic roles, investigation of contextual behavior of main key terms in the domain, possible use and tuning of existing international standards of medical ontology.

 

Вместо увод

Компютърната лингвистика, като всяко интердисциплинарно занятие, предлага широк диапазон от дейности и задоволяване на интереси – научни, приложни, образователни, в зависимост както от обективни фактори – поставена задача или професионална конфигурация, така и субективни. Последните могат да варират от интереса към тесен и дълбок резен от лингвистичната торта на познанието, който ти позволява да посветиш цял един живот на конкретен проблем, до осъзнатата необходимост да обхванеш повече от проявите на знанието, та макар и плитко и неравно. Изборът не е естетически, а продиктуван от практически съображения, свързани често с благородна цел, в която лингвистиката е само инструмент. От втория тип са всички практически задачи за обработка на някакво знание, дошло до нас в текстова форма. За съжаление на любителите на граматически правила, съставяни и подкрепяни от качествени литературни примери, това знание е далеч от многообразието и прегледността на изящната словесност. Тук са всички технически, административни, научни – общо казано специализирани текстове, които дават главния ресурс за извличане на информация – обикновени справки, изчислявани умозаключения, обобщени статистически данни и много други продукти на разсъждението, извършено на основата на информацията, скрита в текста. И понеже става дума за текст, информацията, освен своите специфични параметри, свързани със специализираната област на знанието, има и своето лингвистично измерение. То не е лингвистичното знание ̶ висока цел на базисните продукти на компютърната лингвистика: пълен и дълбок анализ и взаимовръзки между езиковите равнища и техните единици. То е само инструментът, който ни помага в дисекцията на предметното знание и в построяването на връзките между обектите му, дори такива, които не присъстват пряко в текста, а са изчислени – чрез формалните логико-математически методи върху подредената йерархия на текстовите обекти.

В каква степен спецификата на специализирания текст – както в съдържателната му, понятийна част, така и във формално-лингвистичната, отличаваща го от правилната, спокойна форма на общия повествователен текст, се отразява на неговата обработка с инструментите на компютърната лингвистика – това е задача индивидуална, с която се сблъскват авторите на компютърни приложения, осъществявани върху:

а) конкретна предметна област

с помощта на
б) инструментите на компютърната обработка, развити за съответния естествен език.

Конкретните стойности на горните два аргумента, предмет на обсъждане в този текст, са:

а) медицински текстове,

б) компютърни езикови технологии, развити за български език.

 

Обработка на български медицински текст – проектна рамка

Проектът ЕVТIМА (Effective Search of Conceptual Patterns with Applications in Medical Informatics – Ефективно търсене на концептуални шаблони с приложения в медицинската информатика), 2009–2012 (вж. http://lml.bas.bg/evtima, а също филмовия материал http://www.youtube.com/watch?v=K7m3JY9ekHA&feature=youtu.be), е финансиран от Фонд „Научни изследвания“ в конкурса „Идеи-2008“ ( DO02-292, 2009 – 2012 г.). Той е насочен към извличането на концептуална информация от медицински текст с помощта на формални математически методи, реализирани върху фреймовото представяне и обработка на текста.

Проектът PSIP+ , разширение на PSIP (Patient Safety through Intelligent Procedures in medication – Сигурност за пациента чрез интелигентни процедури в лечението), www.psip-project.eu , финансиран от Седма рамкова програма на ЕК, 2010-2011 г., създава компоненти на клинични системи, подпомагащи вземането на решения. Последните целят предотвратяването на рисковете от нежелани лекарствени ефекти на базата на извлечена информация от болничната информационна система (в сегментите: диагнози, лекарства, клинични данни).

Както личи от кратката анотация на двата проекта, първият е насочен повече към иновативни изследователски решения и тестване на формални методи в обработката на медицински текст, а вторият, построен на същата изследователска база, цели и реална компютърна имплементация в действаща информационна болнична система (УСБАЛЕ „Акад. Ив. Пенчев“, София)1.

Общата изследователска платформа на двата проекта е създаването на интелигентни модули за вземане на решения на базата на концептуални модели, ползващи метода на фреймовете, представяни чрез минимален краен автомат с маркери на заключителните състояния (Angelova et al. 2012) .

 

Обработка на български медицински текст – съдържателна рамка

Зад математическата терминология се крие процесът на установяване на системни връзки и взаимоотношения между понятия и техните атрибути, изразени в текста. Става дума не само за директно посочените, но и – което е най-главното, на връзки, изчислени допълнително чрез статистически и концептуален анализ на текстовите единици от различни лингвистични равнища.

С една дума, трябва да стигнем до негово величество Смисъла по някакъв начин и в някаква форма и едва след това да се опитаме да установим връзките между неговите единици – както дадени, така и изчислими.

Стандартното движение от Текст към Смисъл в компютърната си форма има идеализирано представяне, за чието реално изпълнение като цяло и по компоненти работят стотици компютърни лингвисти. То се извършва върху единиците на езиковите равнища на представяне на текста – като тръгнем от текста с неговите линейно разположени символи, минем през морфологичното му представяне във вид на анализирани думи с евентуално прибавена основна форма, построим дървото на синтактичните му връзки и стигнем до смисловия фрейм – граф с означени смисли и връзки между тях. Освен пряко изводимите от текста смислови връзки между думите съществуват и друг тип връзки – онтологичните. Те са зададени в отделни йерархии – онтологии, съставяни щателно и изчерпателно за специализирани предметни области. Тези структури представят участниците в описанието на съответната област от знанието – понятия, обекти, категории и връзки2.

Един пример от система за медицинска онтология – MeSH (примерите са преведени на български, йерархичните връзки са запазени, числата в скоби препращат към съответното дърво на понятията) по-долу, на Фигура 1.

 

Фигура 1. Йерархия на диабетните усложнения (фрагмент – PDF файл)

Но за да изминем пътя от диабета до дерматомикозата, нейните симптоми и лечение, както и обратно, трябва да вървим не по подредената таблица, където йерархията на понятията е и числово изразена, а по наличните текстови единици, фигуриращи в анализираните документи. Тези единици са твърде различни по своята природа, част от тях принадлежат към други системи – както езикови, така и знакови.

Освен сложността на един по същество семантичен анализ на текста, тук се прибавя и неговата съдържателна неконвенционалност – далеч от правилно оформление, изобилстващ с извънезикови елементи и други неудобства, които се налага да разгледаме и класифицираме подробно, тъй като са неотменна част на истинския, а не на учебния компютърен анализ и извличане на информация.

 

Текстов ресурс на експеримента

Под медицински текст могат да се разбират много неща – медицински учебници, научни статии по медицина, описания на болести и прескрипции на лекарства, отчетни болнични документи и много, много други. В повечето от изброените става дума за спокоен текст, където медицината се изявява предимно в употребената терминология. Към медицинските текстове спадат и всички видове здравни досиета, с описание на човека откъм състоянието на организма му и наблюдавани отклонения – болести и патологии. Това досие има статичен, констативен характер и е важна част от предвижданата електронизация на здравните услуги. Масовото му въвеждане е предстоящо, така че това е един ресурс на бъдещето.

Ресурсът, използван за извличане на реална информация за целите на практиката, трябва да бъде не само широкообемен, но и постоянно реално попълван, като продукт на истинско производство. Ако продуктът на медицината, разглеждана не в смисъла на наука, а на дейност, е лечението, то ресурсът, който информационно отразява това производство, е епикризата. Има се предвид болничната епикриза като разказ за лечението на болния. Тя е достъпна в електронна форма, отдавна навлязла в болничната администрация3.

Единствената пречка за използването на този огромен ресурс е изискването за анонимизация на личните данни в нея – нещо, което се постига с еднотипни замествания в документа. Както електронната форма, така и структурната схема на епикризите, добавени към постоянно растящия им обем като информационен ресурс, ги прави предпочитан източник за научни и приложни изследвания по медицинска информатика.

 

Обем и обща структура на текстовия ресурс

За целите на двата споменати проекта – EVTIMA и PSIP+, бяха обработени след анонимизация болнични епикризи на диабетно болни, предоставени от УСБАЛЕ „Акад. Иван Пенчев“. Заключенията и резултатите на първия проект са изведени от текстов корпус от 1100 епикризи, а тези на втория – от 6 300 епикризи.

Основните лингвостатистически разсъждения са извършени върху корпус от 1000 епикризи, съдържащ двете основни части на текстовия корпус в практиката на статистическите и формални изследвания за извличане на текстова информация.

Общоприетата практика на корпусната статистическа лингвистика предполага структурирането на текстовия ресурс на два основни компонента.

  1. Учебен (training) корпус, върху който се изпробват и формулират процедурите за търсене и изчисление и

  2. Тестов (test) корпус – целият масив от данни, върху който се прилагат техниките, изработени за учебния корпус.

Първият по правило е с по-малък обем, но обработен на по-дълбоко езиково равнище, с възможно най-пълния анализ с наличния инструментариум. Вторият – с по-голям обем, се използва за статистически процедури, прилагани върху необработен текст, които са базирани на закономерности, открити в учебния корпус.

Учебният корпус на проекта съдържа текстовете на 100 медицински епикризи, а тестовият корпус е с 10 пъти по-голям обем – 1000 медицински епикризи4.Измерени в текстови единици, двата корпуса са съответно 71 320 и 593145 единици.

Съпоставителните статистически изследвания, проведени върху двата корпуса, боравят с изброените и дефинирани по-долу характеризиращи ги основни единици.

 

Единици на корпуса – видове, характеристики и участие в обработката

Единицата на корпуса е символният низ, ограден от интервали и/или пунктуационни знаци.

По отношение на участието си в статистическите операции единиците се обособяват като:

  • уникални думи – различаващите се словесни единици,

  • срещанията им в текста, т.е. техните употреби.

По отношение на състава си (букви, цифри, препинателни знаци и комбинации от тях) корпусните единици могат да се класифицират в няколко разреза:

  1. спрямо знаковата система могат да бъдат буквени, цифрови и комбинация от двете, а също и пунктуационни знаци. Цифровите комбинации ни дават числата, комбинациите от букви и цифри могат да представят нормални думи, които следва да са представени в речника поради редовната си и канонизирана употреба (1-ят за разлика от първият). Пунктуационните знаци са разделители, а срещането им в състава на буквен низ е или специфичната употреба на тирето, или печатна грешка;

  2. спрямо използваната азбука буквените единици могат да са български или латински. Последните имат висока честота на срещане в медицински текстове, обикновено като мерки-съкращения (mmol) и рядко като пълнозначни думи (в българската медицинска практика латинските названия се транслитерират задължително);

  3. спрямо представителността си българските думи могат да се разглеждат като уникални – различни в буквеното си оформление, и словоупотреби – всичките срещания на една уникална дума в текста. Уникалните български думи ни дават речника на текста и могат да бъдат анотирани в следващи етапи на анализа;

  4. според начина на представяне – пълен или мнемоничен, думите, освен нормални, могат и да бъдат съкращения – части от думи, често със смесен състав, препращащи към цяла дума5.

 

Количествени съотношения между корпусните единици

По-долу, в Таблица 1, е дадено съотношението между различните видове текстови единици по линията на разграничаване между символите: буква – българска или латинска, цифра и препинателен знак.

 

 

Учебен корпус

Тестов корпус

 

Уникални

Словоупотреби

Уникални

Словоупотреби

Общо единици

-

71320

-

593145

Думи

4117

47991

20656

443392

Латински

-

-

1411

5790

Пунктуация

20

17472

19

124494

Съкращения

71

4008

64

34728

Числа

-

5149

-

64011

Таблица 1. Честотни характеристики на експерименталния корпус – учебен и тестов компонент.

 

Както се вижда от таблицата, съотношението между обемите на тестовия и учебния корпус е 8,3:1. Съотношението между отделните видове единици е различно от горното в допустими рамки. Например съотношението уникални думи: словоупотреби в учебния корпус е 11.6:1, докато в тестовия корпус е 21.4:1 – напълно обяснима разлика, понеже с нарастване на обема словоупотребите се увеличават по-бързо от появата на нови думи. За отбелязване е, че броят на уникалните думи в двата корпуса е в съотношение 5:1, което говори за не толкова бедна лексика, колкото би трябвало да се очаква от толкова тясно специализиран текст. Може би това се дължи и на „богатството“ на епикризата като разказ, ситуации и аспекти (вж. по-долу).

Пропорциите в другите видове корпусни единици, които не са лексикално значещи за лингвистичната обработка, не подлежат на паралелно съпоставяне, тъй като за учебния корпус след граматичната анотация е извършена ръчна редакция, която е поправила грешните думи, преместила е някои единици в друг разряд и е канонизирала в известна степен текста. Така например латинските единици са преместени в съкращенията. Такава обработка по подразбиране не може да се извърши върху тестовия корпус, който трябва да остане в „девствен“ вид.

Общо наблюдение за обработваните текстове е изобилието от грешки – граматически, лексикални и печатни, тъй като епикризите не са минавали никаква редакция и не са официален документ.

 

Корпусни единици – примери

Долните примери показват конкретни срещания на комбинации от българска дума, латинска дума, числова стойност, име, съкращение. Българските думи са подчертани. Те трябва да фигурират в български речник като обща и терминологична лексика.

сутрин 16 Е Актрапид

леко набелязани ад сакрум

стенокардия стабилис

катаракта патологика окули утреускве

АХ/ИБС/ ЕМГ/ СУЕ/

ммол

ph – 6

Na- 151

L4-L5

 

Операции върху корпусния текст: от думата към смисъла

Споменатите по-горе две реалности на езиковия израз – Текстът и неговият Смисъл, предопределят два начина на атака на текстовия ресурс – от общо към частно (top-down подход) и обратно (bottom-up подход). С други думи, движение от реалностите на текста и неговите единици към резултати и обобщения на различни езикови равнища (възприета техника за учебния корпус) или от абстрактни построения на смисъла към тяхното изразяване и съответното им откриване в текста (спомагателна техника, употребявана предимно за тестовия корпус)

.

Граматическа анотация на учебния корпус

След изчистването на неезиковите и небългарските елементи от текста останалите думи се подлагат на автоматични (и полуавтоматични) процедури за преминаване (пълно или частично) към следващи езикови равнища – морфологично, синтактично, смислово, с наличните инструменти на компютърната лингвистика и формалните статистически изследвания.

Първата задължителна процедура за езици с развита морфология като българския е морфологичният анализ, т.нар. граматическо анотиране, което се състои в следното:

Върху буквените низове се налагат единиците на компютърен граматически речник, който за всяка своя единица – словоформа предлага нейния инвариант (основна форма, лема) плюс граматическите признаци на словоформата. Използваният за тази цел компютърен речник съдържа 1 200 000 словоформи, представящи 80 000 леми. Техните граматически признаци, обединени в анотационно множество, следват общоевропейския анотационен формат, приет в проекта MULTEXT-EAST. Подробно описание на анотационното множество вж. в (Паскалева 2007).

Резултатите от тази анотация целят да се сведе многообразието от граматически форми към основната, носеща смисъла (калциев антагонист vs. калциевия антагонист vs. калциеви антагонисти), което улеснява построяването на концептуалните структури независимо от формите на думите, в които са изразени. Резултатите от анотацията са представени в xml формат (вж. примера по-долу).

Поради спецификата на медицинския текст (ненормативна лексика, терминология, липсваща в обикновените речници – инструменти на анотацията, латински изрази и пр.) непълнотата на граматическата анотация бе допълнена ръчно чрез специална организация на xml резултатите, което даде пълен и еднозначен граматически анализ на учебния корпус. Така бе осъществено и снемането на граматическата омонимия, извършвано в общия случай със специални инструменти – тагери, които изискват настройка към медицински текст, липсваща в момента.

Пример за анотация в xml формат:

ТЕКСТ:

С незадоволителен контрол на кръвната захар с чести епизоди на хипогликемия и повишени кръвно захарни нива.

Анотация в xml формат:

<tok>
<orth>С</orth>
<base>с</base>
<msd>S</msd>
</tok>
<tok>
<orth>незадоволителен</orth>
<base>незадоволителен</base>
<msd>A:-pms-n</msd>
</tok>

<tok>
<orth>контрол</orth>
<base>контрол</base>
<msd>N:cmsnnn</msd>
</tok>

<tok>
<orth>на</orth>
<base>на</base>
<msd>S</msd>
</tok>
<tok>
<orth>кръвната</orth>
<base>кръвен</base>
<msd>A:-pfs-y</msd>
</tok>
<tok>
<orth>захар</orth>
<base>захар</base>
<msd>N:cfsnnn</msd>
</tok>
<tok>
<orth>с</orth>
<base>с</base>
<msd>S</msd>
</tok>
<tok>
<orth>чести</orth>
<base>чест</base>
<msd>A:-p-p-n</msd>
</tok>
<tok>
<orth>епизоди</orth>
<base>епизод</base>
<msd>N:cmpnnn</msd>
</tok>
<tok>
<orth>на</orth>
<base>на</base>
<msd>S</msd>
</tok>
<tok>
<orth>хипогликемия</orth>
<base>хипогликемия</base>
<msd>N:cfsnnn</msd>
</tok>
<tok>
<orth>и</orth>
<base>и</base>
<msd>C:c</msd>
</tok>
<tok>
<orth>повишени</orth>
<base>повиша</base>
<msd>V:mps-p-pn</msd>
</tok>
<tok>
<orth>кръвно</orth>
<base>кръвно</base>
<msd>R:--</msd>
</tok>
<tok>
<orth>захарни</orth>
<base>захарен</base>
<msd>A:-p-p-n</msd>
</tok>
<tok>
<orth>нива</orth>
<base>ниво</base>
<msd>N:cnpnnn</msd>
</tok>

Последователността на таговете в анотираната единица е: единица, лема, граматическа анотация. Означения извън анотацията: pun – пунктуационен знак, tok – единица, orth – буквена или цифрова единица, msd – морфосинтактична дефиниция.

 

Количествени измерения на граматическото разпознаване

Резултатите от граматическата анотация откриват един друг аспект от спецификата на медицинския текст, който допълва съотношението думи:недуми, т.е. наличието на извънезикови единици. Това е съотношението думи в текста:думи в речника, т.е. наличието на езикови единици извън общата лексика (ако допуснем, че компютърният речник е достатъчно пълен, за да покрие обикновен текст).

Таблица 2 по-долу показва тези две съотношения за учебния корпус. Прави впечатление големият процент неразпознати от речника думи. Тъй като този процент се изчислява само върху буквените низове на кирилица, след елиминирането на неезиковите елементи (числа, латински низове и смесени случаи), очевидно става дума за медицинската терминология или грешно изписани думи, и двете категории с висока честота в медицински нередактиран текст, какъвто е епикризата.

 

 

брой

процент

от

Общо низове

65600

 

 

Неезикови

6680

10,2 %

общите

Езикови

58920

89,8 %

общите

Неразпознати

13370

22,7 %

езиковите

Разпознати

45550

87,3 %

езиковите

Таблица 2. Буквени низове – извънезикови и извънречникови елементи в медицински текст.

 

Същите две съотношения разкриват още по-добре спецификата на медицинския текст, ако ги разгледаме в съпоставка с текст на литературна проза. Това личи от Таблица 3 по-долу:

 

 

 

брой

процент

от

общо единици

медицина

65 600

-

-

 

проза

57 600

-

-

езикови

медицина

58920

90%

общите

 

проза

57 600

100%

общите

неезикови

медицина

6680

10%

общите

 

проза

-

-

-

разпознати

медицина

45550

77%

езиковите

 

проза

54204

94%

езиковите

неразпознати

медицина

13370

23%

езиковите

 

проза

3396

6%

езиковите

уникални

медицина

2600

5,7%

езиковите

 

проза

10516

19,4%

езиковите

Таблица 3. Съотношение между текстови единици по оста: езикови/извънезикови, речникови/извънречникови, уникални думи/словоупотреби в медицински текстове и в литературна проза.

 

В горните данни правят впечатление няколко разлики в числовите стойности. На първо място – липсата на извънезикови единици в литературния текст и големият им процент в медицинския. На второ – разликата в процента на неразпознати от речника думи – 4 пъти по-висок за медицинския текст. Причината е в терминологията и грешното изписване. На трето – разликата в процента на уникалните думи спрямо словоупотребите – 4 пъти по-висок за литературния текст. Причината е бедността на специализираната медицинска лексика.

Съотношението текст:речник за тестовия корпус, измерено в съвпадащи думи, т.е. покритието на текста от речника e друга важна статистическа характеристика, показваща обема на предстоящата граматична обработка на тестовия корпус (базирана на правила или на статистически процедури).

Азбучно подредената съвкупност на анотираните думи от учебния корпус образува неговия речник. Налагането на това множество от анотирани думи върху множеството на уникалните думи в тестовия корпус ни дава процента на съвпадение на текста с речника, или процента на успешната му граматическа обработка. От 20656-те уникални думи в тестовия корпус 3586 се съдържат и в учебния корпус (с анотация), което дава 17,36% анотация на тестовия корпус, извършена чрез просто налагане на учебния корпус върху него. Останалите 82,64% от думите трябва да се анотират с други средства (инструменти от рода на тагерите, подсилени с ръчна и полуавтоматична обработка).

Норма и специфика на медицинския текст по езикови равнища

Цитираните статистически данни, илюстриращи отношението между текст и език, от една страна, и текст и речник, от друга, показват главните трудности и предизвикателства пред обработката на медицинските записи на най-повърхнинните езикови равнища.

На буквено равнище.

На първо място е силното замърсяване с небуквени единици, често в смесени низове. Най-честа е появата им в резултатите от клинични изследвания.

 

Вж. например:

От изследванията: СУЕ – 24 ХБ. -139 ; Ер. –4.68 ; Хткр. –0.41 ; Левк. –4.8, Тромбоцити-284 ; АСАТ -29.9 АЛАТ -42 ; Общ белтък –72.1; ХбА1с –9.5;

Кръвно-захарни профили-24 часов- 8.9, 12.8, 10.4, 11.0, 10.7, 9.0, 7.7, 7.5, 8.6. Четирикратни- 6.8, 8.9, 10.4, 9.6. 8.6, 7.7, 6.6, 8.3.

Друг тип замърсяване е употребата на латински букви. Тя често се дължи на нерегламентирана употреба, например, при имена на лекарства и дозировки, вж.

В момента приема : Renapril 2x10 mg; Norvask 5 mg; Sotanorm 2x80 mg; Dehydratin Neo 1t.

но:

Терапия при приемането: Ново Рапид 10+10+10 E; Инсулатард 20+0+10 E; Диротон 10 мг сутрин; Верапамил 2х120 мг; Пентоксифарм 2х100 мг


На лексемно равнище.

Замърсяването тук идва от два главни източника, генериращи думи, неразпознати от компютърния речник, колкото и голям да е той. И двата източника са терминологични, но са разположени в различни знакови системи. Първият са българските медицински термини, вторият – латинските такива, транслитерирани на кирилица. Извън тях е третият източник на неразпознати думи – грешно въведените такива.

Българските медицински термини са в голямата си част латински по произход, но са влезли в българската словоизменителна система и имат съответното морфологично поведение в текста. Вж. например: хиперстеничен, респираторен, перкуторен, палпация, синдром, кетоацидоза и др. Има и термини, чисто български по произход, специфични и чужди за общата лексика и отсъстващи в компютърните речници, напр. надбъбречен, подбедрица, слезка и др.

Латинските транслитерирани термини са предимно част от диагнозата, а също и анатомични названия, вж. катаракта патологика окули утреускве, фундус и др. Срещат се предимно в раздела Диагноза на епикризата. В учебния корпус липсва единство в наименованията (всеки латински термин има своя български преводен еквивалент), вж. пълния раздел Диагноза в две отделни епикризи:

ДИАГНОЗА: Диабетес мелитус типус 1. Ретинопатия диабетика нон пролиферанс. Полиневропатия диабетика. Хипертония артериалис гр І. Синдром каналис карпи билатералис. Астма бронхиале

срещу:

ДИАГНОЗА: Захарен диабет тип 2 с вторична резистентност към СУП. Диабетна непролиферативна ретинопатия. Диабетна полиневропатия. Артериална хипертония II стадий. Нодозна еутиреоидна струма-ІБ ст. Хроничен пиелонефрит.

 

Морфологичното поведение на термините – български думи, също има своя специфика. Отбелязва се бедност на формите, тъй като твърде често термините са в основна форма, част от номинативни названия, изброени списъчно, особено в раздела Обективно състояние.

Грешно въведените думи са много, поради неофициалния характер на нередактираната епикриза. За такъв процент не можем да говорим в официални медицински документи, книги и закони. В тестовия корпус имаме 380 грешно изписани словоформи, които след корекция влизат в лексемния състав на речника на текста.


Пътища за преодоляване на лексемното „замърсяване и липси“

В голямата цел – създаване на специален инструментариум и лексикални ресурси за автоматична обработка на български медицински текстове, гореизброените липси, недостатъчността на общите компютърни лексикални средства и последиците от ненормативността на обработваните документи могат да се преодолеят комплексно с различни средства, а именно:

  • Софтуерни – чрез дружелюбен интерфейс за въвеждането на записите, който да осигурява както корекция на грешките, така и унификация и стандартизация на записите.

  • Ресурсни – непрекъснато допълване на основната речникова база с термини, създаване на допълнителни списъци от специфични медицински съкращения и смесени означения,

  • Алгоритмични – създаване на специализиран правописен коректор за медицински текстове (поради допусканите отклонения от българските правописни принципи – вж. например немислимото съчетание от гласни в тиреоидален)

 

След морфологичната анотация – накъде?

След пълната граматическа анотация, след корекцията на грешките и запълването на липсващите лексемни елементи се предполага, че можем да минем към синтаксиса, по пътя bottom-up – от текст към смисъл чрез пълен анализ. Пълното изминаване на този път е по-скоро модел, идеал, цел. От пълния граматичен анализ, реализиран за повечето европейски езици, се достига най-много до един частичен синтактичен анализ, обхващащ представителна част от синтактичните конструкции. За пълен смислов анализ не се мечтае, затова пък съществуват много семантични построения във вид на различни структури, които могат да помогнат в смисловата организация на значещите текстови части.

До тук – до експерименти с частичен синтактичен анализ, откриване на синтактични групи, най-вече номинални, достига и нашият експеримент, извършен с традиционните средства на компютърната лингвистика. Те са: анотиране чрез речник и – на неговата основа – обособяване на минимални синтактични групи от т.нар. плитък синтактичен анализ, наричани още chunks, нещо като текстови „хапки“. Пример за такива групи в текста на учебния корпус са:

  • захарен_диабет

  • кръвната_захар

  • долните_крайници

  • миналата_година,

  • медикаментозна_алергия,

  • Установена_алергия

  • видима_възраст,

  • добро_общо_състояние,

  • Костно-мускулна_система

  • запазена_респираторна_подвижност,

  • Ритмична_сърдечна_дейност

  • меки_еластични_стени,

  • дълготрайна_артериална_хипертония,

  • глезените, запазени_пулсации

  • ЕКГ-синусов_ритъм,

  • годишна_жена

  • захарен_диабет-тип

Последните четири примера са грешно анализирани поради неправилна пунктуация, неотчитане на числов низ – член на синтактична група, а също и поради омонимия (словоформата глезените възприета като причастие). В текста на епикризите могат да се срещат единици на примитивния синтаксис от следния вид: диабетна дистална симетрична сензомоторна полиневропатия. Те могат да се регистрират по традиционния начин след терминологичното допълване на речника.

С метода на традиционното компютърно обособяване на текстови „хапки“ върху анотиран текст бяха обособени 512 синтактични „плитки фрази“ (с 10% грешни поради правописни грешки и неснета омонимия), най-дългите от които съдържат до 5 думи (двигателни и отпадни сетивни симптоми).

За регистрацията на подобни синтактични връзки по пътя до смисловите такива, по-нататъшното движение по пътя bottom-up трябва да включви статистически формални методи (например метода на N-грамите), което е направено в доста изследвания и експерименти. Двата подхода се пресичат и допълват.

Към смисловата организация на текста очевидно трябва да се подходи и от другата страна – по пътя top-down, т.е. от смисъла на целия документ до смисловата организация на отделни думи и групи от думи.

Както традиционните методи на chunking-а, така и формалните статистически методи са улеснени от спецификата на езика на епикризите. Техният синтаксис е спокоен, прав, липсват инверсии, вметнати части, сложни изреченски структури с подчинение и съчинение. Рядко се употребяват клитики – кратките притежателни местоимения, кандидати за вклиняване между частите на номиналната група, имат по 2–3 срещания в целия тестов корпус.

 

Операции върху корпусния документ: от смисъла към думата

Разделянето на двата възможни подхода – от текстовите единици към смисъла и обратно, е в значителна степен условно. Те не са алтернативни, а допълващи се. Операциите по изчистване на „шума“ в текстовете, граматическата анотация и други нормализиращи и стандартизиращи процедури са необходим компонент на движението към смисловия фрейм. От другата посока налагането на медицинската онтология върху текстовия материал може да бъде улеснено от смисловото структуриране на надизреченско ниво, с други думи – на единицата документ, по-сложна единица на корпуса, каквато е всяка една епикриза. Това се налага и от смисловата структура на епикризата – сложен сценарий, а не документално изброяване на медицински факти.

 

Концептуална структура на епикризата

Медицинската експертиза извън официално приетата дефиниция за нея е един разказ, сценарий, описващ вид производство – поправката (ремонта) на повреден обект (пациент). При това най-голямо внимание се отделя на параметрите на повредата и тяхната диагностика, взетото решение за ремонта и неговите основания, а също и различните параметри на поправката, увенчани с постигнатия резултат. Много от тези характеристики се разполагат на времевата ос, неслучайно развитието на болестта, съществена част от епикризата, се нарича и „история на заболяването“.

Това схематично „фреймово“ описание е възприето и в медицинската практика, която определя следните части на епикризата:

А. Идентификационна част, която съдържа три типа данни: за лечебното заведение, болния и болестта, последните във вид на диагноза, която е централна семантична опора на целия сценарий. Нейните съставни части са свързани с всички фреймове в следващото изложение на производствения процес – статус и лечение. Трите типове данни са един вид паспорт за трите вида обекта. Това се вижда и от схематичното им текстово оформяне по точна мостра, каквато е тази на идентификационната част. Особено първите два типа данни са с проста и твърдо зададена лингвистична структура – типови номинални фрази. Синтактико-лексикалният състав на диагнозата е малко по-сложен – съдържа твърдо зададени номинални фрази, които могат да се събират и извличат от глосарий – имена на болести и симптоми (симптомът е съставяща на болестта).

Б. Функционална част, описваща заболяването в процеса на възникване и развитие, в лечението и постигнатите резултати. Тук описанието е много по-свободно в езиковия си израз – като богатство на лексиката и на перифразите – синтактични и семантични. Тя съдържа следните твърдо зададени компоненти – анамнеза и болничен престой.

 

Функционални и семантични характеристики на основния фрейм на епикризата.

Възприетата структура на епикризата със задължителни части, определени от медицинската практика и стандарти, улеснява генералната разбивка на фрейма на епикризата на три основни фрейма, разположени по темпоралната ос. Първият от тях представя факти до момента на лечението:

  • фамилни параметри на болния, локализиращи симптомите на болестта във фамилното обкръжение;

  • история на болестта (анамнеза), в която симптомите на болестта имат времева локализация, чиито характеристики могат да са положително, но и отрицателно изразени;

  • заболявания, съпровождащи главното (придружаващи заболявания);

  • рисковите фактори – параметри, свързани с болестта с каузална връзка.

Вторият фрейм ни дава сценария на самото лечение, където поправката на повредения обект се разбива на следните части:

  • обективно състояние – главните характеристики на повредения обект (представени като характеристика на съставните му части – органи, и на тяхното функциониране – като системи);

  • изследвания, обусловени от параметрите на диагнозата;

  • консултации с други специалисти, обусловени от съпровождащите заболявания.

Третият фрейм завършва епикризата като обобщаваща част – обсъждане, където се събира екстрахирана информация от предишните раздели, прибавени факти, ориентирани към бъдещи действия, а също и оценъчни параметри на извършените поправки.

 

Подходи към фреймовата обработка на епикризата

Тази съвсем кратка схема на съдържанието на една медицинска епикриза ни дава достатъчно информация, за да преценим като невъзможна практическата задача да представим епикризата като един общ гигантски фрейм. Без дори да се опитваме да отчетем възможните езикови форми на повърхнинното представяне на гореописаните връзки и явления, трябва да се стремим да намалим концептуалната сложност на модела на експертизата и сложността на връзките между смисловите и езиковите структури по два главни начина.

Единият е разбиването на епикризата на съставни части, всяка една от които описва наличните смислови и текстови връзки за определен фрагмент от медицинското знание. Например: връзка между физически статус и диагноза, оттам и към назначено лечение, между придружаващи заболявания и консултациите със специалисти, а оттам към диагнозата, и много други възможни релации между дадени характеристики и предприети действия.

Вторият (комбиниран с първия) е стесняването на предметната област на епикризата. Без това стесняване ще се наложи да се въведат енциклопедични концептуални представяния на всички възможни болести, тяхното лечение и пълното описание на човешките органи и системи.

Такова обособяване на различни подграфи в общата концептуална схема на епикризата има своята гносеологична обосновка – невъзможността да се обхване пълното универсално знание за човека, неговите болести и лечение, та дори и в ограничените рамки на стандартен медицински отчет, какъвто се явява епикризата.

 

Автоматично концептуално зониране на епикризата в интранет

Теоретичните – концептуални и лингвистични методи и констатации за разбиване на основния документ – епикризата, на смислови зони, са подкрепени от автоматична процедура за разбиване на тестовия корпус от 1000 епикризи на смислови зони. Това са части на документа, представящи разказа за лечението на болния от различен аспект както на болестта, така и на лечението. Бяха установени основните семантични зони на епикризата, на брой 8, представящи следните елементи на смисъла на епикризата:

  • заглавие

  • идентификационни данни на пациента

  • диагноза

  • анамнеза

  • статус на болния

  • проведени изследвания

  • извършени консултации

  • обсъждане на лечението.

Бе разработена процедура за откриване на тези основни семантични зони чрез формалните критерии на тяхното деклариране и обособяване в текста. Формалните критерии са – елементи на текстовото разделяне и на пунктуацията, както и определени ключови думи и техните текстови варианти. Бе разработена процедура за автоматично семантично зониране въз основа на тези критерии. Процедурата е подпомогната от специален интерфейс, реализиран в интранет среда. Нуждата от такъв интерфейс се обуславя от значителните отклонения на тестовите документи от строгото форматиране на смисъла на епикризата, както и от изобилието от грешки в нередактирания корпус. Процесът на редактиране и обучение на зониращата процедура осъществява 100-процентно семантично зониране на тестовия корпус от епикризи.

Много от разглежданите по-нататък изследвания са извършени в извадка от определени зони, чието посочване, обособяване и изходно предоставяне е осигурено от дружелюбния интерфейс на програмата (вж. по-долу).

 

Задаване на параметри

 Екран 1. Задаване на параметрите на зониращата процедура в интранет-зонирането.

 

Илюстрираното по-горе първоначално задаване на епикризните зони включва: порцията епикризи за зониране, наименованието на зоната, ключови думи за автоматичното й откриване във всичките контекстни варианти.

 

Статистически данни

Екран 2. Статистически данни за документите според: а. броя на идентифицираните в тях зони, б. идентифицираните зони в брой документи.

 

Софтуерът дава възможност за групиран изход на резултатите в конкретен разрез от документи както по поредност в тестовия корпус, така и по брой зони по избор. Така например контекстните изследвания за симптомите на диабета в епикризата бяха извършени само върху зоната Анамнеза на епикризите.

 

Извличане на информация от суров текст по концептуални шаблони

Концептуалното зониране на епикризите ни дава грубо разпределение по големи текстови порции, релевантни за различен тип информация – срв. например съдържанието на зони Статус и Изследвания. В границите на тези порции следва да се извършва по-нататъшното смислово търсене по налични концептуални шаблони – темплейти, по съществуващи онтологии (напр. UMLS) и други смислови парадигми. Това ще ни доведе до целта на съответните проекти – извличане на различен тип информация за всички параметри на лечебния процес, включително и такава, която не се съдържа явно в медицинския запис, извеждане на нови зависимости и взаимовръзки.

Показаните по-горе свойства на медицинския текст по отношение на неговата нормативност и правилност, както и силната му терминологична наситеност, не позволяват това смислово търсене да се извърши върху по-дълбоко езиково равнище, т.е. върху тагиран и парсиран текст, тъй като ключови (за анализа на текста и неговото съдържание) елементи са кодирани с извънезикови средства. Освен лексикалната ненормативност заслужава отбелязване и синтактичната непълнота на текста, съставен в по-голямата си част от номинални фрази, а не от завършени изречения. Към тази осакатеност и неправилност на стандартния езиков израз се прибавя, от друга страна, богатството на смисловите връзки и аспекти – например богата темпорална структура: около 2/3 от текста описват явления, ситуирани в различни времеви периоди.

При толкова висока степен на ненормативност на оформлението и богатство на съдържанието обикновено се прибягва до прилагането на статистически методи, но те от своя страна предполагат наличието на голям текстов корпус за наблюдение, тренинг и тестване. Такъв огромен материал в областта на медицинските епикризи естествено липсва.

По тази причина извличането на конкретни концептуални връзки и закономерности бе атакувано едновременно от две страни.

  1. от посоката: текст – речник – смислови единици, за целите на едно грубо семантично анотиране на текстовите единици;

  2. от посоката: онтологични структури – текст – през контекста с формалните методи на концептуалното моделиране.

Двата подхода се допълват и обогатяват в резултатите си, още повече, че използваните онтологични структури са развити за английски език и контекстуалното поведение на техните единици трябва да се изследва за българската текстова среда. Така се появява нуждата от:

  1. количествено изследване на контекстуалното поведение на основни единици в смисловия фрейм.

Тъй като настоящето изложение е посветено на лингвистичните трудности на това извличане на информация, ще разгледаме по-подробно проблемите на 1. и 3., като разгледаме в общи линии постигнатите резултати по т. 2, (тяхното подробно описание вж. в (Boytcheva and Angelova 2009).

 

Семантични роли на медицинските термини

Ръчното семантично анотиране на извлечените от текстовия речник на Учебния корпус, (4117 уникални думи) думи-термини, на брой 1036, дава следните първоначални резултати от една груба семантична класификация. Тя е осъществена ръчно по правилата на традиционната лингвистична семантика, според едно общо възприемане на основните смислови роли на единиците-термини (идентифицирани също ръчно от думите извън речника).

Състав на терминологичния лексикон

Като термини са определени езикови единици, които:

  1. не принадлежат към общата лексика на езика, означават обекти и операции от специализираната област – медицина и значението им се определя трудно от човек без специална медицинска подготовка (напр. трикуспидална);

  2. принадлежат към общата лексика на езика в общото си значение, но в специализирани текстове са част от по-сложни комплекси от думи, означаващи основни медицински понятия, обекти и операции (напр. блок в ляв бедрен блок).

Като граматически единици анотираните семантично термини са предимно:

  1. съществителни (60%), означаващи обекти, действия и състояния (билирубин, коагулация, оточност );

  2. прилагателни и причастия (40%), означаващи атрибути, аргументи (калциев, алергичен).

В отношението обекти:атрибути вторите са свързани с първите с генералната връзка – отнасящ се до, свързан с, дължащ се на, характеризиращ се с (вж. артрозни изменения, ревматичен сърдечен порок, спастичен колит). Като граматически единици в по-голямата си част термините-атрибути са относителни прилагателни, които не позволяват степенуване. Друга, по-малка част от тази група изразява самостоятелни атрибути, поясняващи обектите по отношение на количество, качество или друга обща спецификация, (вж. остър пиелонефрит, чести екстрасистоли). Като граматически единици това са предимно качествени прилагателни, позволяващи степенуване, а като лексикални единици членовете й са част от общата лексика на езика. Включването им в списъка на термините е заради участието им в устойчиви словосъчетания с диагностична стойност.

 

Семантична анотация – принципи

Термини – обекти

Въз основа на общи принципи на лексикалната семантика и използвани в общата лингвистика семантични маркери, както и на специфичното смислово съдържание на епикризата, бяха обособени 8 групи семантични маркери. Последните са резултат на огрубена класификация и могат да бъдат обогатени и доуточнени както в движение нагоре по йерархията, така и надолу – чрез по-детайлна класификация, разбиваща семантичния маркер на уточняващи подсмисли или допълнителни смислови нюанси.

Генералната класификация на термините се опира на общото смислово допускане, че разказът за едно лечение – епикризата, предполага, че:

  • съществува някакъв Обект (пациент), който е предмет на въздействието на сложен предикат – Лечение (T);

  • съставните части на Обекта са обединени в системата на неговата Анатомия (A);

  • първата фаза на Лечението е удостоверяване на съществуващи аномалии, обединени в Диагноза (D);

  • аномалиите са отклонения от нормата както в протичането на някои Процеси (P) в Обекта, така и в параметрите на Анатомията (A) на неговите съставни части;

  • в процеса на Лечението върху Обекта и различни части от неговата Анатомия се извършват Операции (O) от външен агент;

  • операциите може да са свързани с откриването на аномалии (клинични изследвания) или с въздействие върху абнормални процеси или признаци с цел нормализация (лечебни процедури или медикаментозно въздействие). Елементите на изследването и на насоченото въздействие образуват системата на Лечението, като цялостно въздействие от по-висок порядък, в термините на общофункционални определения.

За 636 термина-обекти, изразени чрез съществително, разпределението на приписаните им семантични роли е дадено на Таблица 4.

маркери-роли

%

Диагноза (D)

38

Aнатомична (A)

20

Tерапевтична (T)

14

Oперация (O)

8

Базисна (B)

8

Субстанция (S)

7

Процес (P)

3

Родово понятие (R)

3

Таблица 4. Семантични роли на термините-обекти – процентно съотношение в тестовия корпус.

 
Термини-атрибути

В общи линии семантичните роли на термините-атрибути повтарят тези на обектите по релацията – свързан с. Например:

  1. маркерът А означава атрибут, свързан с анатомичен обект (зеничен, диафрагмален)

  2. маркерът B означава базисен атрибут (интензивен, хомогенен)

  3. маркерът D означава атрибут, свързан с диагноза, синдром или симптом (анемичен, артрозен)

  4. маркерът O е свързан с операции, осъществявани върху обекта на лечението или изследването (палпаторен, хиперехогенен)

  5. маркерът P е свързан с процеси в обекта (възбуден, дихателен)

  6. маркерът S е свързан с имената на субстанции (въглехидратен, инсулинов)

  7. маркерът T е свързан с процеса на лечението (опериран, диагностициран)

Заб. Тук липсва маркерът R – родово понятие, което и за термините-обекти е с неуточнен семантичен диапазон.

За 400-те термина-атрибути разпределението на семантичните признаци е дадено в Таблица 5:

 

Семантичен маркер %

Диагноза (D)

38

Aнатомична (A)

20

Tерапевтична(T)

14

Базисна (B)

8

Oперация (O)

8

Субстанция (S)

7

Процес (P)

3

Родово

понятие (R)

3

Таблица 5. Семантични роли на термините-атрибути – процентно съотношение в тестовия корпус.

 

Аналогично на термините-обекти разпределението на семантичните маркери в долната част на скалата на процентите показва необходимостта от уточняване и нататъшна гранулация на маркера за процес и този за родово понятие.

 

Връзки и зависимости между семантичните маркери

Пресичане и нееднозначност на класификации в предложената схема

Изложените груби характеристики предполагат както по-нататъшно раздробяване, така и различно анотиране според разположението им на по-горно концептуално ниво. Така например, всяко О (операция) може да бъде разглеждано като физическа операция, но и като елемент от T (терапията), още повече ако е родово понятие (биопсията е Операция, но интервенцията е Терапия). За означение на понятия от по-горно концептуално ниво, които изразяват общи атрибути и процеси, характеризиращи анотираните медицински термини, е въведен атрибутът B (Базис), който обикновено допълва медицинските термини или въвежда общи характеристики. Анотацията на подобни общи думи като медицински произтича от употребата им като ключови в описанието на лечението или на характеристиките на медицинските обекти и операции.

 

Раздробяване на класификации

Може да се приеме, че статистическите данни за разпределението на концептуалните тагове между термините-обекти ни говорят за гъстотата на разпределение на различни основни семантични роли при термините. Трудно е да се определи обаче дали това разпределение произтича от семантичния характер на термините изобщо, или е дефект на избраната семантична мрежа по отношение на нейната грануларност и точност на семантичната анотация.

Всички възможни подкласификации или семантични прочити на термина дават възможност за по-нататъшна класифакция на грубата първоначална мрежа от маркери, но в границите на вече определените основни роли.

Това обогатяване следва да се извърши с помощта на приетите международни стандарти за лексикални мрежи в медицинската терминология като UMLS, MESH и други стандарти като МКБ-10 (Международна класификация на болестите), използвани в тематични медицински речници – тълковни двуезични и преводни.

Ръчното семантично анотиране е извършено по принципите на общовалидни смислови критерии, по-нататъшното му раздробяване в термините на някаква лингвистична семантика е нерентабилно, тъй като проектирането му върху UMLS, MESH и други мрежи ще бъде технически усложнено. По-лесно е налагането на груба върху подробна класификация и обратно (за която и от двете страни на припокриването да става дума), отколкото фино гранулирана върху също такава класификация, в последния случай разминаванията в дървовидната структура ще са повече.

 

От онтологичните структури към текста и обратно

За целите на информационното търсене, унифицирано към наличните международни стандарти за медицинска онтология, семантична класификация като описаната по-горе би била недостатъчна и нерелевантна, макар и да разкрива базисни концептуални връзки в конкретните български текстове. Затова една комбинирана процедура за налагане на тези стандарти към текстовете на епикризите съчетава първоначалната екстракция на термините от текста с по-нататъшната им хармонизация към онтологичните стандарти. Извлечените по стандартния начин термини се сравняват с единиците на МКБ-10, за да се обособят единиците на предметната област. Чрез плитък синтактичен анализатор към термините-думи се прибавят и термините-фрази за целите на същото сравняване с МКБ-10. Ръчна редакция и прецизиране на тази колекция генерира потенциалните български етикети в концептуалния модел. Същите се превеждат на английски, за да се използват ресурсите на UMLS. Последните не могат да се приложат пряко за нужния концептуален модел, така че с ръчна настройка на получената онтология се определя концептуалният граф, който предоставя нови връзки и зависимости между различните параметри на болестта, статуса на болния и лечението. Вж. Фигура 1:

 

Концуептуален гриф

Фигура 2. Концептуален граф, представящ твърдението от статуса на пациента „Крайници без отоци, запазени периферни пулсации, онихомикоза”, построен по онтологичните връзки на UMLS. Примерът е взет от отчет 1.7, 2010, на проект ЕВТИМА.

 

Контекстуално поведение на основни концептуални единици

Двете посоки на построяване на концептуалната картина на текста, които условно обозначихме като движение от текста към смисъла и обратно, са доста условни, тъй като нито една от тях не осъществява това движение в чист вид. Винаги се тръгва от негово величество Текста, пък макар и само в късата отсечка на предварителната обработка и изчистването на нетекстовите и извънезиковите елементи. Смисълът също се включва в пътешествието по различен начин и в различни превозни средства. Основното препятствие за преодоляване обаче, независимо от избраната посока и превозно средство, си остава реалният текст, с неговите многобройни начини да изрази един и същ смисъл, да обозначи един или друг обект от реалното.

Формалните и статистическите методи, едно твърде модерно превозно средство по този път, не могат и не бива да се абсолютизират. Те също боравят с реалния текст и се сблъскват с реалния контекст ̶ линейното обкръжение на интересуващото ни понятие, изразено чрез дума или фраза.

Наистина, статистически методи като тези на N-грамите, могат да стигнат до съществена част от постигнатите резултати от щателно ръчно изследване на всички контекстуални употреби на едно понятие, като разликата е само в обемите на изследвания ресурс. В първия случай те са огромни, във втория – само големи, но все пак обозрими за количествени обобщения на лингвистични зависимости, потенции и реализации.

Двете посоки на търсене не се противопоставят и не са алтернативни. Те се допълват взаимно, нещо повече – всяка една от тях може да служи като надстройка или по-фин инструмент за другия, както и в обратната посока – като основа, първоначален ресурс, огрубено приближение на експерименталния материал. Методът на N-грамите, обогатен с измерването на разстояния между думите и техните колокации, постига много добри резултати за първоначално обособяване на концептуално значими терминологични фрази от вида „атрибут стойност” след едно съдържателно филтриране на „шума” около тях – по статистически и лингвистични критерии (Boytcheva 2012).

Във всяко статистическо изследване лингвистиката присъства – в първоначалното филтриране на текста, в посочването на инвариантите на текстовите единици, в задаването на параметрите за търсене и най-вече в оценката на постигнатите резултати6. Всяко ръчно изследване пък е подпомогнато от елементарни текстови статистически обработки – конкорданси на словоупотребите, елементарни операции с бази данни и други помощни средства.

Обсъжданият тук материал от епикризи не е достатъчно голям за представителност на статистическите методи от една страна, но е достатъчно голям за обобщения относно контекстуалните конфигурации около основни медицински понятия в концептуалния фрейм на болния, болестта и лечението.

Тяхното изследване допринася за настройката и детайлизацията на търсещите методи – от традиционните до супермодерните, в различните етапи на извличане на терминологичното знание.

 

Контекстуално изследване на диабетните симптоми и оплаквания в епикризата

Оплакванията (complaints), наричани още симптоми, се изразяват с езикови единици с различна структура. Идентификацията им, както и проследяването на тяхната динамика предполагат както типологичния им, така и морфосинтактичния им анализ. Симптомът (признакът) е проява на физическо или психическо заболяване или нарушение на функция на организма. Симптомите са два типа: субективни ̶ оплакванията, за които пациентът съобщава и обективни ̶ тези, които лекарят или друго лице установява при прегледа. Съвкупността от симптоми се нарича синдром.

В медицинската литература са изброени десетина симптома на диабета: от лесното изморяване до кетоацидозата и хиперосмоларната кома.

Горните състояния са с различна степен на детайлизация – например общият симптом променено умствено-психическо състояние се изразява и съобщава като напрегнатост, необяснима раздразнителност, силна летаргия или объркване. Както обобщеното заглавие на симптома, така и неговите съставящи се срещат в епикризите като лексикални единици в различни фразови съчетания. По тази причина тяхното структурно описание трябва да върви bottom up, особено при събирането на емпиричния материал, а типологичните зависимости, регистрирани в онтологии с различна степен на точност, могат да помогнат за доброто им структуриране в обработката на текстовия материал.

 

Структура на симптомите – семантика и синтаксис

Беглият поглед върху изброените по-горе основни оплаквания на диабета ни показва, че те могат да бъдат: а) единични думи; б) фрази.

Единичните думи не поставят проблеми за идентификация, тъй като обикновено означават самото болестно състояние (кетоацидоза, полидипсия). Нужда от анализ на тяхното обкръжение имаме само в случаите на отрицание на състоянието (липсват данни за кетоацидоза, без кетоацидоза, няма кетоацидоза). Правилата за идентификация на отрицанието на симптома са общи за всички оплаквания и се описват обобщено, независимо от това, че за всеки отделен симптом са посочени реално срещаните му форми на отрицание.

Фразите имат различна семантична и синтактична структура. В тях се идентифицира ключова дума и атрибути към нея. Ключовата дума може да бъде симптомът, а атрибутите – негови пояснения (болка в кръста, загуба на тегло). В много случаи имаме несъвпадане на смисловия и синтактичния център на фразата - повишена захар, където повишението е същественият диагностичен признак, но захарта е синтактичният и смислов център, който пък уточнява зоната на действие на признака – повишена захар, повишена урея и под.). Подобна детайлизация на разпределението на синтактичните и семантичните роли във фразата-симптом е интересен предмет на по-широко изследване, но в нашия случай тя се разглежда като единен комплекс в лексикални вариации. Същевременно, при изследване на диагностичния контекст на някакво оплакване трябва да се изброят и типизират заблуждаващите контексти – фрази, съдържащи ключовата дума на оплакването, но с друг, често противоположен смисъл – вж. повишен апетит vs. запазен апетит.

Описанието и типизацията на фразите-оплаквания е направено по ключови думи, насочващи търсенето. Описани са диагностичните контексти, подкрепени със статистически данни, направена е статистика на значенията на симптома (при вариращи стойности), посочени са начините за отричане на симптома или нерелевантните контексти на ключовата му дума.

Ще разгледаме само един от основните симптоми на диабета, свързан с нивото на кръвната захар, където синтактичното обкръжение на ключовата дума захар бележи различните стойности на нейното ниво: от понижението й през нормата до повишението й, с отрицание или без, с различен текстов израз на стойностите – числов и словесен.

 

Основни значения на фразата кръвна захар в тестовия корпус

Текстови изражения на анализирания обект. Ключовият израз за търсене е кръвна захар. В тестовия корпус се среща в морфологичните и правописни варианти: кръвна захар, кръвната захар, кр. захар, кръвни захари, кръвните захари. Формите могат да се зададат с шаблон.

Значения и роля на симптома в лечебния и диагностичен процес. Кръвната захар не е оплакване във физическия смисъл на думата, каквито са напр. болка, тежест, сърбеж и подобни. Тя е, от една страна, показател с числови стойности, елемент от клинично лабораторно изследване, а от друга, в съчетание с определени стойности е елемент от диагнозата. Повишено или понижено съдържание на захар в кръвта определя оплакването-диагноза – хипергликемия или хипогликемия. Движението на тези числови или словесно изразени количествени стойности определя и развитието на болестта и нейната степен. Следователно трябва да се идентифицират употребите с фразата, показващи повишение или съответно понижение на кръвната захар – признак на патология.

От тях трябва да се изключат две групи употреби – 1. отрицание на патологията, т.е. потвърждение на нормата спрямо наблюдаваното явление (напр. нормални стойности на кръвната захар) и 2. употреба на фразата или част от нея в контекст извън характеристиката на патологията, в общия разказ (напр. при случайно изследване на кръвна захар).

Първата група много често се проявява контекстуално с езиковите средства за отрицание, които трябва да се изброят списъчно – просто отрицание с не и без, отрицание с глагол няма, отрицание на глагол – не съобщава, не се наблюдава и т.н. Вж. например – високи стойности на кръвна захарне много високи стойности на кръвна захар, не съобщава за високи стойности на кръвна захар, не се наблюдава повишение на кръвната захар и т.н.

В представеното приложение те са изброени списъчно, но се предполага тяхното обобщаване и за други оплаквания, тъй като отсъствието на оплаквания често се отбелязва екскплицитно в анамнезата.

 

Типология на значенията на признака кръвна захар и тяхното текстово изразяване

Нивата на кръвната захар са основен диагностичен признак за диабета. По тази причина се споменават в три зони на епикризата – Диагноза, Анамнеза и Клинични изследвания. Основните значения на този признак са дадени на Фигура 3:

 

 Основни значения на признака кръвна захар

Фигура 3. Основни значения на признака кръвна захар.

 

Горната фигура въвежда всички 11 означения на съдържанието на захар в кръвта, използвани в статистическите резултати по-долу, а именно:

патология: хипер_Ч | хипер_С | хипер_ЧС | хипо_Ч | хипо_С | вар_С |вар_Ч (хиперстойности: числови, словесни, числови и словесни едновременно; хипостойности: числови, словесни; вариращи: словесни, числови)

норма: пато_Н |норма_С| норма_Ч (отречена патология, норма словесна, норма числова)

извън диагноза : нарат (разказ).

 

Контекстуално изследване за диагностичното обкръжение на Обекта (кръвна захар), диференциращо описаните значения

Задачата звучи приблизително така:

След идентификация на Обекта (О) трябва да се установят значенията на неговите параметри – стойностите на О в динамика – повишени, понижени, вариращи, а също да се отхвърлят за анализ случаите на употреба на термина не в динамиката на болестта, а в общия разказ.

 

Идентификация на Обекта

Както бе отбелязано по-горе, Обектът – количеството захар, измерена в кръвта, се назовава в четири наблюдавани текстови варианта в тестовия корпус – нормална форма, форма в мн. ч, членувана форма в ед.ч., членувана форма в мн.ч. Съкратено изписване се допуска само за прилагателното кръвнакр., съкращение зах. се употребява при друг Обект (зах. диабет).

 
Диагностичен контекст – разпределение по позиция спрямо Обекта

Обкръжението на Обекта, контекстуалните сегменти, разположени от двете му страни, се определя като Ляв и Десен контекст (ЛК и ДК). Последният може да бъде сложна единица, съдържащ: а) словосъчетания, съставени само от думи, и б) словосъчетания, съдържащи комбинации от числа и съкращения на мерни единици. Тези завършени смислово и синтактически контекстни сегменти наричаме съответно Словесен Контекст (СК) и Числов Контекст (ЧК). Десният контекст може да съдържа всеки един от двата поотделно, както и двата заедно. В последния случай СК винаги предшества ЧК. Спокойният синтаксис на медицинския текст изключва поява на атрибут с числови стойности преди Обекта, затова числови стойности се търсят само в десен контекст.

Така се получава общата схема – линейна подредба на Обекта и диагностичния контекст, както следва: ЛК à О àСКàЧК .

Минимална конфигурация на тези четири елемента е О и един контекстуален сегмент, за други конфигурации – вж. таблицата по-долу.

Статистиката на 532-те появи на О като член на горните конфигурации в тестовия корпус е представена в следната Таблица 6:

 

ЛК

О

ДК (СК)

ДК(ЧК)

Брой

%

Пример

+

+

+

-

3

0.6%

високите/ кръвни захари /персистират

+

+

+

+

4

0.8%

високите стойности на/ кръвната захар /достигат /до 12 ммол/л

-

+

+

-

12

2.3%

кръвната захар/ се покачва

+

+

-

+

74

13.9%

покачване на/ кръвната захар/ до 12 ммол/л

-

+

+

+

103

19.4%

кръвната захар/ се покачва до/ 12 ммол/л

+

+

-

-

159

29.9%

високи стойности на/кръвната захар

-

+

-

+

177

33.3%

кръвна захар /над 12 ммол/л

Таблица 6. Стойности на признака и диагностични контексти.

 

От горните данни се вижда, че:

  1. С най-висока честота са контекстните съчетания, където О е определен само от дясностоящата числова стойност или ЧК – 177 комбинации (33.3%).

  2. Следваща по честота конфигурация е тази, в която диагностичната роля е поета от левия контекст, с изразени словесно стойности на О – 159 комбинации (29.9%).

  3. След нея следва конфигурацията, в която числовата стойност в дясно е подкрепена и от ляв контекст, а освен това е свързана с О с междинни думи-връзки, понякога диагностични за значението, понякога функционални (вж диагностичното се покачва vs. неутралното са от порядъка на ) – 103 комбинации (19.4%).

  4. Значителна честота отбелязват случаите, в които диагностичният числов контекст е подкрепен и от ляв контекст със същото значение, без употреба на думи-връзки от по-горния тип. Тъй като числовата стойност е винаги еднозначно диагностична, то наличният ляв контекст е редундантен, за което в съответните случаи в общата таблица е въведен комбинираният признак хипер_ЧС. При конструирането на алгоритъма за търсене изборът на един от двата показателя е въпрос на организация и избор на по-лесно идентифицируемия контекст. Такива случаи с дублиране на функцията от двата контекста са 74 (13.9%).

  5. Следват малобройни случаи, в които липсва числов контекст, също и лявостоящо определение , а наличният десен контекст се употребява предимно за общ разказ за развитието на болестта, като често означава норма ( кръвните захари са в референтни стойности, в нормални стойности). Такива случаи са 12 (2.3%). В половината от тях десният контекст е диагностичен за увеличена захар. В другата половина стойността е определена като норма, зададена словесно (като в предишния пример) или чрез отрицание на патологията. Имаме само един пример, където отрицанието на нормата е поверено на темпорално наречие (рядко е била в нормални стойности).

  6. Следващата по честота употреба е конфигурацията, в която са представени и 4-те вида съставящ контекст и тази малка честота може би се дължи на факта, че езикът на епикризите предполага икономия на изказа - дублирането на диагностиката с ляв контекст, десен контекст и числова стойност е разточителство. Вж. единствената такава употреба: високи стойности на кръвната захар през деня до 17 ммол/л. В останалите 3 употреби фактически имаме омонимия на определението – нормални и вариращи, което в общия случай е диагностично за признаците норма_С и вар_С, но тук конкретно нормално означава обичайно, както и вариращи не означава лабилни, а като движещи се в диапазона. (нормални стойности на кръвната захар 24 ммол/л, вариращи стойности на кръвната захар с обичайни стойности над 12 ммол/л).

  7. С най-малка честота са случаите на едновременна употреба на ляв и десен контекст, които нямат диагностични стойности (несъответно повишен на кръвната захар инсулин ) и поради това имат приписан признак нарат със значение на общ разказ.

 

Диагностичен контекст – разпределение на значенията по лексикален състав
  1. Повишена и понижена кръвна захар

Признакът на повишената кръвна захар с трите си означения: хипер_Ч| хипер_С| хипер_ЧС се разполага в следните контексти, чието разпределение е дадено в Таблица 7:

 

признак

брой

дублиращ контекст

позиция

хипер_Ч

166

54

ДК

хипер_С

81

 

ЛК

хипер_ЧС

65

65

ЛК

общо

233

 

 

хипо_Ч

13

 

ДК

хипо_С

7

 

ЛК

общо

20

 

 

Таблица 7. Стойности на признака и разпределението им по контексти.

 

Към значенията на таблицата се налага уточнение, изведено от контекстуалните типове обкръжение.

  1. При наличие на комбиниран текстово-числов израз вдясно от Обекта, признаците са два възможни – хипер_Ч и хипо_Ч, т.е. стойности, точно определени от общоприетите медицински значения – под 5,5 ммол/ - хипо, над 5.5 ммол/л – хипер.

Тези числови стойности са достатъчно строго зададени – число или двойка числа, разделени с тире, за означаване на диапазон от стойности. За хипер_Ч числото е по-голямо от 5,5, за хипо_Ч по-малко от същата стойност. Възможен е запис на двете крайни стойности с от, до и над, също и между, в същите интервали.

Числото е следвано от мерната единица – ммол/л или mmol/l, която само в 2.5% (9 случая) липсва, а в един случай е заменена от mg%, когато самите числови стойности са достатъчни за диагностиката (при норма 70-100 mg%). В десните контексти не се срещат други числа, които могат да бъдат прочетени като стойности на кръвна захар (споменаване на час и дата, в друг числов интервал имаме само в 3 случая). В два случая датата на изследване и стойността на кръвната захар са обединени в общ числов контекст, но при тях имаме ляв редундантен контекст, който решава случая, макар че и с анализ на структурата на датата и стойността на кръвната захар случаят пак може да бъде решен (вж. 18. 10. 22, 4 ммол/л 19. 10. 8ч - 25, 8).

  1. Възможното дублиране на значението на десния числов контекст от редундантен ляв (с думи като – повишение, повишена, висока, покачващи) се наблюдава в 1/3 от случаите, когато е зададена числова стойност, и изборът на един от двата контекста, задаващи едно и също значение, се решава в организацията на алгоритъма.

  2. хипер_С и хипо_С по уговорка се изразяват от ляв контекст, съдържащ ключови думи за висока степен (висока, ниска, повишени стойности на, ниски стойности на и др.). Само в един случай тази стойност е зададена от десен контекст като процес, а не като констатация (кръвната захар се покачва), но този случай може да бъде зададен отделно.

  1. Нормална кръвна захар

Начините за обозначаване на кръвната захар в нормата са част от разказа за болестта и нейното лечение. За тях са въведени признаците:

норма_С ̶ изразяван чрез отричане на патологията (без резки колебания) или чрез посочване на нормата (нормални стойности, в референтни стойности). Случаите на обозначена по този начин норма са само 8 и се причисляват повече към разказа за болестта и лечението, вж. по-долу.

пато_Н – чрез отрицание на патологията (не много висока кръвна захар).

  1. Динамика на стойностите на кръвната захар без оценка на патологията.

Значение нарат (45 случая).

Обектът е придружен от изрази, показващи динамика на стойностите (спадане, покачване, без промяна), без уточнена абсолютна стойност. Такива случаи приемаме за разказ за лечението, който не е показател за нивото на кръвната захар – може да имаме покачване в диапазона на ниските стойности или спадане в диапазона на високите стойности. Разказвателният признак нарат може да е свързан с Обекта във връзка с контрол, изследване и други терапевтични процедури (незадоволителен контрол на кръвната захар, не много високи стойности на кръвната захар).

Общи препоръки за построяване на алгоритъма за търсене и определяне на нивото на кръвната захар

Както изложените по-горе съображения, така и проследените изрази в левия и десен диагностичен контекст позволяват да се направят следните общи препоръки към организацията на алгоритъма за идентификация на О и определянето на неговите стойности :

  1. С най-голяма диагностична сила е левият контекст на О, в рамките на зададения списък от краен брой фрази, така както и числовите стойности в десния контекст. Последните се изчисляват като високи или ниски в зависимост от позицията си в интервалите – по-малко или по-голямо от 5,5. В много случаи двете диагностики са дуплирани и изборът е въпрос на организация.

  2. Тъй като числовата стойност – абсолютен показател на нивото на кръвната захар в много случаи е отделена от последната със свързващи или други думи, да се има предвид, че максималният брой думи, които отделя О от неговата числова стойност, стига до 6 (кръвната захар в следобедните часове на деня достига до 13 ммол/л).

  3. идентификациите на нормата, разказа за лечението и други неутрални показатели няма нужда да бъдат задавани, поради експлицитното задаване на останалите.

Извън контекстите с ключова дума захар диагностиката на нивата на кръвната захар се изразява и с двете диагнози – хипергликемия и хипогликемия, които се срещат общо 112 пъти в тестовия корпус, като от тях само 14 % са употребени в основната си форма. Тук приписването на хипер_С и хипо_С е безусловно, освен в случаите на отрицание.

Изразяването на отрицанието в този тип търсене и идентификация на ключови изрази е сериозен лингвистичен проблем. Простото отрицание на Х (което е признак, обект или действие) с непосредствено предшестваща дума, изразяваща отричане или липса (не X, без X, отрицателен Х) е най-елементарният случай. Отрицателната дума може да се намира в доста отдалечен ляв контекст, до 6 буквени низа (не се наблюдава повишение на X, не съобщава за високи стойности на Х, без резки колебания в стойностите на X). То може да е изразено с положителна форма на глагол с отрицателна семантика (отрича случаи на X). Примерите илюстрират нуждата от синтактично-семантична обработка на диагностичния контекст, в чиято структура отрицанието върви по дървовидната структура. Към комплексната природа на отрицанието, видяна от лингвистичен, формален и медицински съдържателен аспект, е проявяван интерес от интердисциплинарни колективи в годините, предшестващи обсъжданите проекти (Boytcheva et al. 2005).

Вместо заключение

Изложените тук данни, резултати и най-вече проблеми – с частично решение, а също и с хипотетично решение в бъдещето, показват дължината на пътя, който трябва да се измине до реалната обработка и информационното осигуряване на медицинското производство, разбирано в най-широк смисъл. От епикризата-отчет, през задължителните медицински досиета, чието електронизиране е въпрос на близко бъдеще, към обобщаващите данни за здравеопазването и движенията в здравния статут на населението върви всеобщата електронизация на процеса „ болен – по-малко болен – здрав”. Тези общодържавни нужди бележат приложния аспект на проблема. А изследователският аспект предоставя на компютърната лингвистика възможността да излезе от обработката и трупането на ресурси на основата на литературното повествование, вестникарската проза и официалните европейски документи. Дава й възможност да се насочи към един вид специализирана лексика, която не е просто една различна предметна област, а въплътената в текстов вид насъщна нужда на нашето съществуване и просперитет, в който високите технологии заемат ключово място.

 

 

 

Бележки

1. Демонстрация на клиничната информационна система на УСБАЛЕ - http://medicalnet-bg.org/psip/online_demo.php

2. Една от най-мощните информационни системи в областта на медицината, която се ползва за стандарт в обединени информатични изследвания, е например Unified Medical Language System (UMLS) http://www.nlm.nih.gov/research/umls/ , поддържана от Националната медицинска библиотека на САЩ. Нейните основни три ресурса са: метатезаурус, семантична мрежа и специализиран лексикон. Други медицински онтологии са SNOMED (Systematized Nomenclature of Medicine – Clinical Terms), http://www.nlm.nih.gov/research/umls/Snomed/snomed_main.html, MeSH (Medical Subject Headings), http://www.nlm.nih.gov/mesh/meshhome.html и много, много други.

3. Националният рамков договор, подписан през 2005 г., предвижда електронна епикриза, състояща се от 20 структурни части, за всяка дейност, реимбурсирана от Здравната каса. Не всички части присъстват задължително в разнообразните видове епикризи, издавани от лични лекари, социални домове и болници, но болничните епикризи са възприели за задължителни голяма част от тях, а попълването им е облекчено от различни видове софтуер, най-дружелюбният от които структурира предварително съдържанието на епикризата, като насочва въвеждането по зони.

4. Така се процедира в общия случай, но сравнително малкият обем на тестовия корпус позволи за проучването на дълбинни връзки на базата на контекстното поведение на ключови думи да се изследва и целият тестов корпус.

5. Тъй като съкращенията много често са оказионални и могат да съвпадат с грешно написани думи, този разряд е нехомогенен в състава си. Истинското определяне на един низ като съкращение става или с помощта на зададен списък, или с ръчно анотиране, което идентифицира истинските съкращения, грешно написаните думи и неправилните пунктуационни употреби.

6. Всички статистически изследвания на колекция от някакви единици боравят с две главни мерки, по които се оценяват и сравняват получените резултати. Това са precision и recall, т.е. точността и покритието, със следния съдържателен прочит: каква част от извлечените единици отговарят на търсещите параметри и какъв процент от всички такива единици в текста са извлечени. Една риболовна аналогия би определила точността като процент на рибите от всичко, хванато в мрежата, а покритието като процент на уловените риби към всички риби в реката. Критериите за определяне на тези множества са естествено съдържателни, а лингвистичният анализ тук е колкото задължителен, толкова и полезен.

 

Цитирана литература

Angelova, Galja, Dimiter Tcharaktchiev, Svetla Boytcheva, Ivelina Nikolova, Hristo Dimitrov and Zhivko Angelov. From Individual EHR Maintenance to Generalised Findings: Experiments for Application of NLP to Patient-Related Texts. In Proceedings of MedDecSup-2012, International Workshop on Next Generation Intelligent Medical Decision Support Systems, to appear in Studies in Computational Intelligence. Springer, 2013.

Boytcheva Svetla, Albena Strupchanska, Elena Paskaleva, Dimitar Tcharaktchiev. 2005. Some aspects of negation processing in electronic health records. In: Proceedings of the workshop Language and Speech Infrastructure for Information Access in the BalkanCountries, Recent Advances in Natural Language Processing 2005, Borovetz, Bulgaria, pp. 1-8. пълен текст: http://lml.bas.bg/~albena/publications/ranlp05_bwrks.pdf

Boytcheva Svetla, Galia Angelova 2009. Towards Extraction of Conceptual Structures from Electronic Health Records. In: Conceptual Structures: Leveraging Semantic Technologies. Lecture Notes in Computer Science, 2009, Volume 5662/2009, pp. 100113, 2009. пълен текст: http://scholar.google.com/scholar?oi=bibs&hl=en&cluster=9359320493470975723

Boytcheva, Svetla. Structured Information Extraction from Medical Texts in Bulgarian. In Proceedings of the SINUS Workshop “Semantic Technologies in the Humanities”, 78 June 2012, Sozopol, Bulgaria, to appear in a Special Issue of the Journal Cybernetics and Information Technologies, 2012.

EVTIMA (2009-2012) http://lml.bas.bg/evtima, http://www.lml.bas.bg/evtima/video/EVTIMA.avi

PSIP+ 2011 www.psip-project.eu

Паскалева, Елена. 2007. Компютърна морфология. Ресурси и инструменти. Институт за паралелна обработка на информацията. София: БАН. 182 с. ISBN 978-954-92148-1-9.

 

За автора

Доайен на българската компютърна лингвистика, един от основателите на Секцията за лингвистично моделиране в Института за информационни и комуникационни технологии – БАН. Научни интереси: машинен превод, основни ресурси и инструменти за компютърна обработка на български език, компютърни речници, корпусна лингвистика.

Електронен адрес / E-mail: hellen at lml.bas dot bg

Интернет страница / Web page: http://lml.bas.bg/~helle