Scientific journal
Advances in current natural sciences
ISSN 1681-7494
"Перечень" ВАК
ИФ РИНЦ = 0,775

THE POSSIBILITIES AND LIMITATIONS OF NAIVE BAYESOV’S CLASSIFICATOR IN DEVELOPING EXPERT SYSTEMS IN OTORHYNOLARYNGOLOGY

Yastremsky A.P. 1 Izvin A.I. 1 Sannikov A.G. 1 Sokolovsky N.S. 2
1 Tyumen State Medical Academy
2 Firm Costa
2537 KB
The new possibilities for diagnostics of ear, nose and throat diseases present informative technologies. The naïve Bayesov’s classificatory was implemented to differentiate diagnostics of pharyngeal diseases. 303 clinical cases according to archive data were analyzed. The calculation of a priori probabilities of some symptoms for each considered nosological units was carried out. Further the analysis of coincidence of clinical diagnosis of pharyngeal diseases taken from archive case histories and epicrisis presented by the test expert system into a problem solver in which the calculations based on Bayesov’s method were included. The calculations are presented as two interations. Bayesov’s method allows to make a diagnosis, at the same time the divergences with confirmed diagnosis in some clinical cases were revealed.
informative technologies
Bayesov’s method
a priori probabilities
interations

Актуальность: В настоящее время в своей профессиональной деятельности врач любой специальности при решении задач медицинской науки и практики обязательно использует информационно-коммуникационные технологии [3]. Совершенствование диагностики и лечения ЛОР-заболеваний так же связано с использованием различных компьютерных технологий [5]. В клинической деятельности всё больше ситуаций, в которых врач – оториноларинголог обязан действовать строго заданным образом, в соответствии со стандартами оказания медицинской помощи и регламентирующими документами. На современном этапе в создании (ЭС) используются различные методологические принципы, включающие в себя Байесов подход, портретную диагностику и экспертный метод [4]. Байесов подход требует статистических наблюдений, где за основу берется мера вероятности и её распределение для каждого признака (симптома), которая может быть оценена как статистическая оценка значимости признаков заболеваний [2, 7].

Цель исследования: разработка экспертной системы (ЭС) дифференциальной диагностики острых заболеваний глотки, включая сбор, систематизацию, сравнительный анализ совпадения клинических и экспертных диагнозов с использованием Байесовой системы.

Материалы и методы исследования

Работа велась в несколько этапов. На первом этапе нашей работы, путём выборки 303 законченных клинических случаев с острыми заболеваниями глотки на базе ГЛПУТО ОКБ № 2, на базе стационара за (2006–2008 гг), была собрана база данных.

Возраст пациентов составлял от 19 до 80 лет. Из них по половым признакам пациенты распределялись следующим образом: мужчин было – 189, женщин – 114.

По результатам исследования были выделены следующие нозологии в соответствии кодом по МКБ 10: правосторонний паратонзиллярный абсцесс (J36) – 96 пациентов, левосторонний паратонзиллярный абсцесс (36) – 116, правосторонний паратонзиллит (J36) – 26, левосторонний паратонзиллит (J36) – 30, двусторонний паратонзиллярный абсцесс (J36) – 9, правосторонний парафарингеальный абсцесс (J39) – 3, правосторонний парафарингит (J39) – 8, левосторонний парафарингеальный абсцесс (J39) – 3, левосторонний парафарингит (J39) – 12.

Для сбора информации о клинических случаях и приведения ее к формализованному виду использовалась разработанная нами автоматизированная система «Карта обследования пациентов с заболеваниями глотки», регистрационный номер 2010613489 от 28 мая 2010 [8]. Полученные сведения обрабатывались с помощью разработанной ранее автоматизированной системы «Редактор базы знаний заболеваний глотки» регистрационный номер 2010613472 от 27 мая 2010 [9]. Затем переносились в базу знаний.

База знаний «Семиотика заболеваний глотки» (регистрационный номер 2010620304 от 27 мая 2010) хранит номер истории болезни, диагноз и его код по системе МКБ-10, а также информацию о клинической картине (наличии набора признаков) каждого отдельного клинического случая [10]. Для представления симптомов использовалась древовидная архитектура данных.

Хранение и обработка данных велась средствами СУБД FireBird 1.5. Разработка велась на языке Delphi (Embarcadero Delphi XE4).

Байесовский подход к классификации является одним из старейших, но до сих пор сохраняет прочные позиции в теории распознавания. Он лежит в основе многих удачных алгоритмических моделей [1]. Учитывая этот факт мы решили разработать экспертную систему дифференциальной диагностики острых заболеваний глотки, построенную на наивном байесовском классификаторе [11].

Байесовский простой вероятностный классификатор, основан на применении Теоремы Байеса со строгими (наивными) предположениями о независимости переменных. Как правило Байесов подход требует статистических наблюдений, где за основу берется мера вероятности и ее распределение для каждого признака (симптома), которая может быть оценена как статистическая оценка значимости признаков заболеваний.

В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях, для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия. Несмотря на наивный вид и, несомненно, очень упрощенные условия, наивные байесовские классификаторы часто работают намного лучше во многих сложных жизненных ситуациях. Наивный байесовский классификатор может быть, как параметрическим, так и непараметрическим, в зависимости от того, каким методом восстанавливаются одномерные плотности.

Основные преимущества наивного байесовского классификатора – простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы (или почти независимы), наивный байесовский классификатор (почти) оптимален.

Достоинством наивного байесовского классификатора является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.

Вероятностная модель для классификатора – это условная модель

P(Y|X) = P(X|Y)P(Y)/P(X),

где Y, X – предсказываемое и предшествующее события, а функция P – вероятности этих событий и их следствий (P = m/n, где m – количество произошедших событий, n – количество всех событий).

Не смотря на кажущуюся громоздкость (требуется три терма, чтобы вычислить один), это правило находит обширное применение в медицинской диагностике. Т.к. именно здесь известны связи между событиями (исходные термы) и требуется определить условную вероятность диагноза. На рисунке представлен конечный граф, который иллюстрирует, как от первоначального предположения P(b) в зависимости от наличия или отсутствия e происходит направление диагностического процесса по одной из ветвей. Причем каждая ветвь имеет свою вероятностную оценку. На следующем к вершине снова происходит уточнение вероятности в зависимости от условия A. Дальнейшее движение по графу осуществляется аналогично, пока не будет достигнута конечная вершина. После этого вероятности пройденных ребер графа подставляются в модель, для расчета вероятности заболевания.

В случае, когда мы оперируем категорийными признаками (например, двухразрядным признаком «да – нет»), для определения вероятности диагнозов по методу Байеса можно составить диагностическую матрицу.

Матрица формируется на основе предварительного статистического материала, по которому рассчитываются априорные вероятности признаков при различных диагнозах [7]. В таблице достаточно указать вероятность появления признака P(kj,/Di), чтобы оперировать ими в последствии в модели.

Для редактирования матрицы следует хранить не только значения вероятности, но и исходные данные: это общее число объектов (N), использованных для составления диагностической матрицы; Nd – число объектов с диагнозом D; Nij – число объектов с диагнозом D, обследованных по признаку Kj.

Результаты исследования и их обсуждение

Для начала были рассчитаны априорные вероятности всех исходных симптомов заболеваний, представленных выше. Если данный симптом никогда не встречался вместе в наборе обучения, тогда оценка, основанная на вероятностях, должна быть равна нулю (0). Учитывая, что при перемножении нулевая оценка приведет к потере информации в других вероятностях, такие переменные мы инициализировали очень малыми случайными значениями. В связи с этим исследование имело две итерации. В первой итерации не встречающиеся симптомы были инициированы значениями 10-3(табл. 1).

Таблица 1

Сравнение наиболее значимых априорных вероятностей симптомов острых заболеваний глотки для первой итерации.

Симптом

Острый левостор паратонз абсцесс

Острый правостор паратонз

абсцесс

Острый двухстор паратонз абсцесс

Острый левостор паратон-зиллит

Острый правостор паратон-зиллит

Острый левостор парафарин абсцесс

Острый правостор парафарин абсцесс

Острый левостор парафарингит

Острый правостор парафарингит

1

2

3

4

5

6

7

8

9

10

Недомогание

0,97

0,96

1

0,92

0,91

1

1

1

0,9

Слабость

0,99

0,98

1

0,96

1

1

1

0,7

1

Головную боль

0,66

0,73

0,88

0,76

0,79

0,5

0,5

1

0,6

Отсутствие аппетита

0,73

0,75

0,88

0,76

0,86

0,5

0,5

0,8

0,6

Болезненное открывание рта

0,93

0,90

1

0,8

0,75

0,5

0,5

0,57

0,4

Боль в горле

0,97

0,96

1

1

0,83

0,5

0,1

0,85

0,9

Боль при глотании слева

0,93

0,01

0,77

0,96

0,03

0,1

0,0001

0,85

0,0001

Боль при глотании справа

0,01

0,94

0,77

0,0001

0,86

0,0001

0,1

0,0001

0,8

Дисфагия

0,96

0,94

1

1

0,93

0,5

1

1

1

Тризм жевательной мускулатуры

I степени

0,53

0,64

0,77

0,6

0,41

0,0001

1

0,42

0,6

Тризм жевательной мускулатуры III степени

0,04

0,02

0

0,08

0,06

0,5

0,0001

0,0001

0,0001

Болезненность л/узлов в левой подчелюстной области

0,75

0,08

1

0,72

0,0001

1

0,5

0,85

0,09

Окончание табл. 1

1

2

3

4

5

6

7

8

9

10

Болезненность л/узлов в правой подчелюстной области

0,03

0,81

0,9

0,0001

0,79

0,0001

1

0,0001

0,6

Асимметрия зева

0,99

0,98

0,9

0,96

0,82

0,67

1

0,57

0,36

Смещение левой нёбной миндалины к средней линии

0,75

0,0001

0,6

0,8

0,0001

0,5

0,0001

0,42

0,09

Смещение правой нёбной миндалины к средней линии

0,01

0,8

0,66

0,0001

0,55

0,0001

0,5

0,14

0,18

Слизистая зева гиперемирована

0,98

0,98

1

1

1

0,5

1

1

1

Язычок мягкого нёба отёчен.

0,93

0,85

0,88

0,84

0,72

0,5

1

0,7

0,5

Слизистая глотки гиперемирована

0,94

0,9

1

1

1

1

1

1

1

Отёк, инфильтрация околоминдаликовой клетчатки слева

0,6

0,03

0,66

0,6

0,03

0,5

0,0001

0,42

0,0001

Отёк, инфильтрация околоминдаликовой клетчатки справа

0,0001

0,6

0,66

0,0001

0,48

0,0001

0,5

0,0001

0,27

Отёк боковой стенки глотки слева

0,21

0,0001

0,0001

0,16

0,0001

1

0,0001

1

0,0001

Отёк боковой стенки глотки справа

0,01

0,12

0,0001

0

0,27

0,0001

0,1

0,0001

1

По результатам табл. 1 видно, что наиболее значимые клинические симптомы имеют априорную вероятность, приближенную к единице. Так, при остром левостороннем паратонзиллярном абсцессе слабость – 0,99; недомогание – 0,97; боль в горле при глотании слева – 0,93; дисфагия – 0,96; асимметрия зева – 0,99; смещение левой нёбной миндалины к средней линии – 0,75; отёчность язычка мягкого нёба – 0,93; отёк, инфильтрация околоминдаликовой клетчатки слева – 0,6, – говорят о наибольшей значимости данного симптома в клинической картине диагностируемой патологии. Таким же образом проанализированы все остальные нозологические единицы. Во второй итерации не встречающиеся симптомы были инициированы значениями 10-4 (расчёт априорных вероятностей симптомов проводился по аналогии с первой интерацией (табл. 1).

В последующем нами проводился анализ совпадения заранее известных клинических диагнозов заболеваний глотки, взятых из архивных историй болезни и заключений, представленных тестовой экспертной системой, в решатель которой включены расчеты, базирующиеся на Байесовом методе. Расчёты представлены в табл. 2.

jstrem1.tif

Структура классификатора Байеса

Таблица 2

Диагностическое совпадение клинических и экспертных диагнозов

п/п

Нозология

Количество случаев

Итерация 1

Итерация 2

Диагноз подтверждённый экспертной системой

Процент ошибок

( %)

Диагноз подтверждённый экспертной системой

Процент ошибок

( %)

1

Двусторонний паратонзиллярный абсцесс

9

9

0,00

9

0,00

2

Левосторонний паратонзиллит

26

19

26,92

20

23,07

3

Правосторонний паратонзиллит

30

19

36,67

17

43,33

4

Левосторонний паратонзиллярный абсцесс

116

90

22,41

95

18,10

5

Правосторонний паратонзиллярный абсцесс

96

73

23,96

70

27,08

6

Левосторонний парафарингит

8

6

25,00

7

12,50

7

Правосторонний парафарингит

12

8

33,33

9

25,00

8

Левосторнний парафарингиальный абсцесс

3

2

33,33

2

33,33

9

Правосторонний парафарингиальный абсцесс

3

3

0,00

3

0,00

10

Итого

303

229

24,42

232

23,43


 

Итерация 1. (табл. 2). Полное совпадение диагнозов в данной интерации получено при диагностике двухстороннего паратонзиллярного абсцесса и правостороннего паратонзиллярного абсцесса. В остальных случаях процент ошибочных диагнозов, выставленных ЭС, составил от 22,41 % до 36,67 %.

Итерация 2. (табл. 2). Система показала, что так же как и предыдущей интерации полностью совпали двухсторонний паратонзиллярный абсцесс и правосторонний паратонзиллярный абсцесс. Однако, в остальных случаях процент ошибочных диагнозов, выставленных ЭС составил от 12,50 % до 43,33 %. Общий процент ошибок 23,43 %.

Выводы

Байесова система достаточно адекватно выделяет симптомы и отдельные признаки заболеваний, присваивая им высокую априорную вероятность в отдельных клинических случаях.

Байесов подход позволяет ставить диагноз, но в ходе исследования выяснилось, что заключения экспертной системы расходятся с подтверждёнными клиническими диагнозами до 43,33 % по отдельным нозологическим единицам, что накладывает значительные ограничения к использованию байесовых экспертных систем в реальной клинической диагностике и ставит под вопрос возможность применения Байесова подхода в качестве единственного метода разработки клинической экспертной системы при постановке оториноларингологического диагноза.