НЕЙРОСЕТЕВОЙ БАЗИС СИТУАЦИОННОГО ЦЕНТРА ОПЕРЕЖАЮЩЕГО РЕАГИРОВАНИЯ

Главная » Информатика » НЕЙРОСЕТЕВОЙ БАЗИС СИТУАЦИОННОГО ЦЕНТРА ОПЕРЕЖАЮЩЕГО РЕАГИРОВАНИЯ
Информатика Комментариев нет


Ситуационный центр опережающего реагирования (СЦОР) — информационная, про — граммная и инструментальная среда, которая позволяет в реальном времени преобразовы — вать массив входных данных в значения прогнозируемых переменных (индикаторов) и по их совокупности распознавать будущее состояние исследуемого объекта или процесса на раз — личную глубину прогноза. Для принятия конструктивных решений ключевым условием продуктивности СЦОР является возможность построения и отображения, устойчивых при — чинно-следственных связей между событиями исследуемого процесса в прошлом, настоя — щем и будущем. Математически эта задача может быть решена построением системы диф — ференциальных уравнений, описывающих процесс, вблизи некоторой точки, когда прини — мается допущение линейного соответствия относительно малых приращений зависимых факторов к соответствующим приращениям многомерного множества индикаторов исследу — емого процесса. Однако это не всегда возможно по двум причинам:

− чрезмерно большая размерность вектора состояний исследуемого процесса при стремлении к нулю выбранных приращений, что вытекает из требования качества диф —

ференцирования функции и затрудняет инструментальную реализацию;

− линейная и непрерывная связь факторов и состояний исследуемых процессов не всегда очевидна, что ставит под сомнение адекватность принимаемой модели исследования.

Целесообразным, на наш взгляд, выглядит применение нейросетевого базиса для принятия решений не по актуальным состояниям исследуемого процесса, а по тенденци —

ям динамики отдельных элементов вектора индикаторов, описывающих образ этого процесса. Это особенно важно при организации ситуационных центров [1], эффектив — ность которых существенно зависит от способности не только адекватно реагировать на возникающие угрозы и риски, но и своевременно принимать превентивные меры. Это, в

свою очередь, порождает необходимость рассмотрения иной парадигмы принятия ре — шений СЦ, базирующейся на реализации решений, опережающих актуальное состояние процесса за счет построения и распознавания образов этих состояний на различную глу —

бину прогноза. Решение задачи в такой трактовке целесообразно находить на основе мно- гомерного регрессионного анализа, на базе современных программных пакетов нейро — эмуляторов [2,3]. Именно НС позволяют преодолеть, отмеченные выше ограничения мо —

делирования сложных процессов, за счет продуктивного объединения ретроспективных данных исследуемого процесса по состоявшимся объективным событиям с футурологи- ческими, предсказанными индикаторами ассоциативного образа этого процесса за счет

когнитивных обучающих процедур [4].

2013. № 1 (144). Выпуск 25/1

Постановка задачи

Задача предсказания значений индикаторов исследуемого процесса на различную глубину прогноза может быть успешно решена, если найдена адекватная аналитическая зависимость вектора входных факторов и вектора индикаторов состояния этого процесса.

Выходные переменные (индикаторы) процесса в общем случае связаны с входны —

ми факторами (переменными) и имеют следующую функциональную зависимость:

Y (t) = G( X (t)),

(1)

где

Y (t ) = y1 (t ), y2 (t ),…, yγ (t )

– вектор выходных переменных (индикаторов) процесса

в момент времени (t ) ;

X (t ) = x1 (t ), x2 (t ),…, xn (t ) – вектор входных переменных (факторов) процесса в

момент времени (t ) ;

G – символ вектор – функции отображения,

искомым решением данной задачи.

X (t)

в Y (t) , вид которой и является

Допустим, что входные факторы представлены совокупностью переменных трех типов, связанных некоторой функцией F:

X (t) = F ( X (t0 ),U (t ), Z (t )),

(2)

где

X (t0 ) = x1 (t0

), x2 (t0 ),…, xn (t0 )

– вектор входных переменных (факторов) процесса в

начальный момент времени t 0 ;

Z (t ) = z1 (t ), z 2 (t ),…, z k (t ) – вектор воздействий среды в момент времени (t ) ;

U (t ) = u1 (t), u2 (t ),…, um (t ) – вектор управляющих переменных в момент времени (t ) ,

при ограничениях:

Z (t ) ∈ A3 (t );

U (t ) ∈ A2 (t );

X (t ) ∈ A1 (t );

t ∈ [t0 ,T ],

где

X 0 , A1 (t ), A2 (t ), A3 (t )

– соответственно, начальные значения входных факторов,

области допустимых значений переменных состояния, управляющих и наблюдаемых переменных (пространства дисциплинирующих условий на состояния, управление (ресурсы) и наблюдаемые индикаторы).

В любой момент времени искомую зависимость “факторы – состояние”, когда и первые и вторые являются наборами элементов соответствующих векторов, можно

представить соотношением:

.

 

| y k | = Ф | х m |

(3)

Для этого случая задача сводится к поиску отображения:

Ф : X → Y, X ⊂ ℜm, Y ⊂ ℜk,

(4)

где k и m – соответственно, размерность состояний процесса, и размерность вектора входных факторов связывает наборы элементов вектора входных факторов

X = ( x1,….., xm ) ∈ X

с соответствующими значениями выходного вектора

Y = ( y1,….., yk ) ∈ Y. Оператор Ф включает в себя все процедуры поиска аналитиче —

ской (или иной) зависимости двух информационных пространств:

пространства

X = ( x1,….., xm ) ∈ X

и пространства

Y = ( y1,….., yk ) ∈ Y.

В нейросетевом базисе эта процедура опирается на теорему Колмогорова — Арнольда о представлении функции нескольких аргументов через сумму композиций функций одной переменной и ее адаптации к нейросетевому формату Хехт-Нильсена [1]. Тогда связь обозначенных выше пространств входа и выхода исследуемого процесса, можно представить в виде:

H

y(x) = α  vi (wi1 x1 + wi 2 x2 + … + win xn + ui ), (5)

i =1

2013. №1 (144). Выпуск 25/1

где Н – мощность обучающей выборки;

α , v

– параметры нейросети;

n – количество нейронов;

wi1 , wi 2 ,…, win – весовые коэффициенты нейронов.

При этом можно утверждать, что существует такой набор чисел

H, n,α ,ν i, ui, при

которых функция y аппроксимируется рядом (5) на всей области ее определения и может

быть реализована с помощью трехслойной нейронной сети с любой наперед заданной по- грешностью. При таком подходе решение поставленной задачи сводится к минимизации функции ошибки нейронной сети при ее обучении, например, по методу обратного рас — пространения ошибки [5].

Если ограничиться архитектурой двухслойного персептрона, то задача достижения допустимой ошибки при аппроксимации искомой функциональной зависимости, сводит- ся к модификации синаптического множества выбранной нейронной сети вида:

W t +1 = W t −η ⋅ gradE(W t ),

которая заканчивается, когда функция интегральной невязки значений элементов векто —

ров целевого и текущего состояний исследуемого процесса достигает величины, удовле — творяющей допустимым рискам в исследуемой предметной области (например, как предложено в [5]):

h(ℜ(t + )) – числовое значение, характеризующее невязку текущего и целевого значе —

ний индикаторов исследуемого процесса, вычисленное, исходя из допустимого инте —

грального риска.

Результатом обучения должен быть выбор таких значений всех весовых коэффи —

циентов сети

и w( 2) , которые обеспечивают максимальное совпадение выходного

ij

 

вектора Y k

и целевого вектора ожидаемых значений k

при предъявлении вектора

Y

 

z

 

входных факторов

X k, K – мощность обучающей выборки (k = 1,2,…, K ) .

При фиксированном объеме обучающей выборки обучение сети состоит из процедур, которые подразумевают корректировку весов после обработки всех пар

z

 

{X k, Y k }в обучающей последовательности с использование целевой функции (6). Таким

образом, множество синаптических весов, организованное файловым протоколом для

каждого выбранного момента принятия решения, является выражением вектор – функ — ции G из (1), связывающее переменные (индикаторы) процесса с входными факторами (переменными) соответствующей функциональной зависимостью. Для ситуационного центра это позволяет прогнозировать динамику процесса (или любой из его индикаторов) для организации принятия решений по прогнозируемым значениям, что и является ос — новой опережающего реагирования.

Решение задачи

В первую очередь следует однозначно определить допустимые ошибки обучения предполагаемой модели, что соответствует количественной оценке адекватности синте —

зируемой нейронной сети, отображающей процесс прогнозирования динамики исследуе — мого процесса по предсказанию значений элементов вектора его индикаторов такого мо- делирования.

Обоснуем выбор критерия оценки допустимой величины ошибки обучения. Вид

функции ошибки обучения следует искать исходя из принятого условия (6) при постанов —

z

 

ке задачи. При этом вектора Y k и Y k

следует рассматривать как реализации набора кон —

кретных значений индикаторов текущего и целевого состояний исследуемого процесса с некоторым законом распределения Y ( x) . Исходя из случайного характера реализаций на выходе нейронной сети при её обучении, целесообразно воспользоваться обоснованием

продуктивности применения статистических критериев оценки близости рассеяния зна —

z

 

чений элементов вектора Y k и Y k

случайных величин [6].

2013. № 1 (144). Выпуск 25/1

Тогда задача проверки статистической близости двух распределений случайных величин может быть обоснована и сформулирована на основе связи функции невязки в выражении (6) с одним из известных статистических критериев (например, критерия Смирнова).

Известно, что статистика критерия Смирнова измеряет степень различия между двумя функциями распределения, полученными в результате опыта. Проверяется гипо —

теза о том, что для двух любых выборок извлеченных из одной и той же генеральной со —

вокупности, т. е. описывающих текущие значения индикаторов исследуемого процесса,

имеет место равенство [8]

Y (x) = F (x)

(7)

при любом значении аргумента. Невязка двух распределений текущего и целевого состоя —

ний определяется через статистику, построенную по выборкам следующим образом [8]:

Представленный критерий согласия Смирнова позволяет проверить, согласуется

ли заданная выборка (совокупность индикаторов текущего состояния) с заданным фик —

сированным распределением(совокупность индикаторов целевого состояния), т. е. на сколько они близки. Для практических задач считается что, если статистика

превышает квантиль распределения Колмогорова ℜ(t ), заданного уровня значимости t,

то нулевая гипотеза H 0

(об однородности выборок) отвергается. В противном случае –

принимается на уровне t [8].

Таким образом, количественное значение ошибки в выражении (8) через стати —

стику Смирнова (12) и квантиль распределения Колмогорова ℜ(t ) установленного уровня

значимости, имеет детерминированную в данном случае табличную) связь с ошибками

первого и второго рода при проверке статистической близости текущего и целевого со —

стояний исследуемого процесса. Это позволяет корректно количественно оценивать допу —

2013. №1 (144). Выпуск 25/1

стимые риски, которые в ситуационном центре предварительно оцениваются экспертным путем. Конструктивность подобного подхода выражается в детерминированной связи статистических критериев с экспертными оценками возможных потерь при принятии решений, что позволяет в выражении (10) количественно установить верхнюю границу допустимой ошибки с учетом традиционно принятых в математической статистике оши — бок 1-го и 2-го рода. Следовательно, условие окончания итерационного процесса при обучении нейросетевой модели является состоятельным и обеспечивает надежность при — нимаемых решений.

После обоснования условий окончания обучения нейронной сети второй задачей является непосредственно моделирование динамики индикаторов исследуемого процес — са как прогнозирование их ожидаемых значений.

Модели динамики процесса как решение задачи многомерной регрессии

В случае большого количества разнородных данных предстоит построить нейронную сеть для реализации задачи многомерной регрессии. В данном случае полу- чим физическую модель исследуемого процесса, как реализацию функции (10). Если

производительность сети и ошибки на обучающем, контрольном и тестовом множествах в допустимых пределах, то модель становится инструментом поддержки принятия реше — ний в оценке исследуемого процесса во времени. В нейросетевом формате процедура по —

строения многомерной регрессии реализуется как модификации синаптического про — странства модели в режиме «обучения с учителем» в рамках установленных ограничений. [6]. При этом процедура обучения сети выполняется итерационно по алгоритму обрат —

ного распространения ошибки применительно к исходным данным исследуемого про —

цесса в формате задачи:

Рассматривая, например, экологическую нагрузку в регионе в качестве исследуе — мого процесса (рис. 1). Индикаторами процесса целесообразно выбрать количество забо — леваний (желудок, органы дыхания, кровь и др.), а предикторами – концентрацию масси — ва вредных соединений (в воздухе, воде, почве и т. д.). Тогда при наличии репрезента — тивного набора наблюдений (примеров) формируется обучающая выборка для построе — ния и реализации адекватной нейросетевой модели многомерной регрессии [7]. Восполь — зуемся моделями на базе стандартного пакета нейроэмуляторов Statistica 6.1 [8], прове — дем обучение и обеспечим допустимую адекватность и надежность результатов.

Рис. 1. Профили моделей и фрагмент обучающей выборки

2013. № 1 (144). Выпуск 25/1

Анализ профилей результатов моделирования позволяет выделить сети с прием — лемыми для практики производительностью и ошибками на обучающих, контрольных и тестовых множествах. Это свидетельствует об адекватности математической модели фи — зическому содержанию исследуемого процесса. На данном примере приведен графиче — ский результат построения многомерной регрессионной зависимости для ансамбля мо — делей (рис. 2).

Найденная регрессионная зависимость устанавливает связь входных факторов и выходных индикаторов системы через массивы синаптических коэффициентов ансамбля обученных нейросетевых моделей (рис. 3).

Сеть распознала структуру обучающего множества и пригодна для использования в прогнозировании значений зависимой переменной. Таким образом, нейросетевые мо —

дели исследуемого процесса в автоматизированных СППР продуктивно реализуются в среде эмуляторов стандартного нейропакета, и задача опережающего реагирования со —

стоит в прогнозировании каждого индикатора в отдельности и классификации процесса в целом по их полному множеству при переменной глубине прогноза. При этом вероят- ность ошибки и соответствующие риски принятия решений зависят от глубины прогноза. Это утверждение требует количественной оценки.

Особенности классификации прогнозируемых состояний в СЦОР

Анализ исследуемых процессов в СЦОР позволяет сделать вывод о неравнознач —

ности ущерба при перепутывании классов в их оценке по предсказанным значениям входных факторов[5]. Наиболее адекватной мерой близости классов прогнозируемых со —

стояний принят риск, который связанный с принятием решения о принадлежности рас —

познаваемого прогнозируемого состояния исследуемого процесса к некоторому классу

Ωk, k = 1,2…, m. Риски ошибочных решений рассчитываются предварительно и помеще —

ны в файл исходных данных в виде платежной матрицы C. В принятых обозначениях

после измерения признаков

2013. №1 (144). Выпуск 25/1

X 0 текущего состояния изучаемого процесса, величина

условного риска может быть представлена выражением:

слена в

Для исследуемых процессов, исходя из их описания и характеристик, непосред —

ственно применить решающее правило Байеса в задачах принятия оптимального реше — ния, как правило, не удается, так как плотности распределения признаков в классах и априорные распределения самих классов не известны. На практике, при наличии репре- зентативных данных входного массива модели вероятностных распределений факторов и состояний объекта могут быть построены решением задачи аппроксимации многомер — ных функций и реализованы в нейросетевом формате.

Пусть базовый процесс ССТС характеризуется данными:

− X = {x1 , x2 ,…, xr } – массив входных данных;

− Y = { y1 , y2 ,…, yh } – множество классов;

− Α = {α1 ,α 2 ,…,α r } – множество решений;

− λ{α i | y j } – функция потерь (ущерб от решения αi отнести объект к классу

y j );

− P( y j )

– априорная вероятность принадлежности объекта (процесса) к соответ —

ствующему классу;

− p( x | y j ) – условная плотность распределения вектора х в классе

y j ;

− Р ( y j | x) – апостериорная вероятность (вероятность установления класса y j ),

если признаки соответствуют вектору x.

Эта вероятность вычисляется по формуле Байеса:

Функция потерь λ{αi | y j } при принятии решения о принадлежности прогнозиру —

емого процесса к некоторому классу при анализе имеет ключевое значение. Это связано с особенностями предметной области исследуемого объекта (принять опасную экологиче — скую загрузку в регионе за допустимую или больного пациента за здорового, классифи — цировать успешное предприятие как банкрота и т. д.). Функция потерь представляется в виде:

та функция позволяет количественно оценить потери от принятия того или иного решения, так как появляется возможность количественно измерить прогнозируемый ущерб и вероятность его возникновения. Совместное их использование возможно в фор —

ме оценки условного риска принятого решения (αi ), когда

классификация):

i ≠ j (имеет место ложная

R(α i | x) = λ{α i | y j }Р ( y j | x) .

Анализ всех возможных сочетаний элементов матрицы потерь и соответствующих им вероятностей на основе байесовского правила проверки гипотез позволяет минимизи — ровать ущерб от принятых решений прогнозирования состояний процесса. Очевидно, что лучшими будут решения, которым соответствуют минимальные значения условных рис- ков при максимальных значениях апостериорных вероятностей:

λ{α i | y j } → min,

Р ( y j | x) → max.

При фиксированных значениях элементов матрицы потерь минимизация прогно — зируемого ущерба осуществима нахождением такого вектора входных факторов, при ко — тором вероятность ошибки классификации минимальна.

При этом реализуемое правило позволяет достигать теоретически обоснованной оптимальности принятого решения при определении класса исследуемого процесса с ко- личественной оценкой его надежности (доверительной вероятности).

Нейросетевая классификация прогнозируемых состояний процесса с оценкой рисков

Нейронная сеть обучается с таким расчетом, чтобы выходные значения были

оценками вероятностей, а матрица потерь рассчитывается предметным специалистом. Тогда нейросетевой модуль пакета технического анализа (например, STATISTICA Neural Networks) можно настроить так, чтобы учитывать матрицу потерь. В пакете SNN в вероятностную нейронную сеть может быть добавлен четвертый слой, содержащий матрицу потерь. Она умножается на вектор оценок, полученный в третьем слое, после чего в качестве ответа берется класс, имеющий наименьшую оценку потерь.

Иногда оценки вероятности используются непосредственно, например, когда решается задача отнесения набора признаков объекта исследования к наиболее вероятному классу. В ряде случаев, как правило, одни ошибки обходятся дороже других (например, при ошибочной диагностике экологической нагрузки в регионе: непринятие мер при опасных концентрациях вредных соединений, или материальные затраты – при их отсутствии). Матрица потерь представляет цены различных ошибок классификации. Она умножается на вектор оцененных вероятностей, в результате получается вектор оценок потерь, и каждое наблюдение приписывается тому классу, у которого будет наименьшая оценка для цены ошибки.

В пакете технического анализа матрицу потерь удобно строить с помощью линейной сети[3], имеющей такое же число элементов во входном и выходном слоях, как

у исходной сети в выходном слое.

После того, как матрица потерь построена, ее добавляют к обученной сети,

оценивающей вероятности, и в результате получится составная сеть, оценивающая ожидаемый ущерб от принятого решения.

Нейросетевые модели исследуемых процессов

в среде Statistica Neural Network

Для распознавания состояния объекта необходимо составить словарь информативных признаков и описать алфавит классов состояний объекта на языке этого словаря, что обеспечивает имеющаяся выборка примеров. Так как каждому классу

соответствует свой набор показателей, то процедура классификации объекта сводится к анализу пространства признаков текущего состояния и сравнения результатов анализа с описаниями выбранных классов. В нейросетевом формате задача распознавания классов

2013. №1 (144). Выпуск 25/1

текущего состояния исследуемого субъекта решается, например, с использованием дельта – правила [1]. При наличии двух классов состояний формирование обучающего множества упрощается. Применим технологию моделирования в среде нейроэмуляторов по методике [6], что позволяет получить модель (рис. 4).

Рис. 4. Профиль модели на фрагменте обучающей выборки

В результате интерактивного диалога получена модель сети, осуществлено её обучение, выбран наиболее производительный вариант из ансамбля моделей. Модели на основе радиально-базовых функций в целом подтверждают вывод о реализуемости базовых функций, но мощность обучающей выборки в приведенных примерах не позволила достичь производительности по условию задачи. Это видно из эксперимента на ансамбле РБФ-сетей (рис. 5).

Более низкая производительность характерна для моделей с большим числом нейронов в скрытом слое, и пользователь должен искать компромис между ошибками

обобщения на тестовом множестве, временем обучения и производительностью сети.

Рис. 5. Профиль моделей на фрагменте выборки для РБФ-сети

Показатели производительности моделей зависят одновременно от мощности обучающей выборки, сложности сети, её типа и архитектуры.

Таким образом, получено теоретическое и практическое подтверждение вывода о

возможности построения моделей прогноза исследуемого процесса при сохранении адекватности моделей в заданных границах.

Как видно из графиков, применение представленных технологий сокращения времени адаптации нейросетевых моделей базовых процессов при сохранении их адекватности в допустимых границах, позволило получить устойчивую сходимость итерационного процесса модификации синаптического пространства. Число эпох не превышает нескольких сотен, что в пересчете на общие временные затраты соответствует единицам и десяткам секунд. Конкретные предметные области исследования позволяют эти временные интервалы привести в соответствие с диррективным временем принятия решений.

Выводы

1. Нейросетевой базис ситуационного центра опережающего реагирования позво —

ляет автоматизировать принятие решений по тенденциям исследуемого процесса путем реализации прогноза динамики контролируемых переменных (индикаторов) процесса в

реальном времени и в пределах допустимых ограничений.

2. Инструментальная реализация прогнозирования динамики контролируемых параметров возможна и целесообразна на базе стандартных нейроэмуляторов существу —

ющих и перспективных пакетов интеллектуальной обработки данных.

3. Адекватность, надежность и продуктивность моделей исследуемых процессов установлена на основе анализа ошибок на обучающем и тестовом множествах

входных данных и в подавляющем большинстве экспериментов удовлетворяет требова —

ниям практики.

Материал взят из: Научные ведомости Белгородского государственного университета (История Политология Экономика Информатика) — № 1 (144) 2013

(Visited 1 times, 1 visits today)