Тимур Гильмуллин про математику и алгоритмы: Применение нейросетей для решения классических задач линейного и нелинейного разделения элементов множества на классы

Структура статьи:

1. Общие сведения о нейросистемах.

Уже много лет наблюдается повышенный интерес к нейронным сетям, которые успешно применяются в самых различных областях человеческих знаний – бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления. Успех нейросетей объясним несколькими причинами.

Обширные возможности нейросетей. Нейронные сети – исключительно мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. В частности, нейронные сети нелинейны по свой природе. На протяжение многих лет линейное моделирование было основным методом моделирования в большинстве областей, поскольку для него хорошо разработаны процедуры оптимизации. В задачах, где линейная аппроксимация неудовлетворительна (а таких достаточно много), линейные модели работают плохо. Кроме того, нейронные сети справляются с задачами которые не позволяют моделировать линейные зависимости в случае большого числа переменных.

Простота в использовании. Нейронные сети учатся на примерах. Пользователь нейронной сети подбирает представительные данные, а затем запускает алгоритм обучения, который автоматически воспринимает структуру данных. При этом от пользователя, конечно, требуется какой-то набор эвристических знаний о том, как следует отбирать и подготавливать данные, выбирать нужную архитектуру сети и интерпретировать результаты, однако уровень знаний, необходимый для успешного применения нейронных сетей, гораздо скромнее, чем, например, при использовании традиционных методов статистики.

Нейронные сети привлекательны с интуитивной точки зрения, ибо они основаны на примитивной биологической модели нервных систем. В будущем развитие таких нейро-биологических моделей может привести к созданию действительно мыслящих компьютеров.

Связь с биологией. Нейронные сети возникли из исследований в области искусственного интеллекта, а именно, из попыток воспроизвести способность биологических нервных систем обучаться и исправлять ошибки, моделируя низкоуровневую структуру мозга.

Основной областью исследований по искусственному интеллекту в 60-80-хх годах были экспертные системы. Такие системы основывались на высокоуровневом моделировании процесса мышления (в частности, на представлении, что процесс нашего мышления построен на манипуляциях с символами). Скоро стало ясно, что подобные системы, хотя и могут принести пользу в некоторых областях, не ухватывают некоторые ключевые аспекты человеческого интеллекта. Согласно одной из точек зрения, причина этого состоит в том, что они не в состоянии воспроизвести структуру мозга. Чтобы создать искусственных интеллект, необходимо построить систему с похожей архитектурой.

Мозг состоит из очень большого числа нейронов, соединенных многочисленными связями: в среднем несколько тысяч связей на один нейрон, однако это число может сильно колебаться.

Нейроны – это специальные клетки (см. рис. 1), способные распространять электрохимические сигналы. Нейрон имеет разветвленную структуру ввода информации (дендриты), ядро и разветвляющийся выход (аксон). Аксоны клетки соединяются с дендритами других клеток с помощью синапсов. При активации нейрон посылает электрохимический сигнал по своему аксону. Через синапсы этот сигнал достигает других нейронов, которые могут в свою очередь активироваться. Нейрон активируется тогда, когда суммарный уровень сигналов, пришедших в его ядро из дендритов, превысит определенный уровень (порог активации).

Интенсивность сигнала, получаемого нейроном (а следовательно и возможность его активации), сильно зависит от активности синапсов. Каждый синапс имеет протяженность, и специальные химические вещества передают сигнал вдоль него.

Один из авторитетных исследователей нейросистем, Дональд Хебб, высказал постулат, что обучение заключается в первую очередь в изменениях «силы» синаптических связей. Например, в классическом опыте Павлова, каждый раз непосредственно перед кормлением собаки звонил колокольчик, и собака быстро научилась связывать звонок колокольчика с пищей. Синаптические связи между участками коры головного мозга, ответственными за слух, и слюнными железами усилились, и при возбуждении коры звуком колокольчика у собаки начиналось слюноотделение.

Таким образом, будучи построен из очень большого числа простых элементов (каждый из которых берет взвешенную сумму входных сигналов и в случае, если суммарный вход превышает определенный уровень, передает сигнал дальше), мозг способен решать чрезвычайно сложные задачи.

2. Математический нейрон – персептрон.

Простой персептрон – это искусственный нейрон Маккалоха-Питтса (см. рис. 2.). В его структуре присутствуют следующие элементы.

$x=(x_0,\text{ }...,\text{ }x_n)$

– вектор входных коэффициентов нейрона.

Эти коэффициенты обозначают также

$x_i,\text{ }i=\overline{0,n}.$

На практике обычно полагают

$x_0=1.$

$w=(w_0,\text{ }...,\text{ }w_n)$

– вектор весовых коэффициентов входов нейрона.

Эти коэффициенты обозначают также

$w_i,\text{ }i=\overline{0,n}.$

$w_0$

– называют пороговым значением нейрона.

$u=\displaystyle\sum_{i=0}^nw_ix_i\text{ }(1)$

– сумматор нейрона.

Таким образом, выходной сигнал сумматора u – это линейная комбинация всех входных сигналов нейрона и соответствующих им весов.

$x_i,\text{ }w_i$

– в общем случае являются элементами произвольного числового поля.

Если считать коэффициенты векторов одномерными матрицами, то (1) можно переписать в матричной форме:

$u=wx$

используя транспонированную матрицу

$x=(x_0,\text{ }...,\text{ }x_n)^T.$

$y=f(u)=\left\{\begin{array}{rl}1,&u\geq0,\\0,&u<0,\end{array}\right.\text{ }y\in\{0,\text{ }1\}.\text{ }(2)$

– нелинейная функция активации персептрона. Она является ступенчатой, т.е. функция активации f(u) преобразует выходной сигнал сумматора в выходной сигнал нейрона y.

Также на практике часто используют функцию активации, записанную в виде:

$y=f(u)=\left\{\begin{array}{rl}1,&u\geq0,\\-1,&u<0,\end{array}\right.\text{ }y\in\{-1,\text{ }1\}.$

2.1. Обучение персептрона на отдельных примерах с учителем.

Обучение персептрона состоит в таком подборе весов

$w_i,\text{ }i=\overline{0,n},$
чтобы для любого входного вектора

$x=(x_0,\text{ }...,\text{ }x_n)$
выходное значение персептрона

$y\in\{0,\text{ }1\}$
совпадало с требуемым значением
$d\in\{0,\text{ }1\}.$

Тип обучения, при котором для каждого входного вектора нейрона сообщается, какое должно быть значение выхода нейрона, называется обучением нейросети с учителем. Совокупность входных обучающих векторов составляет обучающую выборку.

Алгоритм обучения персептрона на отдельных примерах состоит в прохождении следующих шагов.

Задается начальный вектор весов

$w=(w_0,\text{ }...,\text{ }w_n)$
случайно, либо используя некоторую специальную методику.

На вход нейрона подается вектор
$x=(x_0,\text{ }...,\text{ }x_n)$
из обучающей выборки для которого известно правильное выходное значение d нейрона и по формуле (2) рассчитывается значение выходного сигнала y. По результатам сравнения y и d уточняются значения весов.

Если
$y=d,$
то
$w_i,\text{ }i=\overline{0,n}$
не изменяются.

Если
$y=0,\text{ }d=1,$
то значения весов для следующего цикла обучения уточняются по формуле:
$w_i(t+1)=w_i(t)+\alpha x_i,\text{ }\alpha\in(0,\text{ }1),$
где α – коэффициент обучения, t – индекс текущего цикла (эпоха обучения).

Если
$y=1,\text{ }d=0,$
то значения весов уточняются по формуле:
$w_i(t+1)=w_i(t)-\alpha x_i,\text{ }\alpha\in(0,\text{ }1).$

Условия шагов 3, 4 и 5 алгоритма обучения с учителем можно объединить и выразить формулой:

$w_i(t+1)=w_i(t)+\alpha (d-y)x_i,\text{ }\alpha\in(0,\text{ }1).$

По завершении уточнения весовых коэффициентов персептрону предоставляются очередной обучающий вектор x и связанное с ним ожидаемое значение d, после чего значения весовых коэффициентов опять уточняются. Этот процесс многократно повторяется на всей обучающей выборке до тех пор, пока не будут ликвидированы различия между всеми значениями y и соответствующими им ожидаемыми значениями d, либо допустимая ошибка обучения не станет меньше заранее определенной величины.

3. Задача линейного разделения элементов множества на два класса.

С персептроном связана классическая задача линейного (однозначного) разделения элементов множества на два класса.

Задача линейного разделения элементов множества на два класса состоит в построении линейного решающего правила, то есть нахождении такого вектора весов

$w=(w_0,\text{ }...,\text{ }w_n),$
где

$w_0$
– пороговое значение, что при значении нелинейной функции активации персептрона

$y=f(u)>0\text{ }(y=1\),\text{ }u=wx,$
вектор x относится к первому классу, а при
$y=f(u)\leq0\text{ }(y=-1\bigvee y=0)$
– ко второму.

Метод разделения центров масс – простейший способ построения решающего правила. В этом методе начальный вектор весов персептрона вычисляется по формуле:

$w=\frac{\displaystyle\sum_{i=1}^kx^i\text{ }-\text{ }\sum_{j=1}^ly^j}{k\text{ }+\text{ }l},$

где векторы

$x^i,\text{ }i=\overline{1,k}$

относятся к первому классу, а векторы

$y^j,\text{ }i=\overline{1,l}$

ко второму классу.

Линейные решающие правила, построенные на основании разделения центров масс, могут ошибаться на примерах из обучающей выборки даже в тех случаях, когда существует их точное линейное разделение. Однако метод центров масс часто используют для определения начального значения весового вектора w для алгоритмов обучения персептрона.

3.1. Геометрическая интерпретация.

Пусть задан стандартный персептрон Маккалоха-Питтса. Линейное решающее правило делит входное векторное пространство на две части гиперплоскостью, классифицируя входные векторы как относящиеся к первому классу, если выходной сигнал

$y>0,$

или ко второму классу, если выходной сигнал

$y\leq0.$

Уравнение разделяющей гиперплоскости задаётся в виде:

$(w,\text{ }x)=0.$

или расписав скалярное произведение векторов через их координаты:

$\displaystyle\sum_{i=0}^nw_ix_i=0,\text{ }x_0=1.\text{ }(4)$

В n-мерном векторном пространстве (пространстве входных сигналов персептрона) вектор нормали

$w'=(w_1,\text{ }...,\text{ }w_n),$

перпендикулярен разделяющей гиперплоскости (4).

Длину проекции вектора x на вектор нормали вычислим как:

$x_{w\text{ }'}=\frac{(w\text{ }',\text{ }x)}{||w\text{ }'||},$

или, через координаты:

$x_{w\text{ }'}=\displaystyle{\frac{\sum_{i=1}^nw_i\text{ }'x_i}{\sqrt{\sum_{i=1}^n{w_i\text{ }'}^2\text{ }}}.\text{ }(5)$

Персептрон, при заданном векторе входных сигналов

$x'=(x_1,\text{ }...,\text{ }x_n),$

в котором, если не оговорено иное, будем опускать при его записи

$x_0=1,$

дает выход:

$y=\left\{\begin{array}{rl}1,\text{ }x_{w'\text{ }}>-\frac{w_0}{||w'||},\\0,\text{ }x_{w'\text{ }}\leq-\frac{w_0}{||w'||}.\end{array}\right.\text{ }(6)$

Схематично задача разделения элементов множества на два класса в случае двумерного пространства (n = 2) представлена на рис. 3.

Рассмотрим пример. В двухмерном пространстве входных сигналов уравнение гиперплоскости задаётся уравнением прямой:

$w_0+w_1x_1+w_2x_2=0.$

Пусть

$w_1=w_2=1,\text{ }w_0=-2.$

Тогда получаем уравнение прямой:

$-2+x_1+x_2=0.$

которая представлена на рис. 4 линией, пересекающей оси координат в точках:

$(2,\text{ }0),\text{ }(0,\text{ }2).$

$w'=(1,\text{ }1)$

– нормаль к прямой.

Пусть заданы два радиус-вектора:

$a=(2,\text{ }2),\text{ }b=(-3,\text{ }2).$

Требуется отнести их к одному из классов, в зависимости от положения точек относительно разделяющей прямой.

Длины проекций векторов a и b на нормаль вычислим по формуле (5):

$a_{w\text{ }'}=\frac{4}{\sqrt2},$
$b_{w\text{ }'}=-\frac{1}{\sqrt2}.$

$a=(2,\text{ }2)$

– вектор, относящийся к первому классу, так как на выходе персептрона по формуле (6) получаем значение
$y=1,$
поскольку
$a_{w\text{ }'}\g\frac{2}{\sqrt2}.$

$b=(-3,\text{ }2)$
– вектор, относящийся ко второму классу, так как на выходе персептрона получаем значение
$y=0,$
поскольку

$b_{w\text{ }'}<\frac{2}{\sqrt2}.$

3.2. Реализация булевых функций AND и OR при помощи персептрона.

Легко убедиться, что однослойный персептрон способен реализовать булевы функции AND и OR. Для упрощения примеров, приведём далее только данные для реализации персептронов, схематичные изображения гиперплоскостей (в данном случае – прямых) и персептронов.

Данные для реализации функции AND (изображение гиперплоскости см. на рис. 5, схему персептрона см. на рис. 6):

Данные для реализации функции OR (изображение гиперплоскости см. на рис. 7, схему персептрона см. на рис. 8):

4. Задача нелинейного разделения элементов множества на два класса.

Как было показано выше, однослойный персептрон способен решать задачи линейного разделения двух классов, реализовать булевы функции AND и OR. Однако он уже не способен справиться с задачей воспроизведения функции XOR (исключающее ИЛИ) и выполнять более общие классификации, например, отделять точки выпуклых и невыпуклых областей плоскости. Эти ограничения можно снять, добавив дополнительные слои персептронов.

Рассмотрим далее примеры реализации функции XOR и решение задачи классификации точек выпуклой (треугольной) области на плоскости.

4.1. Реализация булевой функции XOR при помощи сети персептронов.

Функцию XOR возможно реализовать при помощи двухслойной нейронной сети. Первый слой сети состоит из двух персептронов, реализующих функции OR и NOT(AND) – ИЛИ и отрицание функции И. Во втором слое находится персептрон, реализующий функцию AND от двух выходных сигналов первого слоя.

Данные для реализации функции XOR (изображения гиперплоскостей см. на рис. 9, схему нейронной сети персептронов см. на рис. 10):

4.2. Выделение выпуклых областей при помощи сети персептронов.

Двухслойные сети, получаемые каскадным соединением однослойных сетей, также способны выполнять более общие классификации множества точек плоскости, отделяя точки, содержащиеся в выпуклых ограниченных и неограниченных областях. Выше был приведен пример выделения выпуклой области двумя гиперплоскостями (см. реализацию функции XOR).

Включением достаточного числа персептронов, каждый из которых фактически реализует разбиение плоскости на две полуплоскости, во входной слой, возможно образовать выпуклый многогранник желаемой формы. Так как все такие многогранники образованы с помощью операций И над областями, задаваемыми разделяющими прямыми, то все они выпуклы.

Рассмотрим пример. Пусть в двухмерном пространстве входных сигналов необходимо выделить область треугольной формы (см. рис. 11). Данные по гиперплоскостям (фактически являющиеся обычными прямыми на плоскости) можно представить следующим образом:

Выделение области треугольной формы, может быть реализовано двухслойной нейросетью (см. рис. 12), в первом слое которой три персептрона реализуют разбиение плоскости на две полуплоскости заданными разделяющими прямыми, а во втором слое один персептрон реализует булеву функцию AND от трех входов (выходов предыдущего слоя).

По материалам лабораторных работ
для дисциплины «Нейрокомпьютерные системы», 2008г.
кафедра СИБ, КГТУ им. А.Н. Туполева (КАИ),
(с) Гильмуллин Т.М., 2013.

воскресенье, 28 апреля 2013 г.

Применение нейросетей для решения классических задач линейного и нелинейного разделения элементов множества на классы