Модель отражает единственный атрибут биологического нейрона -его способность генерировать импульсы “все, или нечего” в ответ на достаточно сильное воздействие. Нейрон Мак-Каллока – Питтса функционирует в дискретном времени. Он имеет входов -синапсов и единственный выход. Значение выходного сигнала соответствует генерации спайка (состояние возбуждения). В состоянии покоя выходной сигнал . В момент времени выходной сигнал формируется в зависимости от сигналов , поступивших на синапсы в момент времени . Последние также могут принимать значения ноль или единица. Если синаптический сигнал равен нулю, то говорят, что синапс находится в состоянии покоя. Единичное значение соответствует состоянию возбуждения синапса. Сигнал на синапс поступает либо от выхода другого нейроны, либо от сенсора -специального входа для внешних сигналов. Первоначально правила формирования выходного сигнала были введены авторами модели в виде ряда аксиом. Приведем две из них.
1. Для возбуждения нейрона в момент времени необходимо в момент времени возбудить определенное, фиксированное число синапсов, которое не зависит ни от предыдущей истории, ни от состояния нейрона.
2. Нейрон имеет особые входы -тормозящие синапсы. Возбуждение любого из них в момент времени исключает возбуждение нейрона в момент времени .
Первая аксиома отражает пороговые свойства нейрона, а вторая – подчеркивает особую роль торможения (на сетях “без запретов” нельзя реализовать произвольный алгоритм).
Впоследствии модель изменилась. Синаптические сигналы ( не обязательно бинарные) стали взвешивать и формировать суммарный входной сигнал . Здесь -числа, которые называют синаптическими весами. Синапс называют возбудительным, если , и тормозным, если . Договорились, что в момент времени нейрон находится в возбужденном состоянии , если суммарный входной сигнал в момент времени превысил некоторое пороговое значение , т.е. . Пусть -функция Хевисайта. Она принимает нулевое значение при и единичное при . Тогда можно записать:
. (12)
Описанный объект есть то, что в настоящее время называют формальным нейроном Мак-Каллока – Питтса.
Функция в (12) получила название функции активации. Часто рассматривают нейроны с другими функциями активации. Нулевое значение выходного сигнала означает, что в соответствующий момент времени нейрон не действует на другие нейроны (он как бы искючен из сети). Представляется разумным, что в любой момент времени выходное значение не равно нулю и зависит от величины . В связи с этим, часто берут в качестве функции активации знак числа. Формула для выходного сигнала приобретает вид:
. (13)
Здесь при и при . Отметим, что в данном случае поделить нейроны на возбудительные и тормозные в принципе невозможно (напомним, что для биологических нейронов такая классификация производится).
Еще один подход к выбору функции активации связан с биологическим фактом, что на более сильное воздействие нейрон отвечает пачкой спайков. Число спайков (или частоту их следования) можно принять за характеристику выходного сигнала. В связи с этим рассматривают нейрон, у которого выходной сигнал задается формулой:
. (14)
Здесь -монотонно растущая функция, имеющая предел при . Дополнительно предполагают, что при , либо при (сигмоидная функция). Широко используется так называемая логистическая функция: . Другой вариант: при , например, .
Иногда в качестве функции выбирают линейный трехзвенный сплайн (ломаную, состоящую из трех частей): при , , где и , для . Тогда на восходящем участке функции активации нейрон работает как линейный сумматор входных сигналов.
Рассмотрим нейрон Мак-Каллока – Питтса, выходной сигнал которого задается формулой (12). Вектор , состоящий из входных сигналов (не обязательно бинарных), назовем входным, а вектор -синаптическим. Обычным образом введем скалярное произведение: . Гиперплоскость разбивает пространство на два полупространства и . В первом из них , а во втором . Если входной вектор , то выходной сигнал нейрона , если же , то . Тем самым, нейрон относит каждый из входных векторов к одному из двух классов.
Для того, чтобы нейрон мог осуществлять “правильную” в каком -то смысле классификацию, должны быть соответствующим образом выбраны вектор синаптических весов и пороговое значение . Процедура выбора этих параметров называется обучением нейрона. Различают обучение с “учителем” и “без учителя”.
Задача обучения с учителем ставится следующим образом. Задаются два набора входных векторов и . Они называются эталонными векторами или паттернами, а также образами. Требуется определить вектор синаптических весов и порог так, чтобы выходной сигнал нейрона в ответ на входные векторы был равен единице, а на векторы -нулю. Тем самым, обучение с учителем предполагает, что для каждого эталонного входного вектора заведомо известен ответ нейрона. Эталон и желаемый ответ называются обучающей парой.
Несмотря на многочисленные прикладные достижения обучение с учителем критикуется за свою биологическую неправдоподобность, поскольку совершенно не понятно откуда могут появиться желаемые ответы. При обучении без учителя заранее неизвестно разбиение эталонов на подмножества. До обучения невозможно предсказать в какой класс попадет каждый конкретный эталонный вектор. В процессе обучения выделяются статистические свойства обучающей последовательности и вырабатываются правила классификации. Естественно идея, на которой основаны правила, априорно заложена в процесс обучения. Например, эталонные векторы усредняются по координатам. Если эталонный вектор находится от усредненного “не слишком далеко”, то он относится к первому классу, а иначе -ко второму. Постановка задачи об обучении без учителя выглядит несколько расплывчатой. Однако в ряде случаев она успешно решена.
Различают также внешнее и адаптивное обучение. В первом случае синаптические веса вычисляются неким внешним устройством, а затем импортируются в синапсы. При адаптивном обучении веса подстраиваются в процессе функционирования сети, которой предъявляется обучающая последовательность эталонов. Многие авторы считают механизм адаптации неотъемлемым атрибутом нейронов. Внешнее обучение позволяет понять, во -первых, возможна ли вообще интересующая нас классификация для данной обучающей последовательности. Во -вторых, позволяет, не задумываясь о возможных механизмах адаптации, разумно выбрать синаптические веса для изучения вопроса о функционировании нейронов, объединенных в сеть.
После завершения процесса обучения нейрон осуществляет классификацию векторов эталонной последовательности, т.е. “запоминает” для каждого вектора класс, к которому тот относится. Кроме этого, произвольный входной вектор нейрон относит к определенному классу, т.е. “обобщает” классификацию (принцип сортировки) эталонной последовательности на произвольный образ.
Рассмотрим вопрос о разрешимости задачи обучения с учителем в частном случае, когда второе множество состоит из единственного представителя . Геометрически это означает, что строится гиперплоскость, которая отделяет векторы от нуля, т.е. решается задача об отделимости. Отметим, что для бинарных векторов, координаты которых равны либо нулю, либо единице, задача об отделимости всегда разрешима. В качестве нормального вектора можно взять, например вектор и положить для порогового значения . Нижеследующие построения на используют предположения о бинарности векторов.
Легко понять, что задача об отделимости разрешима в том и только том случае, когда выпуклая оболочка векторов не содержит нуля (отделена от нуля). Напомним, что выпуклой оболочкой векторов называется множество , состоящее из векторов: , где и . Пусть множество отделено от нуля и -его ближайшая к нулю точка, т.е. по всем . Здесь, как обычно, . Положим и выберем произвольно . Вектор -искомый синаптический вектор, а -пороговое значение для нейрона, реагирующего на входные векторы выходным сигналом , а на вектор -сигналом .
Задача о нахождении вектора, на котором реализуется минимальное расстояние от нуля до выпуклой оболочки сама по себе весьма сложна. Если число векторов не превышает размерность пространства и сами они линейно независимы, то отделяющую гиперплоскость можно построить другим способом. Достаточно провести через векторы какую-нибудь не содержащую ноль гиперплоскость, а затем сдвинуть ее по направлению нормали ближе к нулю. В качестве вектора синаптических весов следует взять нормальный к
гиперплоскости вектор, направленный в полупространство, не содержащее ноль. Нормальный вектор к гиперплоскости, содержащей векторы строится конструктивно. Выбор вектора будет однозначным (с точность до множителя), если предполагать, что он принадлежит подпространству, порожденному векторами .
При построении будем использовать алгоритм Шмидта. Он позволяет по последовательности линейно независимых векторов построить последовательность ортогональных между собой векторов, обладающих следующим свойством. Вектор принадлежит подпространству, порожденному векторами и ортогонален всем векторам, расположенным в подпространстве, порожденном векторами . Последовательность строится рекуррентно. Положим . Вектор представим в виде: . Из условия получим: . Далее полагаем . Вектор ортогонален любому вектору из подпространства, порожденного векторами , которому принадлежат векторы . Следовательно и . Учитывая ортогональность векторов , получаем: , . На – ом шаге алгоритма полагаем
. (15)
Из условия в силу ортогональности векторов находим . Отметим важное обстоятельство, что
. (16)
Действительно, из (15) следует:
Пусть векторы , где линейно независимы. Построим проходящую через них гиперплоскость , т.е. такую гиперплоскость, для которой при всех . Используя алгоритм Шмидта, ортогонализируем последовательность векторов (легко видеть, что они линейно независимы). Пусть последний элемент последовательности суть . Это и есть искомый нормальный вектор. Действительно, по построению для . Таким образом, для всех . В силу (16) получаем . Используя это равенство, уравнение гиперплоскости можно переписать в виде: .
Зафиксируем произвольно . Гиперплоскость отделяет векторы от нуля. Действительно, .
Рассмотрим задачу о разделении гиперплоскостью множеств векторов и , для . Она разрешима в том и только том случае, когда выпуклые оболочки и соответственно векторов и не пересекаются. Пусть и – векторы, на которых реализуется минимальное расстояние между точками выпуклых оболочек и . Тогда разделение множеств осуществляет любая гиперплоскость, которая ортогональна отрезку, соединяющего векторы и и проходит через его внутреннюю точку.
Нахождение векторов и – сложная задача. Разделяющую гиперплоскость можно легко построить, если число и векторы , линейно независимы (можно вычитать любой фиксированный вектор , или ). Рассмотрим последовательность векторов , , . Они линейно независимы. Используя алгоритм Шмидта, по данной последовательности построим ортогональную последовательность. Пусть – последний вектор, полученный в процессе ортогонализации. По построению для , для . Из равенства (16) следует, что . Тем самым, , . Кроме того, . Обозначим: и . Пусть . Гиперплоскость разделяет векторы и . Действительно, , .
Отметим, что рассмотренный алгоритм выбора синаптических весов, основанный на ортогонализации входных векторов, – пример внешнего обучения нейрона Мак-Каллока Питтса.