Содержание
Содержание
Модель парной линейной регрессии
Оценивание параметров функции парной линейной регрессии
Связь оценок параметров функции парной линейной регрессии с выборочными числовыми характеристиками
Коэффициент детерминации
Литература
Модель парной линейной регрессии
Предположим, что у нас есть все основания считать, что два экономических показателя взаимосвязаны. Например, уровень инфляции и уровень безработицы в какой-либо стране или спрос на товар и цена товара, темп роста валового внутреннего продукта (ВВП) и доходность ценной бумаги.
В нашем распоряжении имеется набор данных, полученных в результате статистических наблюдений за интересующими нас показателями. Такие данные приводятся в различных периодических изданиях, журналах, газетах и бюллетенях и относятся ко всем сферам экономики.
Используя указанные эмпирические данные, мы хотим подобрать (если это возможно!) функцию, которая связывает эти экономические показатели. Безусловно, эта задача повлечет за собой целый ряд других задач (насколько хорошо мы подобрали функцию, значима или нет зависимость между показателями и т.д.), но пока рассмотрим подход к её решению.
Договоримся в дальнейшем зависимую (эндогенную) переменную обозначать через у, и называть результирующим признаком, а независимую (экзогенную) переменную через x и называть фактором. Тогда упорядоченный набор значений переменных (x; y) это двумерная выборка. Очень часто в литературе переменную х называют объясняющей переменной.
Пример 1. В качестве примера такой выборки рассмотрим следующую выборку значений темпа роста ВВП (переменная x) и доходности акций компании Widget (переменная y) [13]:
(5,7; 14,3), (6,4; 19,2), (7,9;23,4), (7;15,6), (5,1;9,2), (2,9; 13).
Эти же данные можно было бы записать в виде следующей таблицы:
Таблица 1.
Год
Темп роста
ВВП(%)
Доходность акций
компанииWidget (%)
1
5,7
14,3
2
6,4
19,2
3
7,9
23,4
4
7
15,6
5
5,1
9,2
6
2,9
13
Или изобразить в виде точек на плоскости в ДСК
Рис.1 Корреляционное поле.
Характер расположения точек на рисунке, называемом корреляционным полем, подсказывает, что зависимость между переменными x и y в среднем близка к линейной, то есть
.
Или
(1)
Однако если зависимость между переменными была бы линейной, то все точки лежали бы на одной прямой, значит нужно внести коррективу. Включим в модель, которую мы пытаемся подобрать, ещё одну переменную, которую назовем ошибкой наблюдения (или неучтенными в модели факторами) и обозначим через e.
Уравнение (1) перепишем в виде
(2)
Относительно переменных e i сделаем следующие допущения. Будем считать, что:
1. Ошибки наблюдения ei являются случайными величинами, распределенными по нормальному закону.
2. Математическое ожидание всех случайных величин ei равно нулю:
3. Все ошибки наблюдения ei имеют одинаковую (но неизвестную!) дисперсию:
4. Случайные величины ei и ej, i¹j, предполагаются независимыми друг от друга.
Замечание 1. Известно, что выражение для момента корреляции двух случайных величин можно записать в виде:
.
Так как величины ei и ej по четвертому предположению независимы, то они и некоррелированные, то есть . В силу второго предположения Поэтому получаем, что
.▲
Замечание 2. Относительно факторной переменной х будем рассматривать два предположения:
● переменная х носит детерминированный (неслучайный) характер;
● переменная х является случайной величиной.
Каждый раз будет оговорено, в рамках какого из двух предположений рассматривается изучаемая модель. ▲
Определение 1. Условия 1-4 называются условиями Гаусса – Маркова.
Замечание 3. Вернемся к условиям Гаусса – Маркова и прокомментируем их. Предположение о том, что означает, что ошибки наблюдения поступают с разными знаками и компенсируют друг друга. То есть исключается ситуация, когда ошибки систематически появляются с одним и тем же знаком. Поэтому в случае, когда , говорят, что систематическая ошибка равна нулю.
Требование постоянства дисперсии случайных величин ei говорит о том, что все наблюдения производятся с равной точностью. Поэтому в русскоязычной литературе говорят, что имеет место равноточная схема наблюдений. В англоязычной литературе предположение о том, что имеет место равенство, называют условием гомоскедастичности (homoscedasticity). Если то говорят, что имеет место гетероскедастичность ошибок.
Условие независимости случайных величин ei и ej, i¹j, которое автоматически влечет за собой их некоррелированность, означает, что ошибка i-ого наблюдения не влияет на результат j-го.▲
Замечание 4. Вернемся к уравнению (2). В этом уравнении коэффициенты b0 и b1 являются неизвестными параметрами, которые подлежат нахождению.
В силу того, что переменные ei в уравнении (2) являются случайными величинами, то и уi , которые связаны с ними функционально, будут носить случайный характер. Вычислим математическое ожидание и дисперсию уi, предполагая, что переменная х носит детерминированный характер:
;
Так как случайные величины ei распределены по нормальному закону, то по теореме о том, что линейное преобразование случайных величин, распределенных по нормальному закону, сохраняет закон распределения (изменяются только параметры распределения), можем сделать вывод: случайные величины уi распределены по нормальному закону распределения с математическим ожиданием и одинаковыми дисперсиями s2.▲
Таким образом, математическое ожидание случайной величины уi будет зависеть от такого, какое значение примет переменная хi, (которая в общем случае также является случайной величиной), то есть будет являться условным математическим ожиданием.
Функция переменной х, задающая значение условного математического ожидания, называется функцией регрессии первого рода или модельной функцией регрессии. Так как в нашем распоряжении только информация эмпирического характера, то мы будем работать с функцией регрессии второго рода или, так называемой эмпирической функцией регрессии, служащей статистической оценкой модельной функцией регрессии.
Будем обозначать эмпирическую функцию регрессию . Таким образом,
, (3)
(4)
Эта функция показывает, как «в среднем» изменяются значения случайной величины у, в зависимости от того, какие значения примет х. График функции регрессии одной переменной называют линией регрессии.
Определение 2. Функция (3), задающая среднее значение переменной у, при условии, что независимая переменная х приняла фиксированное значение, называется функцией регрессии.
Вернемся к уравнениям (1) и (2) и перепишем их с учетом (3), (4), получим:
, (5)
(6)
Определение 3. Если выполняются условия Гаусса-Маркова и имеет место уравнение (5) (или (6)), то говорят, что задана классическая нормальная регрессионная модель.
Подводя итог, отметим, что когда мы говорим о регрессионной модели, то мы имеем в виду уравнение (5), когда речь идет о функции регрессии, то рассматривается уравнение (3). Регрессионная модель включает в себя функцию регрессии и неучтенные в модели факторы, носящие по предположению случайных характер.
Оценивание параметров функции парной линейной регрессии
В эконометрике приходится сталкиваться с двумя ситуациями. Уже имеющаяся математическая модель, построенная, исходя из тех или иных экономических предпосылок, проверяется эконометрическими методами на ее соответствие новым экономическим условиям. Иными словами, известная экономическая модель проверяется на «правильность». Еще одна ситуация, с которой приходится встречаться, заключается в том, что необходимо построить саму модель, то есть, подобрать функцию, которая аппроксимирует зависимость между теми или иными показателями. Такая попытка построения модели была предпринята нами в примере 1. Однако, даже после того, как сам вид модели задан, остается важная задача отыскания неизвестных параметров модели, или, выражаясь более корректно, оценивания параметров регрессионной модели. Существуют различные подходы и методы к решению задачи оценивания параметров. В этом параграфе рассмотрим метод поиска оценок неизвестных коэффициентов, называемый методом наименьших квадратов (МНК или OLS- ordinary least squares).
Разберем сначала идею самого метода. Изобразим на корреляционном поле фактические значения уi, гипотетическую линию регрессии , (которая исходя из нашего предположения является прямой линией и которая нам на самом деле неизвестна) и ошибки ei. (Рис.2)
Рис.2. График функции линейной регрессии.
Неизвестные коэффициенты b0 и b1 будем подбирать так, чтобы сумма квадратов отклонений ei (фактических значений уi от линии регрессии ) была наименьшей. Таким образом, неизвестные коэффициенты b0 и b1 будем искать исходя из условия минимума функции двух переменных
равной:
= .
Или
=.
Следовательно, МНК дает возможность отыскать неизвестные коэффициенты b0 и b1 исходя из условия минимума суммы квадратов ошибок, обусловленных влиянием неучтенных в регрессионной модели факторов.
Перепишем выражение для минимизируемой функции, используя уравнение (2) в следующем виде:
= . (1)
Запишем необходимое условие экстремума этой функции двух переменных:
,
.
Или:
,
.
Приравняв обе частные производные к нулю:
, (2)
, (3)
и, выполнив алгебраические преобразования, получим следующую систему:
Неизвестные коэффициенты не зависят от индекса суммирования, поэтому, вынося их за знак суммы, перепишем последнюю систему в окончательном виде:
(4)
Система (4) называется системой нормальных уравнений. Относительно неизвестных коэффициентов b0 и b1 система нормальных уравнений является системой линейных алгебраических уравнений. В случае совместности этой системы, решив её, получим стационарную точку функции . Так как эта функция является выпуклой функцией, то стационарная точка будет искомой точкой минимума.
Обозначим через в0 и в1 решение системы (4) и запишем выражение для найденной функции регрессии:
, (5)
или
. (6)
Таким образом, функция (5) будет являться решением задачи оценивания неизвестной линейной функции регрессии, оптимальным в смысле минимума суммы квадратов ошибок.
Итак, какую функцию мы пытались найти? Наша задача состояла в нахождении функции . Нашли ли мы эту функцию? Нет, нам удалось, при помощи МНК, найти функцию , которая наиболее близка к искомой функции в смысле минимума функции (1).
Пример 2. Используя условия примера 3, найдем функцию регрессии, связывающую доходность акций компании Glenwood City Properties (GCP) и доходность рыночного индекса.
Решение. Нанесем исхлдные данные на корреляционное поле (Рис.3).
Рис.3. Изображение эмпирических данных на корреляционном поле.
Характер расположения точек на графике дает нам основание предположить, что искомая функция регрессии линейная: . Найдем оценки неизвестных коэффициентов, составив для этого систему нормальных уравнений:
Решая эту систему, получим: в0=1,917; в1=0,261. Еще раз отметим то, что решив систему нормальных уравнений мы не найдем сами неизвестные регрессионные коэффициенты, а лишь оценки этих коэффициентов. Искомое уравнение функции регрессии будет следующим:
. (7)
Модель, связывающая изменение доходности ценной бумаги с изменением рыночного индекса, называют рыночной моделью. Более подробно мы остановимся на этой модели позднее.
Проведем анализ полученного уравнения (7). Коэффициент в1=0,261 в данной рыночной модели называют коэффициентом наклона. Он характеризуетчувствительность доходности акций компании GCP к изменению доходности рыночного индекса. Так как этот коэффициент положительный, то это говорит о том, что увеличение доходности рыночного индекса влечет за собой увеличение акции компании GCP (функция (7) является возрастающей). Вследствие того, что в1оборонительными акциями. Коэффициент в0=1,917 называют коэффициентом смещения ▲.
Связь оценок параметров функции парной линейной регрессии с выборочными числовыми характеристиками
В предыдущем параграфе, используя МНК, мы получили систему нормальных уравнений, решив которую можно найти оценки неизвестных коэффициентов функции парной линейной регрессии. Однако находить эти оценки можно и по-другому, например, используя для этого выборочные числовые характеристики. Покажем это.
Вернемся к системе (5) и разделим каждое уравнение этой системы на n, получим:
(1)
С учетом введенных в первой главе обозначений первое уравнение системы (1) перепишем в виде:
Выразим отсюда b0:
(2)
и подставим выражение (2) во второе уравнение системы (1):
.
Или
.
Так как выражение в круглых скобках левой части равенства есть , а справа стоит выражение для , то последнее уравнение принимает вид:
=.
Или:
. (3)
В то же время, выражение (3), с учетом формулы (9), перепишем в виде:
. (4)
Как уже отмечалось, более корректной запись окончательного решения будет не для коэффициентов b0 и b1, а для их оценок в0 и в1, то есть:
, (5)
. (6)
Подставим найденные выражения для оценок (5) и (6) в уравнение (4):
.
Последнее уравнение можно переписать в одном из следующих видов:
или
.
Пример 1. Вернемся к решению примера 2. и найдем оценки неизвестных параметров линейной регрессии по формулам (5) , (6). Так как величины мы уже вычисляли в примере 1.1.3, то нам осталось вычислить . Для этого будем использовать формулы, связывающие смещенные и несмещенные оценки дисперсий:
.
Получаем .
Значит, , а следовательно, оценки коэффициентов будут равны:
.▲
Коэффициент детерминации
Предположим, что экономические предпосылки и анализ расположения точек на корреляционном поле позволил нам выдвинуть гипотезу о том, что зависимость результирующего признака у от фактора х может быть описана следующей моделью:
.
Причем, как не раз мы уже отмечали коэффициенты b0 и b1 в этом уравнении неизвестны. Используя МНК, мы можем найти оценки этих коэффициентов в0 и в1 и записать следующее выражение для у:
.
На приведенном рисунке (Рис.4) изображены фактические значения переменной у, график гипотетической функции регрессии (которая, вообще говоря, нам неизвестна!) и график эмпирической функции регрессии, коэффициенты которой найдены из условия минимума суммы квадратов ошибок.
Рис.4. Графики гипотетической и эмпирической функций регрессии.
Исходя из логики наших действий, возникают два вопроса:
●Можно ли с той или иной вероятностью найти подтверждение, что вид функциональной зависимости (речь пока идет только о линейной функции) выбран корректно.
●Насколько хорошо, со статистической точки зрения, оценки неизвестных параметров, полученные по МНК, приближают неизвестные коэффициенты.
Для ответов на поставленные вопросы нам понадобится, в частности, понятие коэффициента детерминации. Перед тем как ввести это понятие рассмотрим следующую сумму:
.
Покажем, что ее можно представить в виде:
=+.
Действительно,
=
=. (1)
Через обозначена функция регрессии, полученная по МНК: .
Покажем, что последнее слагаемое в (1) равно нулю, для этого запишем его в виде:
– .
Рассмотрим слагаемое
=.
В силу равенства (2), можно утверждать, что оно равно 0. Преобразуем теперь первое слагаемое:
==
=+.
Оба слагаемых равны нулю в силу равенств (2) и (3).
Таким образом, мы показали, что имеет место, следующее представление для рассматриваемой суммы:
=. (2)
Величину еi равную:
будем называть остатком. Следовательно, первое слагаемое в правой части (2) есть сумма квадратов остатков:
.
Ее называют остаточной суммой квадратов и обозначают RSS (residualsumofsquares).
Вторая сумма это сумма квадратов отклонений точек, расположенных на регрессионной прямой от прямой у =. Эту сумму называют суммой квадратов отклонений, объясненной регрессией ЕSS (explainedsumof squares).
В левой части равенства (2) находится сумма квадратов отклонений фактических значений переменной у от прямой у =. Такую сумму называют полной суммой квадратов и обозначают TSS (totalsumofsquares).
Таким образом, полная сумма квадратов TSS разбилась на две составляющие:
TSS= RSS+ ESS. (3)
● ESS- сумму квадратов, обусловленных влиянием основного фактора х;
● RSS – сумму квадратов, обусловленных влиянием других, в том числе и случайных факторов.
Замечание 1. Следует иметь в виду, что в литературе по эконометрике, в частности в [9], эту же систему обозначений используют с точностью до наоборот, давая ей другое объяснение. Сумму, которая выше обозначена как ЕSSобозначают черезRSSи расшифровывают так: regressionsumofsquares. И наоборот, сумму, обозначенную нами как RSSназывают ЕSS: errorsumofsquares. Мы будем придерживаться введенной выше терминологии. ▲
Замечание 2.Рассмотрим два частных случая. Предположим, что x не оказывает никакого влияния на y, тогда выборочное условное среднее совпадает с выборочным средним , в такой ситуации ЕSS =0 и
TSS= RSS.
В том случае, когда на зависимую переменную у не оказывает влияния никакие другие факторы, кроме х, сумма RSS будет равняться нулю и будет выполняться следующее равенство:
TSS= ESS.
В общем же случае, если оценки параметров функции регрессии найдены по МНК, всегда будет иметь место равенство (3).▲
Определение 1. Парным коэффициентом детерминации (выборочным) называют отношение:
. (4)
Говорят, что «коэффициент детерминации показывает, какая доля дисперсии величины y определяется (детерминируется) изменчивостью (дисперсией) соответствующей функции регрессии y от x» [1].
Поясним сказанное. Для этого вернемся к равенству (2) и разделим обе части равенства на n, получим:
=.
Или:
.
Тогда выражение для парного коэффициента детерминации можно представить в виде:
. (5)
Следует отметить, что введенный нами парный коэффициент детерминации также относится к выборочным числовым характеристикам и рассчитывается по эмпирическим данным. Теоретический коэффициент детерминации будем обозначать Rxy.
Рассмотрим, в каком диапазоне изменяется значение коэффициента детерминации . Очевидно, что эта величина всегда неотрицательна. Найдем верхнюю границу. Из равенства (3) следует следующее равенство:
.
Следовательно,
.
Отсюда очевидно, что в силу того, что наименьшее значение RSS =0, наибольшее значение коэффициента детерминации равно 1. Таким образом,
.
Отметим, что значение коэффициента детерминации тем ближе к 1, чем меньше остаточная сумма квадратов. В этом случае говорят, что уравнение регрессии статистически значимо и фактор х оказывает сильное воздействие на результирующий признак у (последний тезис справедлив только для модели парной линейной регрессии!).
Покажем, как связаны коэффициент парной детерминации с выборочным коэффициентом корреляции, чтобы аргументировать последнее утверждение.
.
Подставим это выражение в числитель формулы (5):
.
Следовательно, в случае парной линейной регрессии, коэффициент детерминации равен квадрату выборочного коэффициента корреляции:
. (6)
Замечание 1. Из теории вероятностей известно следующее свойство коэффициента корреляции . Коэффициент корреляции двух случайных величин равен 1 или -1 тогда и только тогда, когда случайные величины связаны между собой линейно, т.е. у = ах + в. Классификация силы связи двух случайных величин в зависимости от величины коэффициента корреляции (теоретического!) может производиться следующим образом.
Если то связь между случайными величинами классифицируют как слабую; если то силу связи между двумя случайными величинами классифицируют как среднюю и, наконец, если , то говорят, что имеет место сильная стохастическая зависимость. Причем, если коэффициент корреляции положительный, то связь классифицируют как прямую, то есть значение обеих случайных величин увеличиваются или уменьшаются одновременно. Отрицательное значение коэффициента корреляции говорит об обратной связи, то есть, например, увеличение значений одной случайной величины ведет к уменьшению значений другой. Следует иметь в виду, что использование выборочного коэффициента корреляции для подобной классификации, требует вдумчивого подхода. Эта характеристика является по своей сути случайной величиной и нельзя по ее значению делать категоричные выводы, подобные тем, которые производят, ориентируясь на . Все суждения, должны носить уже в этом случае более осторожный характер.
Тем не менее, и выборочный коэффициент корреляции и парный коэффициент детерминации служат хорошим индикатором, позволяющим нам делать предположение о том, что зависимость между х и у имеет место, и она носит вид линейной функциональной зависимости.
Вернемся к парному коэффициенту детерминации. Если модуль выборочного коэффициента корреляции близок к 1, то из формулы (6) следует, что близок к 1 и . Таким образом, близость коэффициента детерминации или абсолютной величины выборочного коэффициента корреляции к 1, служит ещё одним основанием в поддержку предположения, что функция регрессии линейна.
При анализе модели парной линейной регрессии будем делать следующие предварительные выводы о качестве модели.
●Если Î[0; 0,09], то будем считать, что использование регрессионной модели для аппроксимации зависимости между у и х статистически необоснованно.
●Если Î(0,09; 0,49], то использование регрессионной модели возможно, но после оценивания параметров, модель подлежит дальнейшему многостороннему статистическому анализу.
●Если Î (0,49; 1], то будем считать, что у нас есть основания для использования регрессионной модели, при анализе поведения переменной у.
Пример 1. Вычислим коэффициент детерминации и сделаем предварительный вывод о качестве аппроксимации доходности акций компании Glenwood City Properties моделью линейной регрессии (пример 1).
Решение. Так как значение выборочного коэффициента корреляции нам уже известно, то для нахождения воспользуемся формулой (6):
=(0,593595)2.
И значение , и значение , говорят о слабой зависимости между доходностью рыночного индекса и доходностью акций указанной компании. Такая слабая зависимость обычно характерна для компаний с низкой рыночной капитализацией, которые не участвуют в формировании рыночного индекса. ▲
Так, например, индекс S&P 500 (Standard & Poors Stock Price Index) представляет средневзвешенную величину курсов акций 500 наиболее крупных компаний. Наиболее часто цитируемым рыночным индексом является индекс Доу Джонса (DJIA), основанный на показателях всего 30 акций. Впервые этот индекс был вычислен в 1884 как среднеарифметическое 11 акций, с 1928 для расчета индекса используется 30 ценных бумаг. Состав бумаг, входящих в индекс, периодически меняется.
Литература
1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. – М.: Финансы и статистика, 1985.
2. Березинец И.В. Курс лекций по теории вероятностей. – СПб, ВИКИ им. А.Ф. Можайского, 1997.
3. Березинец И.В., Лобов В.Е. Отраслевая эконометрическая модель в задаче оценки доходности ценных бумаг. В сб. “Актуальные проблемы экономики и новые технологии преподавания”, СПб, 2003.
4. Волков Д.Л., Березинец И.В. Управление ценностью компании: анализ основанных на бухгалтерских показателях моделей оценки // Научные доклады НИИ менеджмента СПбГУ, № 3(R) – 2006.
5. Демиденко Е.З. Линейная и нелинейная регрессия. – М.:Финансы и статистика, 1981.
6. Джонстон Дж. Эконометрические методы: Пер. с англ. – М.: Статистика, 1980.
7. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: Инфра-М, 1997.
8. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. – М.: Финансы и статистика, 1998.
9. Замков О.О. Эконометрические методы в макроэкономическом анализе. -М.: ГУВШЭ, 2001.
10. Кремер Н.Ш., Путко Б.А. Эконометрика. – М.: ЮНИТИ, 2002.
11. Магнус Я.Р., Катышев Л.К., Пересецкий А.А. Эконометрика. Начальный курс. – М.: Дело, 2000.
12. Уотшем Т. Дж., Паррамоу К. Количественные методы в финансах: Пер. с англ. – М.: ЮНИТИ, 1999.
13. Шарп У., Александер Г., Бейли Д. Инвестиции. – М.: ИНФРА-М, 1997.
14. Чистяков В.П. Курс теории вероятностей. – М.: Наука,1987.
15. Эконометрика / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001.
16.Gujarati Damodar N. Basic econometric.Mc.Graw Hill. 2003.
17.Wooldridge Jefferey V. Introductory econometrics: a modern approach. Thomson. South -western. 2006.
18. Fama E., French R. Common Risk Factors in the Returns of Stocks and Bond. Journal of Financial Economics, 33, 1993.
19. Fama E., French R. Industry Cost of Equity. Journal of Financial Economics, 43, 1997.