Функциональная зависимость и регрессия 2

Содержание

Введение
Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении. Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» – соотношение, взаимосвязь. Второй термин (от лат. «regressio» — движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» – у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.

В практике экономических исследований очень часто имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности, например, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т.п. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа. Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной.

Выше сказанным обусловлена актуальность выбора темы курсовой работы. Цель данной работы – исследовать функциональную зависимость между случайными величинами методами корреляционного и регрессионного анализов.

–PAGE_BREAK–1.2 Линейная парная регрессия
Данные о статистической зависимости удобно задавать в виде корреляционной таблицы.

Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов Х (млн руб.) для совокупности 50 однотипных предприятий (табл. 1).

(В таблице через xiи yi обозначены середины соответствующих интервалов, а через ni, и nj – соответственно их частоты.)

Для каждого значения xi(i=1,2,…,l), т.е. для каждой строки корреляционной таблицы вычислим групповые средние

yi=j=1myinijnj (1.5)

где nij — частоты пар (xi, yj) и ni=i=1mnij; m – число интервалов по переменной Y.

Вычисленные групповые средние yi поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии Y по X

Аналогично для каждого значения yjj=1,2,…,m по формуле

xj=i=1lxinijnj (1.6)

вычислим групповые средние xj, где nj=i=1lnij, l – число интервалов по переменной X.

По виду ломанной можно определить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая выражается тем точнее чем больше объем выборки n:

n=i=1lni=j=1mnj=i=1lj=1mnij(1.7)

Поэтому уравнение регрессии(1.3) будем искать в виде:

yx=b0+b1x (1.8)

Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.

С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры b0 и b1выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних yi, вычисленных по формуле (1.5), от значений yxi, найденных по уравнению регрессии (1.8), была минимальной:

S=i=1l(yxi-yi)2ni=i=1l(b0+b1-yi)2ni→min(1.9)

На основании необходимого условия экстремума функции двух переменных S=S( b0, b1) приравниваем к нулю ее частные производные, т.е.

dSdb0=2i=1l(b0+b1-yi)2ni=0dSdb1=2i=1l(b0+b1-yi)2xini=0

Откуда после преобразования получим систему нормальных уравнений для определения параметров линейной регрессии:

b0i=1lni+b1i=1lxini=i=1lyinib0i=1lxini+b1i=1lxi2ni=i=1lxiyini (1.10)

Учитывая (1.5) преобразуем выражение и с учетом (1.7), разделив обе части уравнений (1.10) на n, получим систему нормальных уравнений в виде:

b0+b1x=yb0x+b1x2=xy (1.11)

где соответствующие средние определяются по формулам:

x=i=1lxinin, y=j=1myjnjn (1.12)

xy=i=1lj=1mxiyjnin (1.13)

x2=i=1lxi2nin (1.14)

Подставляя значение b0=y-b1x из первого уравнения системы(1.11) в уравнение регрессии (1.8), получаем

yx-y=bxy(x-x) (1.15)

Коэффициент b1 в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Y по Х, будем обозначать символом bxy. Теперь уравнение регрессии Y по Х запишется так:

yx-y=bxy(x-x) (1.15)

Коэффициент регрессии Yпо Х показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.

Решая систему (1.11), найдем

byx=b1=xy-xysx2=µsx2, (1.16)

где sx2 — выборочная дисперсия переменной X

sx2=x2-x2=i=1lxi2nin – (x)2 (1.17)

µ — выборочный корреляционный момент:

µ=xy-xy=i=1lj=1mxiyjnijn- xy (1.18)

Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду:

xy-x=bxyy-y (1.19)

где

bxy=µsy2 (1.21)

выборочный коэффициент регрессии (или просто коэффициент регрессии) Х по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу sy2=y2-y2=i=1myj2njn – (y)2 –выборочная дисперсия переменной Y.

Так как числители в формулах (1.16) и (1.20) для byx и bxy совпадают, а знаменатели – положительные величины, то коэффициент регрессии byx и bxy имеют одинаковые знаки, определяемые знаком µ. Из уравнений регрессии (1.15) и (1.19) следует, что коэффициенты byx и bxy определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке (xy).
1.3 Коэффициент корреляции
Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Y от Х является коэффициент регрессии byx ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяетсяY, когда Х увеличивается на одну единицу. Однако byx зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов Х выразить не в млн руб., а в тыс. руб.

Очевидно, что для «исправления» byx как показателя тесноты связи нужна такая

стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.

Представим уравнение (1.15) в эквивалентном виде:

yx-ysy=byxsxsyx-xsx (1.22)

В этой системе величина

r = byxsxsy (1.23)

показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx.Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 1.2 приведены две корреляционные зависимости переменной Y по Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).

Нетрудно видеть, что r совпадает по знаку с byx (а значит, и с bxy)

Если r > 0 ( byx> 0, bxy> 0), то корреляционная связь между переменными называется прямой, если r yx
Учитывая равенство (1.16), формулу для r представим в виде:

r=xy-xysxsy (1.24)

Отсюда видно, что формула для r симметрична относительно двух переменных, т.е. переменные Х и Y можно менять местами. Тогда аналогично формуле (1.24) можно записать:

r=bxysysx (1.25)

Найдя произведение обеих частей равенств(1.24) и (1,25), получим:

r2=byxbxy (1.26)

или

r=±byxbxy (1.27)

т.е. коэффициент корреляции r переменных Х и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.

Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки n), аналогичные свойствам коэффициента корреляции двух случайных величин .

1. Коэффициент корреляции принимает значения на отрезке
[-1; 1], т.е.

–PAGE_BREAK–1.4 Основные положения корреляционного анализа.
Корреляционный анализ (корреляционная модель)– метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону.

Основная задача корреляционного анализа, как отмечено выше, состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных (парных, множественных, частных) коэффициентов корреляции. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) заключается в оценке уравнений регрессии одной переменной по другой.

Рассмотрим простейшую модель корреляционного анализа – двумерную. Плотность совместного нормального распределения двух переменных Xи Yимеет вид:

φNx,y=12πσxσy1-ρ2e-L(x,y) (1.28)

ρ — коэффициент корреляции между переменными X и Y, определяемый через кореляционный момент (ковариацию) Kxy по формуле:ρ=Kxyσxσy=M[(X-ax)(Y-ay)]σxσ〱 или

ρ= MXY-axayσxσy (1.30)

Величина ρ характеризует тесноту связи между случайными переменными X и Y. Указанные параметры ax,ay,σx2,σy2 ρ дают исчерпывающие сведения о корреляционной зависимости между переменными. ρ является показателем тесноты связи лишь в случае линейной зависимости между двумя переменными, получаемой, в частности при их совместном нормальном распределении.
1.5 Корреляционное отношение и индекс корреляции
Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости.

Для получения такого показателя воспользуемся правилом сложения дисперсий:

sy2=siy’2+siy2 (1.31)

где sy2 общая дисперсия переменной

sy2=j=1m(yj-y)2nin (1.32)

siy’2 средняя групповых дисперсий sy2 , или остаточная дисперсия

siy’2=i=1lnin (1.33)

siy2= j=1m(yj-yi)2n (1.34)

δiy2 межгрупповая дисперсия

δiy2=i=1l(yj-y)2nin (1.35).

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от Х. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью Х. Величина

ηyx=δiy2sy2 (1.36)

получила название эмпирического корреляционного отношения Yпо Х. Чем теснее связь, тем большее влияние на вариацию переменной Yоказывает изменчивость Х по сравнению с неучтенными факторами, тем выше ηxy.Величина ηxy2, называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Yобусловлена вариацией Х. Аналогично вводится эмпирическое корреляционное отношение Х по Y:

ηyx=δix2sx2 (1.37).

Отметим
основные свойства корреляционных отношений:

Корреляционное отношение есть неотрицательная величина, не превосходящая единицу: 0≤η≤1.

Если η=0, то корреляционная связь отсутствует.

Если η=1, то между переменными существует функциональная зависимость.

ηyx≠ηxy, т.е. в отличие от коэффициента корреляции r при вычислении

корреляционного отношения существенно, какую переменную считать независимой, а какую– зависимой.

Эмпирическое корреляционное отношение ηyx является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения yi. Однако в связи с тем, что закономерное изменение yi нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, ηyx преувеличивает тесноту связи. По- этому наряду с ηyx рассматривается показатель тесноты связи Ryx, характеризующий рассеяние точек корреляционного поля относительно линии регрессии yx (1.3). Показатель Ryx получил название теоретического корреляционного отношения или индекса корреляции Y по X:

Ryx=δy2sy2=1-sy’2 sy2 (1.38).

Подобно Ryx вводится и индекс корреляции X по Y:

Rxy=δx2sx2=1-sx’2 sx2 (1.39).

Достоинством рассмотренных показателей η и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя η и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения η и R связаны с коэффициентом корреляции r следующим образом: 0≤r≤R≤з≤1.

В случае линейной модели т.е. зависимости yx-y=byxx-x, индекс корреляции Ryx равен коэффициенту корреляции r(по абсолютной величине): Ryx=r.

Коэффициент детерминации R2, равный квадрату индекса корреляции (для парной линейной модели — r2), показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной..

Чем ближе R2к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2= 1, то эмпирические точки (x, у) лежат на линии регрессии (см. рис. 12.4) и между переменными

Yи Х существует линейная функциональная зависимость. Если R2=0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс .
    продолжение
–PAGE_BREAK–1.6 Понятие о многомерном корреляционном анализе. Множественный и частный коэффициенты корреляции
Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных.

Пусть имеется совокупность случайных переменных X1,X2,…,Xi,…,Xj,…,Xp, имеющих совместное нормальное распределение. В этом случае матрицу составленную из парных коэффициентов корреляции pij(i,j=1,2,…,p), будем называть корреляционной. Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы Qp по выборке. Эта задача решается определением матрицы выборочных коэффициентов корреляции.

В многомерном корреляционном анализе рассматривают две типовые задачи:

а) определение тесноты связи одной из переменных с совокупностью остальных

(р – 1) переменных, включенных в анализ;

б) определение тесноты связи между переменными при фиксировании или исключении влияния остальных q переменных, где q≤(p-2).

Эти задачи решаются с помощью множественных и частных коэффициентов корреляции.
Множественный коэффициент корреляции. Теснота линейной взаимосвязи одной переменной Xi с совокупностью других (p-1) переменных Xj рассматриваемой в целом, измеряется с помощью множественного (или совокупного) коэффициента корреляции ρi,1,2,..,p, который является обобщением парного коэффициента корреляции ρij Выборочный множественный, или совокупный, коэффициент корреляции Ri,1,2,..,p, являющийся оценкой Ri,1,2,..,p, может быть вычислен по формуле:

Ri,12…p=1-qpqii (1.40)

Где q определитель матрицы qp; qii алгебраическое дополнение элемента rii той же матрицы.

Множественный коэффициент корреляции заключен в пределах 0≤R≤1. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

С помощью множественного коэффициента корреляции (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R2, называемая выборочным множественным (или совокупным) коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.

Частный коэффициент корреляции. Если переменные коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных.

Выборочным частным коэффициентом корреляции между переменными Xiи Xj при фиксированных значениях остальных (р-2) переменных называется выражение

rij12..p=-qijqiiqjj (1.41)

Где qij и qjj алгебраические дополнения элементов rij и rjj матрицы qp.

Частный коэффициент корреляции rij12..p, как и парный коэффициент корреляции r, может принимать значения от -1 до 1. Кроме того, rij12..p, вычисленный на основе выборки объема n, имеет такое же распределение, что иY, вычисленный по (n–р + 2) наблюдениям. Поэтому значимость частного коэффициента корреляции rij12..pоценивают так же, как и коэффициента корреляции, но при этом полагают

n’ = n–р + 2.

Заканчивая краткое изложение, корреляционного анализа количественных признаков, остановимся на двух моментах.

1. Задача научного исследования состоит в отыскании причинных зависимостей.

Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности. Однако корреляция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. С помощью корреляционного анализа нельзя указать, какую переменную принимать в качестве причины, а какую – в качестве следствия.

Иногда при наличии корреляционной связи ни одна из переменных не может рассматриваться причиной другой (например, зависимость между весом и ростом человека). Наконец, возможна ложная корреляция (нонсенс-корреляция), т.е. Чисто формальная связь между переменными, не находящая никакого объяснения и основанная лишь на количественном соотношении между ними (таких примеров в статистической литературе приводится немало). Поэтому при логических переходах от корреляциионной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений.

2. Не существует общеупотребительного критерия проверки определяющего требования корреляционного анализа — нормальности многомерного распределения переменных. Учитывая свойства теоретической модели,.обычно полагают, что отнесение к совместному нормальному закону возможно, если частные одномерные распределения переменных не противоречат нормальным распределениям (в этом можно убедиться, например, с помощью критериев согласия); если совокупность точек корреляционного поля частных двумерных распределений имеет вид более или менее вытянутого «облака» с выраженной линейной тенденцией.
1.7 Ранговая корреляция
До сих пор мы анализировали зависимости между количественными переменными, измеренными в так называемых количественных шкалах, Т.е. в шкалах с непрерывным множеством значений, позволяющих выявить, насколько (или во сколько раз) проявление признака у одного объекта больше (меньше), чем у другого.

Вместе с тем на практике часто встречаются с необходимостью изучения связи между ординальными (порядковыми) переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь порядок, в котором объекты выстраиваются по степени проявления признака (например, качество жилищных ус

ловий, тестовые баллы, экзаменационные оценки и т.п.). Если, скажем, по некоторой дисциплине два студента имеют оценки «отлично» И «удовлетворительно», то можно лишь утверждать, что уровень подготовки по этой дисциплине первого студента выше (больше), чем второго, но нельзя сказать, на сколько или во сколько раз больше.

Оказывается, что таких случаях проблема оценки тесноты связи разрешима, если упорядочить, или ранжировать, объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением (значением) признака присваивается ранг 1, следующему за ним – ранг 2 и т.д. Объекты можно располагать и в порядке убывания проявления (значений) признака. Если объекты ранжированы по двум признакам, то имеется возможность оценить. тесноту связи между признаками, основываясь на рангах, Т.е. тесноту ранговой корреляции.
Коэффициент ранговой корреляции Спирмена
находится по формуле:

ρ=1-6i=1n(ri-si)2n3-n (1.42)

где ri и si ранги i-го объекта по переменным X и Y, n число пар наблюдений.

Если ранги всех объектов равны, то ρ=1, т.е. при полной прямой связи ρ=1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке ρ=-1. Во всех остальных случаях ρ
При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов.

При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:

ρ=1-i=1n(ri-si)216n3-n-(Tr+Ts) (1.43)

где Tr=112i=1ms(tr3-ts); Ts=112i=1ms(ts3-ts);

mr,ms число групп неразличимых рангов у переменных X и Y;

tr,ts число рангов, входящих в группу неразличимых рангов переменных X и Y.
Коэффициент ранговой корреляции Кендалла
находится по формуле:

τ=1-4Kn(n-1) (1.44),

где K статистика Кендалла.

Для определения K необходимо ранжировать объекты по одной переменной в порядке возрастания рангов (1, 2,…, n) и определить соответствующие их ранги (r1,r2,…,rn) по другой переменной. Статистика K равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) r1,r2,…,rn. При полном совпадении двух ранжировок имеем K= 0 и τ= 1; при полной противоположности можно показать, что K=n(n-n)/2 и τ=-1. Во всех остальных случаях τ
Коэффициент конкордации (согласованности) рангов Кендалла W,
определяемый по формуле:

W=12i=1nD2m2(n3-n) (1.45)

где n число объектов;

m число анализируемых порядковых переменных;

D=j=1mrij-m(n+1)2 (1.46)

отклонение суммы рангов объекта от средней их суммы для всех объектов, равной m(n+1)/2.

Значения коэффициента W заключены на отрезке 0;1 т.е. 0≤W≤1, причем W=1 при совпадении всех ранжировок.

Корреляционный анализ может быть использован и при оценке взаимосвязи качественных (категоризованных) признаков (переменных), представленных в так называемой номинальной шкале, в которой возможно лишь различение объектов по возможным состояниям, градациям (например, пол, социальное положение, профессия и т.п.). Здесь в качестве соответствующих показателей могут быть использованы коэффициенты ассоциации, контингеници (сопряженности), бисериальной корреляции.
    продолжение
–PAGE_BREAK–Глава 2 Регрессионный анализ 2.1. Основные положения регрессионного анализа. Парная регрессионная модель
В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной Y от одной (или нескольких) неслучайной независимой переменной Х, называемой часто объясняющей переменной. Такая зависимость может возникнуть, например, в случае, когда при каждом фиксированном значении X соответствующие значения Y подвержены случайному разбросу за счет действия неконтролируемых факторов. Указанная зависимость Y от X (иногда ее называют регрессионной) может быть представлена также в виде модельного уравнения регрессии (1.1). В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения y будут в большей или меньшей мере отклоняться от функции регрессии φx. В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде: Y=φX+ε, где ε — случайная переменная, характеризующая отклонение от функции регрессии. Эту переменную будем называть возмущающей или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция φ(Х) с точностью до случайного возмущения ε.

Рассмотрим линейный регрессионный анализ, для которого функция φ(Х) линейная относительно оцениваемых параметров:

MxY=β0+β1x. (2.1)

Предположим, что для оценки параметров линейной функции регрессии (2.1) взята выборка, содержащая n пар значений переменных (xi,yi), где i=1,2,…,n. В этом случае линейная парная регрессионная модель имеет вид:

yi=β0+β1xi+εi (2.2)

Отметим основные предпосылки регрессионного анализа:

1. В модели (2.2) возмущение εi (или зависимая переменная yi) есть величина случайная, а объясняющая переменная xi — величина неслучайная.

2. Математическое ожидание возмущения εi равно нулю: Mεi=0

(или математическое ожидание зависимой переменной yi равно линейной функции регрессии:

M(yi)= β0+β1xi (2.3)

3. Дисперсия возмущения εi (или зависимой переменной yi) постоянна для любого i:

Dεi=σ2 (2.4)

(или D(yi) = σ2— условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной)).

4. Возмущения εi и εj (или переменные yi и yj и) не коррелированы.

Mεiεj=0 (i≠j) (2.5)

5. Возмущение εi, (или зависимая переменная yj) есть нормально распределенная случайная величина.

Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки (т.е. рассмотрение «нормальной регрессии») необходимо для оценки точности уравнения регрессии и его параметров.

Оценкой модели (2.2) по выборке является уравнение регрессии:

yx=b0+b1x(1.8). Параметры этого уравнения b0 и b1 определяются на основе метода наименьших квадратов.

Теорема Гауса-Маркова. Если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки b0 и b1 имеют наименьшую дисперсию в классе линейных несмещенных оценок, т.е. являются эффективными оценками параметров b0 и b1.

Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (2.2) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии σ2. Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия

s2=i=1n(yxi-yi)2n-2=i=1nei2n-2 (2.6)

где yxi — групповая средняя, найденная по уравнению регрессии;

ei=yxi-yi — выборочная оценка возмущения εi, или остаток регрессии.

В знаменателе выражения (2.6) стоит число степеней свободы n—2, а не n, так как две степени свободы теряются при определении двух параметров прямой b0 и b1.
2.2. Интервальная оценка функции регрессии
Построим доверительный интервал для функции регрессии, т.е. для условного математического ожидания Mx(Y), который с заданной надежностью (доверительной вероятностью) γ=1—α накрывает неизвестное значение Mx(Y)

Найдем дисперсию групповой средней yx, представляющей выборочную оценку MxY. С этой целью уравнение регрессии (1.15) представим в виде:

yx=y+b1(x-x) (2.7)

На рис. 2.1 линия регрессии (2.7) изображена графически. Для произвольного наблюдаемого значения yi, выделены его составляющие: средняя y, приращение b1(x-x), образующие расчетное значение yxi, и возмущение ei,.

Дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых выражения (2.7) :

σyx2=σy2+σb12(x-x)2 (2.8)

Дисперсия выборочной средней

y σy2=σ2n (2.9)

Для нахождения дисперсии σb12представим коэффициент регрессии в виде:

b1=i=1nxi-x(yi-y)i=1nxi-x2 (2.10)

тогда

σb12=i=1n(xi-x)2σ2i=1nxi-x22=σ2i=1nxi-x2 (2.11)

Найдем оценку дисперсии групповых средних (2.8), учитывая (2.9) и (2.11) и заменяя σ2 ее оценкой s2:

syx2=s21n+(x-x)2i=1nxi-x2 (2.12)

Исходя из того, что статистика t = yx-Mx(Y)syx имеет t-распределение Стьюдента с k=n—2 степенями свободы, можно построить доверительный интервал для условного математического ожидания

yx-t1-α;k*syx≤MxY≤yx+t1-α;k*syx (2.13)

где syx=syx2 — стандартная ошибка групповой средней yx.

Из формул (2,12) и (2,13) видно, что величина доверительного интервала зависит от значения объясняющей переменной х: при х = х она минимальна, а по мере удаления х от x величина доверительного интервала увеличивается (рис. 2.2). Таким образом, прогноз значений (определение неизвестных значений) зависимой переменной у по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке (причем тем более точный, чем ближе х к х). Другими словами, экстраполяция кривой регрессии, т.е. ее использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям.

Построенная доверительная область для Mx(Y) (см. рис. 2.2) определяет местоположение модельной линии регрессии (т.е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений y0* зависимой переменной необходимо учитывать еще один источник вариации — рассеяние вокруг линии регрессии, т.е. в оценку суммарной дисперсии syx следует включить величину s2. В результате оценка дисперсии индивидуальных значений y0 при х = x0 равна:

sy0=s21+1n+(x0-x)2i=1nxi-x2 (2.14)

а соответствующий доверительный интервал для прогнозов индивидуальных значений y0* будет определяться по формуле:

yx0-t1-α,n-2*sy0≤y0*≤yx0+t1-α,n-2*sy0 (2.15)
    продолжение
–PAGE_BREAK–2.3. Проверка значимости уравнения регрессии. Интервальная оценка параметров парной модели
Проверить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Дисперсионный анализ применяется как вспомогательное средство для изучения качества регрессионной модели.

Согласно основной идее дисперсионного анализа

i=1n(yi-y)2=i=1n(yxi-yi)2+i=1n(yi-yxi)2 (2.16)

или

Q=QR+Qe, (2.17)

Где Q — общая сумма квадратов отклонений зависимой переменной от средней, a QR и Qe — соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Убедимся в том, что пропущенное в (2.17) третье слагаемое

Q3=2i=1nyxi-y(yi-yxi)) равно нулю. Учитывая (2.7) и первое уравнение системы (1.11), имеем:

yi-yxi=yi-b0-b1xi=yi-y-b1x-b1xi=yi-y-b1(xi-x).

Теперь

Q3=i=1nyxi-y(yi-yxi))=2b1i=1n(xi-x)yi-y-2b12i=1n(xi-x)2=0
Схема дисперсионного анализа имеет вид, представленный в табл. 2.1

Таблица 2.1
Средние квадраты sk 2 и s2 (табл. 2.1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленной соответственно регрессией или объясняющей(ими) переменной(ыми) X и воздействием неучтенных случайных факторов и ошибок; m— число оцениваемых параметров уравнения регрессии; n — число наблюдений.

Замечание. При расчете общей суммы квадратов полезно иметь в виду, что

Q=i=1nyi2-i=1nyi2n (2.17′)

(формула (2.17′) следует из разложения
При отсутствии линейной зависимости между зависимой и объясняющей(ими) переменной(ыми) случайные величины sR2=QR/(m-1) и s2=Qe/(n-m) имеют χ2-распределение соответственно с m-1 и n-m степенями свободы, а их отношение

F-распределение с теми же степенями свободы. Поэтому уравнение регрессии значимо на уровне α, если фактически наблюдаемое значение статистики

F=QR(n-m)Qe(m-1)=sR2s2>Fα;k1;k1 (2.18)

где Fα;k1;k1 — табличное значение F-критерия Фишера—Снедекора, определенное на уровне значимости α при k1=m-1 и k2=n-m степенях свободы.

Учитывая смысл величин sR2 и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней. В случае линейной парной регрессии m=2 и уравнение регрессии значимо на уровне α, если F=QR(n-2)Qe>Fα;k1;k2

В 1 главе данной работы введен индекс корреляции R (для парной линейной модели — коэффициент корреляции r), выраженный через дисперсии.Тот же коэффициент в терминах «сумм квадратов» примет вид:

R=QRQ=1-QeQ (2.19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проверена и другим способом, если оценить значимость коэффициента регрессии b1, что означает проверку нулевой гипотезы о равенстве параметра β1 парной модели нулю.

Можно показать, что при выполнении предпосылки 5 регрессионного анализа

статистика t =b1-β1σb1 имеет стандартный нормальный закон распределения N(0;l), а если в выражении (2.11) для σb1заменить параметр σ2 его оценкой s2, то статистика

t =b1-β1si=1n(xi-x)2 (2.19)

имеет t-распределение с k= n— 2 степенями свободы. По этому коэффициент регрессии b1 значим на уровне α, если t=b1s=i=1n(xi-x)2>t1-α;n-2, a доверительный интервал для β1имеет вид:

b1-t1-α;n-2si=1n(xi-x)2≤β1≤b1+t1-α;n-2si=1n(xi-x)2

Для парной регрессионной модели оценка значимости уравнения регрессии по F-критерию равносильна оценке значимости коэффициента регрессии b1либо коэффициента корреляции r по t-критерию, ибо эти критерии связаны соотношением F=t2. А интервальные оценки для параметра β1— при нормальном законе распределения зависимой переменной и βyx=β1 совпадают.

При построении доверительного интервала для дисперсии возмущении σ2 исходят из того, что статистика ns2σ2 имеет χ2-распределение с k = n — 2 степенями свободы. Поэтому интервальная оценка дляσ2на уровне значимости α имеет вид

ns2χ2α2;n-2≤σ2≤ns2χ21-α2;n-2 (2.20)
    продолжение
–PAGE_BREAK–2.4. Нелинейная регрессия
Соотношения между социально-экономическими явлениями и процессами далеко не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки. В таких случаях используют нелинейную (по объясняющей переменной) регрессию. Выбор вида уравнения регрессии (8.3) (этот важный этап анализа называется спецификацией или этапом параметризации модели) производится на основании опыта предыдущих исследований, литературных источников, других соображений профессионально-теоретического характера, а также визуального наблюдения расположения точек корреляционного поля. Наиболее часто встречаются следующие виды уравнений нелинейной регрессии: полиномиальное yx=b0+b1+…+bkxk, гиперболическое yx=b0+b1/x, степенное yx=b0*x1b1*…*xpbp.

Например, если исследуемый экономический показатель у при росте объема производства х состоит из двух частей — постоянной (не зависящей от х) и переменной (уменьшающейся с ростом х), то зависимость у от х можно представить в виде гиперболы yx=b0+b1/x. Если же показатель у отражает экономический процесс, который под влиянием фактора х происходит с постоянным ускорением или замедлением, то применяются полиномы. В ряде случаев для описания экономических процессов используются более сложные функции. Например, если процесс вначале ускоренно развивается, а затем, после достижения некоторого уровня, затухает и приближается к некоторому пределу, то могут оказаться полезными логистические функции типа у = b0/(1+b1b2f(x).

При исследовании степенного уравнения регрессии следует иметь в виду, что оно нелинейно относительно параметров bj , однако путем логарифмирования может быть преобразовано в линейное:ln yx= lnb0+b1 ln x1+…+bplnxp

Для определения неизвестных параметров, b0, b1, .., bp , как и ранее, используется метод наименьших квадратов.В некоторых случаях нелинейность связей является следствием качественной неоднородности совокупности, к которой применяют регрессионный анализ. Например, объединение в одной совокупности предприятий различной специализации или предприятий, существенно различающихся по природным условиям, и т.д. В этих случаях нелинейность может являться следствием механического объединения разнородных единиц. Регрессионный анализ таких совокупностей не может быть эффективным. Поэтому любая нелинейность связей должна критически анализироваться. По расположению точек корреляционного поля далеко не всегда можно принять окончательное решение о виде уравнения регрессии. Если теоретические соображения или опыт предыдущих исследований не могут подсказать точного решения, то необходимо сделать расчеты по двум или нескольким уравнениям. Предпочтение отдается уравнению, для которого меньше величина остаточной дисперсии. Однако при незначительных расхождениях в остаточных дисперсиях следует всегда останавливаться на более простом уравнении, интерпретация показателей которого не представляется сложной. Весьма заманчивым представляется увеличение порядка выравнивающей параболической кривой, ибо известно, что всякую функцию на любом интервале можно как угодно точно приблизить полиномом yx=b0+b1+…+bkxk.Так, можно подобрать такой показатель k, что соответствующий полином пройдет через все вершины эмпирической линии регрессии. Однако повышение порядка гипотетической параболической кривой может привести к неоправданному усложнению вида искомой функции регрессии, когда случайные отклонения осредненных точек неправильно истолковываются как определенные закономерности в поведении кривой регрессии. Кроме того, за счет увеличения числа параметров снижается точность кривой регрессии (особенно в случае малой по объему выборки) и увеличивается объем вычислительных работ. В связи с этим в

практике регрессионного анализа для выравнивания крайне редко используются полиномы выше третьей степени.
2.5. Определение доверительных интервалов для коэффициентов и функции регрессии
Весьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной Mx0(Y), найденного в предположении, что объясняющие переменные X1,X2,…,Xp приняли значения, задаваемые вектором X0’=(1x10x20…xp0).

Обобщая соответствующие выражения на случай множественной регрессии, можно получить доверительный интервал для Mx0(Y):

yx0-t1-α;n-p-1*syx0≤Mx0Y≤yx0+t1-α;n-p-1*syx

где yx0 — групповая средняя, определяемая по уравнению регрессии,

syx0=sX0′(X’X)-1X0

ее стандартная ошибка.

При обобщении формул (2.15) и (2.14) аналогичный доверительный интервал для индивидуальных значений зависимой переменной y0* примет вид:

yx0-t1-α;n-p-1*syx0≤y0*≤yx0+t1-α;n-p-1*sy0

где sy0= s1+X0′(X’X)-1X0.

Доверительный интервал для дисперсии возмущений σ2 в множественной регрессии с надежностью γ = 1 — α строится аналогично парной модели по формуле (2.20) с соответствующим изменением числа степеней свободы критерия χ2:

ns2χ2α2;n-p-1≤σ2≤ns2χ21-α2;n-p-1.

Формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения. В экономических исследованиях исключению переменных из регрессии должен предшествовать тщательный качественный анализ. Поэтому может оказаться целесообразным все же оставить в регрессионной модели

одну или несколько объясняющих переменных, не оказывающих существенного (значимого) влияния на зависимую переменную.
    продолжение
–PAGE_BREAK–2.6. Мультиколлинеарность
Под мултиколлинеарностью понимается высокая взаимная коррелированностъ объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) стохастической (скрытой) формах. При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица Х’Х особенная, так как содержит линейно зависимые векторы-столбцы и ее определитель равен нулю, т.е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица Х’Х в этом случае является неособенной, но ее определитель очень мал. В то же время вектор оценок b и его ковариационная матрица К в соответствии с формулами пропорциональны обратной матрице (Х’Х)-1а значит, их элементы обратно пропорциональны величине определителя Х’Х. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b0, b1, .., bp и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.

Оценки bi становятся очень чувствительными к незначительному изменению результатов наблюдений и объема выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Один из методов выявления мультиколлинеарности заключается в анализе корреляционной матрицы между объясняющими переменными X1,X2,…,Xp и выявлении пар переменных, имеющих высокие коэффициенты корреляции (обычно больше 0,8).Если такие переменные существуют, то говорят о мульти

коллинеарности между ними. Полезно также находить множественные коэффициенты корреляции между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента корреляции (обычно принимают больше 0,8) свидетельствует о мультиколлинеарности. Другой подход состоит в исследовании матрицы Х’Х. Если определитель матрицы Х’Х близок к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. Для устранения или уменьшения мультиколлинеарности используется рад методов. Один из них заключается в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменной.Нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной. Другим из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора наиболее информативных переменных. Например, вначале рассматривается линейная регрессия зависимой переменной Y объясняющей переменной, имеющей с ней наиболее высокий коэффициент корреляции (или индекс корреляции при нелинейной форме связи). На втором шаге включается в рассмотрение та объясняющая переменная, которая имеет наиболее высокий частный коэффициент корреляции с Y и вычисляется множественный коэффициент (индекс) корреляции. На третьем шаге вводится новая объясняющая переменная, которая имеет наибольший частный коэффициент корреляции с Y, и вновь вычисляется множественный коэффициент корреляции и т.д. Процедура введения новых переменных продолжается до тех пор, пока добавление следующей объясняющей переменной существенно не увеличивает множественный коэффициент корреляции.
2.7. Понятие о других методах многомерного статистического анализа
Многомерный статистический анализ определяется как раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематизации и обработки многомерных статистических данных,

направленных на выявление характера и структуры взаимосвязей между компонентами исследуемого признака и предназначенных для получения научных и практических выводов. Многомерные статистические методы среди множества возможных вероятностно-статистических моделей позволяют обоснованно выбрать ту, которая наилучшим образом соответствует исходным статистическим данным, характеризующим реальное поведение исследуемой совокупности объектов, оценить надежность и точность выводов, сделанных на основании ограниченного статистического материала. С некоторыми разделами многомерного статистического анализа, такими, как многомерный корреляционный анализ, множественная регрессия, многомерный дисперсионный анализ. Приведем теперь краткий обзор ряда других методов многомерного статистического анализа, которые уже нашли отражение в статистических пакетах прикладных программ. В первую очередь следует выделить методы, позволяющие выявить общие (скрытые или латентные) факторы, определяющие вариацию первоначальных факторов. К ним относятся факторный анализ и метод главных компонент.

Факторный анализ. Основной задачей факторного анализа является переход от первоначальной системы большого числа взаимосвязанных факторов X1,X2,…,Xm к относительно малому числу скрытых (латентных) факторов F1,F2,…,Fk, k
Модель факторного анализа записывается в виде:

Xi=ai+j=1kaijFj+vjεj, i=1,2,…,m, k,

где ai = M(Xi) — математическое ожидание первоначального фактора Xi

Fj— общие (скрытые или латентные) факторы (J = 1,2,…,k);

aij — нагрузки первоначальных факторов на общие факторы;

εj— характерные факторы (i = 1,2,…,/я);

vj — нагрузки первоначальных факторов на характерные факторы.

Первое слагаемое в модели — неслучайная составляющая, другие два слагаемых случайные составляющие. Особенностью факторного анализа является неоднозначность определения общих факторов.

Метод главных компонент (компонентный анализ). В отличие от рассматриваемых в факторном анализе общих факторов, которые обусловливают большую (но не всю) часть вариации первоначальных факторов, главные компоненты объясняют всю вариацию и определяются однозначно. Модель главных компонент имеет вид:

Xi=ai+j=1maijFj, i=1,2,…m.

Как видим, в модели отсутствуют характерные факторы, так как главные компоненты Fj полностью обусловливают всю вариацию первоначальных факторов. Для углубления анализа изучаемого явления после выявления главных компонент рассматривают регрессию на главных компонентах, в которых последние выступают в качестве обобщенных объясняющих переменных. Среди других методов многомерного статистического анализа отметим методы, позволяющие осуществить классификацию экономических объектов, т.е. отнесение их к определенным классам. Это методы дискриминантного и кластерного анализа.

Дискриминантный анализ позволяет отнести объект, характеризующийся значениями m признаков, к одной из l совокупностей (классов, групп), заданных своими распределениями. Предполагается, что l совокупностей заданы выборками (называемыми обучаемыми), которые содержат информацию о статистических распределениях совокупностей в m-мерном пространстве признаков.

При отсутствии обучающих выборок могут быть использованы методы кластерного анализа, позволяющие разбить исследуемую совокупность объектов на группы «схожих» объектов, называемых кластерами, таким образом, чтобы объекты одного класса находились на «близких» расстояниях между собой, а объекты разных классов — на относительно «отдаленных» расстояниях друг от друга. При этом каждый объект Xj (j = l,2,…,m) рассматривается как точка в m-мерном пространстве, и выбор способа вычисления расстояний или близости между объектами и признаками является узловым моментом исследования, от которого в основном зависит окончательный вариант разбиения объектов на классы.
    продолжение
–PAGE_BREAK–