–PAGE_BREAK–
отбор факторов в модель
Предварительный анализ стат.данных
Поля корреляции
Y
с каждым фактором
Визуальный анализ поля корреляции Yи Х1 показывает, что безусловно финансирование развития технологии влияет на фундаментальные исследования. Эта зависимость очень сильна, линейная и положительная: чем больше финансирования на развитие технологии, тем масштабней фундаментальные исследования.
Визуальный анализ поля корреляции Yи Х2 показывает, что заинтересованность молодежи в науке и технологии безусловно влияет на фундаментальные исследования. Зависимость достаточно плотная, положительная и линейная.
Визуальный анализ поля корреляции Yи Х3 показывает, что утечка умов влияет на фундаментальные исследования. Зависимость достаточно плотная и положительная, линейная.
Визуальный анализ поля корреляции Yи Х4 показывает, что безусловно качество жизни влияет на фундаментальные исследования. Эта зависимость плотная, линейная и положительная.
Визуальный анализ поля корреляции Yи Х4 показывает, что зависимость эта существует. Но назвать её однозначно линейной нельзя, хотя она и нелинейная, но имеет важное значение для исследования, на отрезке от 0 до 35 график можно считать линейным, поэтому, возьмем его для исследования.
Визуальный анализ поля корреляции Yи Х6 показывает, что зависимость есть, но она очень слабая.
Итак, для начала в модель включим все факторы Х1, Х2, Х3, Х4, Х5, Х6.
Этап 4 Спецификация и параметризация
Линейная множественная регрессионная модель
На основе предыдущем этапе были изложены причины использования именно линейной модели по каждому фактору.
Тогда для моделирования используем линейную множественную регрессионную модель для генеральной совокупности.
Для выборки модель также линейна: . В результате отбора факторов найдём наиболее качественную модель.
Найдем объяснённую часть модели — линейное уравнение регрессии по выборке: . Пока окончательное количество факторов mнам неизвестно.
Этап 5 Идентификация
Для построения модели используем классический подход – метод наименьших квадратов МНК.
С помощью Exelпроведём расчёты первой модели, с факторами Х1, Х2, Х3, Х4, Х5, Х6. Получим уравнение множественной регрессии и наблюдаемое значение t-критерия для каждого коэффициента регрессии aj:
t набл по модулю: 0,58 4,65 2,76 1,34 1,41 3,34 0,63
Сравним с табличным на уровне значимости d=0,05 с (n-m-1)=(47-6-1)=40 степенями свободы tтабл=2,02.
Так как a0 не статистически значимо, то получаем уравнение:
tнабл по модулю: 0 4,67 3,13 1,26 2 3,54 0,4
Из всех коэффициентом статистически значимыми могут быть признаны коэффициенты при Х1, Х2, Х5.
Коэффициент при Х3 – не может быть признан статистически значимым, поэтому фактор Х3 удаляем из модели. Т.е. несмотря на то, что утечка умов влияет на фундаментальные исследования, но все таки ее влияние не значительно, т. к. наука постоянно развивается, поэтому происходит замена в кадровом составе и им на смену приходят молодые ученые.
Коэффициент при Х4 – не может быть признан статистически значимым, поэтому фактор Х4 удаляем из модели. Т.е. несмотря на то, что качество жизни влияет на фундаментальные исследования, но все таки ее влияние не значительно, т. к. в каждой стране происходят фундаментальные исследования, независимо от качества жизни. И как мы предполагали ранее, Х6 также следует исключить, так как ВВП является не всегда важным показателем развития науки, хотя и влияет на финансовые возможности страны.
Итак, оставляем в модели Х1, Х2, Х5
С помощью Exelпроведём расчёты второй модели, с факторами Х1, Х2, Х5. Получим уравнение множественной регрессии и наблюдаемое значение t-критерия для каждого коэффициента регрессии aj:
tнабл по модулю: 10,39 3,0143,82
Сравним с табличным на уровне значимости d=0,05 с (n-m-1)=(47-3-1)=43 степенями свободы tтабл=2,02.
Как видим, все коэффициенты получились значимыми.
У
Х1
Х2
Х5
У
1
Х1
0,884148423
1
Х2
0,526521959
0,533871035
1
Х5
0,441017751
0,273023712
-0,045987724
1
Но мультиколлинеарность высокая между факторами Х1 и Х2.
Рассмотрим две модели: Х1, Х5; Х2, Х5
Рассмотрим модель Х1, Х5:
tнабл по модулю: 44,55 2,94
Сравним с табличным на уровне значимости d=0,05 с (n-m-1)=(47-2-1)=44 степенями свободы tтабл=2,02.
Как видим, все коэффициенты получились значимыми.
Fнабл= 1527,72>Fтабл
Рассмотрим модель Х2 Х5:
tнабл по модулю: 24,56 4,69
Сравним с табличным на уровне значимости d=0,05 с (n-m-1)=(47-2-1)=44 степенями свободы tтабл=2,02
Как видим, все коэффициенты получились значимыми.
Fнабл=519,0835>Fтабл
Все модели хорошего качества, их все можно использовать для дальнейшегоисследования, но по t-критерию фактор Х1 (44,55) выше фактора Х2 (24,56), ошибки аппроксимации в первой модели меньше, чем во второй.
Для дальнейших этапов исследуем первую модель с Х1, Х5. И при этом практически не изменились по сравнению с первой моделью. Можно сделать вывод:
1) эти факторы действительно являются определяющими и показывают истинную зависимость
2) в модели невелика мультиколлинеарность.
По t-критериям эту модель можно признать наиболее качественной.
Чтобы установить окончательно, так ли это, проверим мультиколлинеарность в ней.
Рассчитаем линейные парные коэффициенты корреляции между Yи каждым фактором, и попарно между всеми факторами. Составим общую корреляционную матрицу:
У
Х1
Х5
У
1
Х1
0,884
1
Х5
0,441
0,273
1
Видим, что корреляция между Х1 и Х5 (0,273) крайне слаба, можно сказать, практически отсутствует.
Рассчитаем определитель матрицы межфакторной корреляции:
, это означает, что проблема мультиколлинеарности невелика, можно сказать незначительна.
А также учитывая, что коэффициенты модели оказались устойчивы к изменению модели, можно постановить, что проблема мультиколлинеарности практически не искажает результаты моделирования, и её последствия незначительны.
Можем провести дальнейший анализ модели.
Этап 6 Верификация
Итак, получена модель:
Экономическая интерпретация коэффициентов множественной регрессии
а1=0,96 – показывает, что при уменьшении развития технологии на 1 ед., увеличивается уровень фундаментальных исследований на 0,96 балла.
а2=0,032 – показывает, что увеличение общих расходов на НИР на 1 млрд. долл. приведет к увеличению фундаментальных исследований на 0,032 балла.
Доверительные интервалы для параметров множественной регрессии
a
j
: .
При уровне значимости d=5%, используя расчёты Exel, получаем 95%-ные доверительные интервалы:
для a1: (0,913; 1,004), для a2: (0,005; 0,01).
Ширина интервалов маленькая, можно предположить, что точность модели будет хорошей.
Коэффициент детерминации
R2= 0,985
Скорректированный коэффициент детерминации 63 показывает, что изменение числа фундаментальных исследований Yна 96,3% обусловлены совокупным изменением таких факторов, как финансирование развития технологии и технологии и общие расходы на НИР.
Остальные 3,7% изменений стоимости обусловлены другими факторами, не включёнными в модель или необнаруженными в данном исследовании и случайными.
Средние коэффициенты эластичности
Для линейной регрессии: .
Рассчитаем сначала средние значения: , , млрд. долл.,
.
Как видим, эластичность Yпо каждому фактору разная. Наиболее сильна эластичность Yпо фактору Х1, а по фактору Х5 очень мала.
При увеличении финансирования развития технологии на 1% от среднего балла фундаментального исследования увеличивается на 0,95% от среднего балла фундаментального исследования.
При увеличении общих расходов на НИР на 1% от среднего балла фундаментального исследования в среднем увеличивается на 0,038% от среднего балла фундаментального исследования.
Чтобы достоверно ранжировать факторы по силе влияния на Yнайдём уравнение множественной регрессии в стандартизированном масштабе: .
Составляем систему нормальных уравнений в стандартизированном масштабе, чтобы найти стандартизированные коэффициенты регрессии bj:
Подставляем коэффициенты корреляции (они уже вычислены в общей корреляционной матрице):
Решаем его алгебраическими методами и получаем стандартизированные коэффициенты регрессии:1=0,825, 2=0,216
и стандартизированное уравнение:.
, значит, наиболее сильное влияние на фундаментальные исследования Yоказывает фактор Х1 – финансирование развития технологии общие расходы на НИР, менее сильное влияние оказывает фактор Х5 – общие расходы на НИР.
Качество уравнения в целом. Ошибки аппроксимации.
F
-критерий.
Табличное значение F-критерия на уровне значимости d=5% с m=3 и с(n-m-1)=47-2-1=44 степенями свободы Fтабл=2,02. Fнабл=1527,72>Fтабл– уравнение в целом статистически значимо и надёжно.
Ошибки аппроксимации
Потребуется сделать дополнительные вычисления — и просуммировать их:
Отклонения смоделированных данных от реальных составляют в среднем 17,05%. Аппроксимацию можно признать приемлемой. Эта модель применима для прогнозирования.
продолжение
–PAGE_BREAK–Этап 7 Прогнозирование
Полученные показатели и выводы позволяют вполне уверенно использовать эту модель для прогнозирования.
Составим прогноз фундаментального исследования (на примере Греции), при финансировании развития технологии = 5,01 общими расходами на НИР в 1,074 млрд. долл. Запрашиваемое фундаментальное исследование в рассматриваемый период составляла 4,43 балла.
Итак, прогнозные значения факторов х1, прог=5,01, х5, прог=1,074.
Точечный прогноз
При заданных прогнозных значениях факторов можно ожидать, что фундаментальные исследования будут колебаться около 4,844 балла.
Интервальный прогноз
Чтобы вычислить интервальные прогнозы нужно рассчитать ошибки прогнозирования, а для этого потребуются дополнительные матричные вычисления.
Составляем матрицу Х, первый столбец – единичный, а остальные столбцы – это статистические данные по факторам, входящим в модель.
Её размерность в этом случае 47 строк и 3 столбца, dimX=47´3.
Транспонируем её – ХТ, размерность транспонированной матрицы dimXТ=3´47
Вычисляем матричное произведение ХТХ, его размерность dimXТХ=3´3.
Находим обратную к ней матрицу, её размерность dim(XТХ)-1=3´3:
Для вычисления стандартных ошибок прогнозирования составим матрицу прогнозных значений: хпрог=(1 5,01 1,074).
И вычислим матричное произведение: хпрог(ХТХ)-1хпрогТ.
размерность dimхпрог(XТХ)-1=1´3.
1) Доверительный интервал для средних значений
Y
при х1, прог=5,01, х5, прог=1,074.
.
Стандартная ошибка прогноза для средних значений:
Доверительный интервал для средних значений
Y
с вероятностью
g
=95%:
С вероятностью 95% можно ожидать, что средние фундаментальные исследования, которые финансируются на развитие технологии на 5,01, и общими расходами на НИР в 1,074 млрд. долл., колебалась в рассматриваемый период от 4, 153 до 5,535.
2) Доверительный интервал для индивидуальных значений
Y
при х1, прог=5,01, х5, прог=1,074млрд. долл.
.
Стандартная ошибка прогноза для индивидуальных значений:
Доверительный интервал для индивидуальных значений
Y
с вероятностью
g
=95%:
продолжение
–PAGE_BREAK–