Многомерный статистический анализ в системе SPSS

Оглавление
Введение
Глава 1. Множественный регрессионный анализ
Глава 2. Кластерный анализ
Глава 3. Факторный анализ
Глава 4. Дискриминантный анализ
Список используемой литературы

Введение
Исходная информация всоциально-экономических исследованиях представляется чаще всего в виде набораобъектов, каждый из которых характеризуется рядом признаков (показателей).Поскольку число таких объектов и признаков может достигать десятков и сотен, ивизуальный анализ этих данных малоэффективен, то возникают задачи уменьшения,концентрации исходных данных, выявления структуры и взаимосвязи между ними наоснове построения обобщенных характеристик множества признаков и множестваобъектов. Такие задачи могут решиться методами многомерного статистического анализа.
Многомерныйстатистический анализ — раздел математической статистики, посвященный математическим методам,направленным на выявление характера и структуры взаимосвязей между компонентамиисследуемого многомерного признака и предназначенным для получения научных ипрактических выводов.
Основное внимание вмногомерном статистическом анализе уделяется математическим методам построенияоптимальных планов сбора, систематизации и обработки данных, направленным навыявление характера и структуры взаимосвязей между компонентами исследуемогомногомерного признака и предназначенным для получения научных и практическихвыводов.
Исходным массивоммногомерных данных для проведения многомерного анализа обычно служат результатыизмерения компонент многомерного признака для каждого из объектов исследуемойсовокупности, т.е. последовательность многомерных наблюдений. Многомерныйпризнак чаще всего интерпретируется как величина случайная, апоследовательность наблюдений как выборка из генеральной совокупности. В этомслучае выбор метода обработки исходных статистических данных производится наоснове тех или иных допущений относительно природы закона распределенияизучаемого многомерного признака.
По содержанию многомерныйстатистический анализ может быть условно разбит на три основных подраздела:
1. Многомерный статистический анализмногомерных распределений и их основных характеристик охватывает ситуации,когда обрабатываемые наблюдения имеют вероятностную природу, т.е.интерпретируются как выборка из соответствующей генеральной совокупности. Косновным задачам этого подраздела относятся: оценивание статистическоеисследуемых многомерных распределений и их основных параметров; исследованиесвойств используемых статистических оценок; исследование распределенийвероятностей для ряда статистик, с помощью которых строятся статистическиекритерии проверки различных гипотез о вероятностной природе анализируемыхмногомерных данных.
2. Многомерный статистический анализхарактера и структуры взаимосвязей компонент исследуемого многомерного признакаобъединяет понятия и результаты, присущие таким методам и моделям, как регрессионныйанализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д.Методы, принадлежащие к этой группе, включают как алгоритмы, основанные напредположении о вероятностной природе данных, так и методы, не укладывающиеся врамки какой-либо вероятностной модели (последние чаще относят к методам анализаданных).     
3.Многомерный статистический анализ геометрическойструктуры исследуемой совокупности многомерных наблюдений объединяет понятия ирезультаты, свойственные таким моделям и методам, как дискриминантный анализ,кластерный анализ, многомерное шкалирование. Узловым для этих моделей являетсяпонятие расстояния, либо меры близости между анализируемыми элементами какточками некоторого пространства. При этом анализироваться могут как объекты(как точки, задаваемые в признаковом пространстве), так и признаки (как точки,задаваемые в объектном пространстве).
Прикладное значение многомерногостатистического анализа состоит в основном в решении следующих трех задач:
· задачастатистического исследования зависимостей между рассматриваемыми показателями;
· задачаклассификации элементов (объектов или признаков);
· задача сниженияразмерности рассматриваемого признакового пространства и отбора наиболееинформативных признаков.
Множественныйрегрессионный анализ предназначен для построения модели, позволяющей позначениям независимых переменных получать оценки значений зависимой переменной.
Логистическая регрессиядля решения задачи классификации. Это разновидность множественной регрессии,назначение которой состоит в анализе связи между несколькими независимымипеременными и зависимой переменной.
Факторный анализзанимается определением относительно небольшого числа скрытых (латентных)факторов, изменчивостью которых объясняется изменчивость всех наблюдаемыхпоказателей. Факторный анализ направлен на снижение размерности рассматриваемойзадачи.
Кластерный и дискриминантныйанализ предназначены для разделения совокупностей объектов на классы, в каждыйиз которых должны входить объекты в определенном смысле однородные или близкие.При кластерном анализе заранее неизвестно, сколько получится групп объектов икакого они будут объема. Дискриминантный анализ разделяет объекты по ужесуществующим классам.

Глава 1. Множественныйрегрессионный анализ
Задание: Исследование рынкажилья в Орле (Советский и Северный районы).
В таблице приведены данныепо цене квартир в Орле и по различным факторам, ее обусловливающим:
· цена;
· общая площадь;
· площадь кухни;
· жилая площадь;
· район;
· этаж;
· тип дома;
· количествокомнат. (Рис.1)
/>
Рис. 1Исходные данные
В графе «Район»использованы обозначения:
3 – Советский (элитный,относится к центральным районам);
4 – Северный.
В графе «Тип дома»:
1 – кирпичный;
0 – панельный.
Требуется:
1. Проанализировать связьвсех факторов с показателем «Цена» и между собой. Отобрать факторы, наиболееподходящие для построения регрессионной модели;
2. Сконструироватьфиктивную переменную, отображающую принадлежность квартиры к центральным ипериферийным районам города;
3. Построитьлинейную модель регрессии для всех факторов, включив в нее фиктивнуюпеременную. Пояснить экономический смысл параметров уравнения. Оценить качествомодели, статистическую значимость уравнения и его параметров;
4. Распределитьфакторы (кроме фиктивной переменной) по степени влияния на показатель «Цена»;
5. Построитьлинейную модель регрессии для наиболее влиятельных факторов, оставив вуравнении фиктивную переменную. Оценить качество и статистическую значимостьуравнения и его параметров;
6. Обосноватьцелесообразность или нецелесообразность включения в уравнение п. 3 и 5фиктивной переменной;
7. Оценитьинтервальные оценки параметров уравнения с вероятностью 95%;
8. Определить,сколько будет стоить квартира общей площадью 74,5 м? в элитном(периферийном) районе.
Выполнение:
1. Проанализировавсвязь всех факторов с показателем «Цена» и между собой, были отобраны факторы,наиболее подходящие для построения регрессионной модели, используя методвключения «Forward»:
А) общая площадь;
Б) район;
В) количество комнат.
Включенные/исключенныепеременные(a)Модель Включенные переменные Исключенные переменные Метод 1 Общая площадь . Включение (критерий: вероятность F-включения >= ,050) 2 Район . Включение (критерий: вероятность F-включения >= ,050) 3 Кол-во комнат . Включение (критерий: вероятность F-включения >= ,050)
a Зависимаяпеременная: Цена
2. Переменная Х4«Район» является фиктивной переменной, так как имеет 2 значения:3-принадлежность к центральному району «Советский», 4- к периферийному району«Северный».
3. Построим линейнуюмодель регрессии для всех факторов (включая фиктивную переменную Х4).
Полученнаямодель:
У =348,349 + 35,788 Х1 -217,075 Х4 +305,687 Х7
Оценкакачества модели.
Коэффициентдетерминации R2 = 0,807
Показываетдолю вариации результативного признака под воздействием изучаемых факторов.Следовательно, около 89% вариации зависимой переменной учтено и обусловлено вмодели влиянием включенных факторов.
Коэффициентмножественной корреляции R =0,898
Показываеттесноту связи между зависимой переменной У со всеми включенными в модель объясняющимифакторами.
Стандартнаяошибка = 126,477
КоэффициентДарбина — Уотсона = 2,136
Проверказначимости уравнения регрессии
Значениекритерия F-Фишера = 41,687
Уравнениерегрессии следует признать адекватным, модель считается значимой.
Самыйзначимый фактор – количество комнат (F=41,687)
Второйпо значимости фактор- общая площадь (F= 40,806)
Третийпо значимости фактор- район (F=32,288)
4. Построим линейнуюмодель регрессию со всеми факторами (кроме фиктивной переменной Х4)
Постепени влияния на показатель «Цена» распределили:
Самыйзначимый фактор – общая площадь (F=40,806)
Второйпо значимости фактор- количество комнат (F= 29,313)
5. Включенные/исключенныепеременныеМодель Включенные переменные Исключенные переменные Метод 1 Общая площадь . Включение (критерий: вероятность F-включения >= ,050) 2 Район . Включение (критерий: вероятность F-включения >= ,050) 3 Кол-во комнат . Включение (критерий: вероятность F-включения >= ,050)
a Зависимаяпеременная: Цена
6. Построим линейнуюмодель регрессии для наиболее влиятельных факторов с фиктивной переменной, внашем случае она и является одним из влиятельных факторов.
Полученнаямодель:
У =348,349 + 35,788 Х1 -217,075 Х4 +305,687 Х7
Оценкакачества модели.
Коэффициентдетерминации R2 = 0,807
Показываетдолю вариации результативного признака под воздействием изучаемых факторов.Следовательно, около 89% вариации зависимой переменной учтено и обусловлено вмодели влиянием включенных факторов.
Коэффициентмножественной корреляции R =0,898
Показываеттесноту связи между зависимой переменной У со всеми включенными в модель объясняющимифакторами.
Стандартнаяошибка = 126,477
КоэффициентДарбина — Уотсона = 2,136
Проверказначимости уравнения регрессии
Значениекритерия F-Фишера = 41,687
Уравнениерегрессии следует признать адекватным, модель считается значимой.
Самыйзначимый фактор – количество комнат (F=41,687)
Второйпо значимости фактор- общая площадь (F= 40,806)
Третийпо значимости фактор- район (F=32,288)
7. Фиктивная переменнаяХ4 является значимым фактором, поэтому целесообразно включить ее в уравнение.
Интервальныеоценки параметров уравнения показывают результаты прогнозирования по моделирегрессии.
Свероятностью 95% объем реализации в прогнозируемом месяце составит от 540,765до 1080,147 млн. руб.
8.  Определениестоимости квартиры в элитном районе
Для 1комн У = 348,349 + 35,788 * 74, 5 — 217,075 * 3 + 305,687 * 1
Для 2комн У = 348,349 + 35,788 * 74, 5 — 217,075 * 3 + 305,687 * 2
Для 3комн У = 348,349 + 35,788 * 74, 5 — 217,075 * 3 + 305,687 * 3
впериферийном
Для 1комн У = 348,349 + 35,788 * 74, 5 — 217,075 * 4 + 305,687 * 1
Для 2комн У = 348,349 + 35,788 * 74, 5 — 217,075 * 4 + 305,687 * 2
Для 3комн У = 348,349 + 35,788 * 74, 5 — 217,075 * 4 + 305,687 * 3
Глава 2. Кластерныйанализ
Задание: Исследованиеструктуры денежных расходов и сбережений населения.
В таблице представленаструктура денежных расходов и сбережений населения по регионам Центральногофедерального округа Российской федерации в 2003 г. Для следующих показателей:
· ПТиОУ – покупкатоваров и оплата услуг;
· ОПиВ –обязательные платежи и взносы;
· ПН – приобретениенедвижимости;
· ПФА – приростфинансовых активов;
· ДР – прирост(уменьшение) денег на руках у населения.

/>
Рис. 8Исходные данные
Требуется:
1) определитьоптимальное количество кластеров для разбиения регионов на однородные группы повсем группировочным признакам одновременно;
2) провестиклассификацию областей иерархическим методом с алгоритмом межгрупповых связей иотобразить результаты в виде дендрограммы;
3) проанализироватьосновные приоритеты денежных расходов и сбережений в полученных кластерах;
4) сравнитьполученную классификацию с результатами применения алгоритма внутригрупповыхсвязей.
Выполнение:
1) Определитьоптимальное количество кластеров для разбиения регионов на однородные группы повсем группировочным признакам одновременно;
Для определенияоптимального количества кластеров нужно воспользоваться Иерархическимкластерным анализом и обратиться к таблице «Шаги агломерации» к столбцу«Коэффициенты».
Эти коэффициентыподразумевают расстояние между двумя кластерами, определенное на основаниивыбранной дистанционной меры (Евклидово расстояние). На том этапе, когда мерарасстояния между двумя кластерами увеличивается скачкообразно, процессобъединения в новые кластеры необходимо остановить.
В итоге, оптимальнымсчитается число кластеров, равное разности количества наблюдений (17) и номерашага (14), после которого коэффициент увеличивается скачкообразно. Такимобразом, оптимальное количество кластеров равно 3. (Рис.9)
статистическийматематический анализ кластерный
/>/>
Рис. 9Таблица «Шаги агломерации»
2) Провестиклассификацию областей иерархическим методом с алгоритмом межгрупповых связей иотобразить результаты в виде дендрограммы;
Теперь, используяоптимальное количество кластеров, проводим классификацию областей иерархическимметодом. И в выходных данных обращаемся к таблице «Принадлежность к кластерам».(Рис.10)

/>
Рис. 10Таблица «Принадлежность к кластерам»
На Рис. 10 отчетливовидно, что в 3 кластер попали 2 области (Калужская, Московская) и г. Москва, во2 кластер две (Брянская, Воронежская, Ивановская, Липецкая, Орловская, Рязанская,Смоленская, Тамбовская, Тверская), в 1 кластер – Белгородская, Владимирская,Костромская, Курская, Тульская, Ярославская.

/>
Рис. 11Дендрограмма
3) проанализироватьосновные приоритеты денежных расходов и сбережений, в полученных кластерах;
Для анализа полученныхкластеров нам нужно провести «Сравнение средних». В выходном окне выводитсяследующая таблица (Рис. 12)
/>
Рис. 12Средние значения переменных
В таблице «Среднихзначений» мы можем проследить, каким структурам отдается наибольший приоритет враспределении денежных расходов и сбережений населения.
В первую очередь стоитотметить, что самый высокий приоритет во всех областях отдается покупке товарови оплате услуг. Большее значение параметр принимает в 3 кластере.
2 место занимает приростфинансовых активов. Наибольшее значение в 1 кластере.
Наименьший коэффициент в1 и 2 кластерах у «приобретение недвижимости», а в 3 кластере выявлено заметноеуменьшение денег на руках у населения.
В целом особое значениедля населения имеет покупка товаров и оплата услуг и незначительное покупканедвижимости.
4) сравнитьполученную классификацию с результатами применения алгоритма внутригрупповыхсвязей.
В анализе межгрупповыхсвязей ситуация практически не изменилась, за исключением Тамбовской области,которая из 2 кластера попала в 1.(Рис.13)
/>
Рис. 13Анализ внутригрупповых связей
В таблице «Среднихзначений» никаких изменений не произошло.
Глава 3. Факторный анализ
Задание: Анализдеятельности предприятий легкой промышленности.
Имеются данныеобследований 20 предприятий легкой промышленности (Рис. 14) по следующимхарактерным признакам:
· Х1 – уровеньфондоотдачи;
· Х2 – трудоемкостьединицы продукции;
· Х3 – удельный весзакупочных материалов в общих расходах;
· Х4 – коэффициентсменности оборудования;
· Х5 – премии ивознаграждения на одного работника;
· Х6 – удельный веспотерь от брака;
· Х7 –среднегодовая стоимость основных производственных фондов;
· Х8 –среднегодовой фонд заработной платы;
· Х9 – уровеньреализуемости продукции;
· Х10 – индекспостоянного актива (отношение основных средств и прочих внеоборотных активов ксобственным средствам);
· Х11 –оборачиваемость оборотных средств;
· Х12 –непроизводственные расходы.

/>
Рис.14Исходные данные
Требуется:
1. провестифакторный анализ следующих переменных: 1,3,5-7, 9, 11,12, выявить и интерпретироватьфакторные признаки;
2. указать наиболееблагополучные и перспективные предприятия.
Выполнение:
1. Провестифакторный анализ следующих переменных: 1,3,5-7, 9, 11,12, выявить иинтерпретировать факторные признаки.
Факторный анализ – этосовокупность методов, которые на основе реально существующих связей объектов(признаков) позволяют выявить латентные (неявные) обобщающие характеристикиорганизационной структуры.
В диалоговом окнефакторного анализа выбираем наши переменные, указываем необходимые параметры.

/>
Рис. 15Полная объясненная дисперсия
По таблице «Полнойобъясненной дисперсии» видно, что выделены 3 фактора, объясняющие 74,8 %вариаций переменных – построенная модель достаточно хорошая.
Теперь интерпретируемфакторные признаки по «Матрице повернутых компонент»: (Рис.16).
/>
Рис. 16Матрица повернутых компонент
Фактор 1 наиболее тесносвязан с уровнем реализации продуктов и имеет обратную зависимость отнепроизводственных расходов.
Фактор 2 наиболее тесносвязан с удельным весом закупочных материалов в общих расходах и удельным весомпотерь от брака и имеет обратную зависимость от премий и вознаграждений наодного работника.
Фактор 3 наиболее тесносвязан с уровнем фондоотдачи и оборачиваемость оборотных средств и имеетобратную зависимость от среднегодовой стоимости основных производственныхфондов.
2. Указать наиболееблагополучные и перспективные предприятия.
Для того, чтобы выявитьнаиболее благополучные предприятия проведем сортировку данных по 3 факторнымпризнакам по убыванию. (Рис.17)
/> /> />
Рис. 17
Наиболее благополучнымипредприятиями следует считать: 13,4,5, так как в целом по 3 факторам ихпоказатели занимают наиболее высокие и стабильные позиции.

Глава 4. Дискриминантныйанализ
Оценка кредитоспособностиюридических лиц в коммерческом банке
В качестве значимыхпоказателей, характеризующих финансовое состояние организаций-заемщиков, банкомвыбраны шесть показателей (табл. 4.1.1):
QR (Х1) — коэффициентсрочной ликвидности;
CR (Х2) — коэффициенттекущей ликвидности;
EQ/TA (Х3) — коэффициентфинансовой независимости;
TD/EQ (Х4) — суммарныеобязательства к собственному капиталу;
ROS (Х5) — рентабельностьпродаж;
FAT (Х6) —оборачиваемость основных средств.
Таблица 4.1.1. ИсходныеданныеЗаемщик QR CR EQ/TA TD/EQ ROS, % FAT, раз 1 0,614 2,982 0,592 0,303 13,179 2,712 2 8,604 4,496 0,284 0,109 17,181 10,115 3 6,207 4,423 0,366 0,228 15,385 2,151
Требуется:
На основедискриминантного анализа с использованием пакета SPSS определить, к какой изчетырех категорий относятся три заемщика (юридических лица), желающие получитькредит в коммерческом банке:
—  Группа 1 — сотличными финансовыми показателями;
—  Группа 2 — схорошими финансовыми показателями;
—  Группа 3 — сплохими финансовыми показателями;
—  Группа 4 — сочень плохими финансовыми показателями.
По результатам расчетапостроить дискриминантные функции; оценить их значимость по коэффициенту Уилкса(?). Построить карту восприятия идиаграммы взаимного расположения наблюдений в пространстве трех функций.Выполнить интерпретацию результатов проведенного анализа.
Ход выполнения:
Для того чтобыопределить, к какой из четырех категорий относятся три заемщика, желающиеполучить кредит в коммерческом банке, строим дискриминантный анализ, которыйпозволяет определить, к какой из ранее выявленных совокупностей (обучающихвыборок) следует отнести новых клиентов.
В качестве зависимойпеременной выберем группу, к которой может относиться заемщик в зависимости отего финансовых показателей. Из данных задачи, каждой группе присваиваетсясоответствующая оценка 1, 2, 3 и 4.
Ненормированныеканонические коэффициенты дискриминантных функций, приведенные на рис. 4.1.1,используются для построения уравнения дискриминантных функций D1(X), D2(X) и D3(X):
1.) D1(X) = />
2.) D2(X) = />
3.) D3(X) = /> Функция
  1 2 3 Х1 ,064 ,363 -,021 Х2 1,818 2,073 -,573 Х3 9,328 -10,089 4,726 Х4 ,002 ,003 ,002 Х5 ,129 ,048 -,097 Х6 ,147 ,092 ,026 (Константа) -6,112 1,170 -1,183
Рис. 4.1.1. Коэффициентыканонической дискриминантной функции