Сегментаціяпозичальників та прийняття рішення за допомогою карт Кохонена
Кожен позичальник має визначений набірфакторів. Для аналізу ринку кредитування необхідно в першу чергу зрозумітизагальну картину. Хто бере кредити, навіщо, які існують причини відмовлень увидачі кредитів або причини неспроможності.
Для цього необхідно наочне представленнявсіх наявних даних. Таку задачу можна вирішити за допомогою побудовисамонавчальних карт Кохонена.
Длясегментації позичальників алгоритм формування карт ознак вхідних векторів буденаступним:
1. Ініціалізаціямережі.
Ваговимкоефіцієнтам мережі привласнюються малі випадкові значення.
Загальнечисло синаптичних ваг дорівнює (N·M). Де N – кількість вхіднихпараметрів, M – загальна кількість нейронів в мережі.
2. Подачана мережу нового вхідного сигналу.
Обчисленнявідстані Кохонена між вхідними векторами і нейронами.
Відстаньdjвід вхідного сигналу до j-го нейрона визначається поформулі:
/> (1)
де xi — i -й елемент вхідного сигналу в момент часу t,
wi,j(t)- вага зв’язку від i-го елемента донейрона j у момент часу t.
4. Вибір нейрона з найменшоювідстанню.
Вибираєтьсянейрон j*, для якого відстань dj найменше.
5. Настроюванняваг нейрона j* і його сусідів.
Виробляєтьсяпідстроювання ваг для нейрона j* і всіх нейронів з його зони сусідстваNE. Нові значення ваг виходять по формулі :
/> (2)
де r(t)— крок навчання, позитивне число менше одиниці, що зменшується з часом.
6. Поверненнядо кроку 2.
Навчання складається з двох основних фаз:на первісному етапі вибирається досить велике значення швидкості навчання ірадіуса навчання, що дозволяє розташувати вектора нейронів відповідно дорозподілу прикладів у вибірці, а потім виробляється точне підстроювання ваг,коли значення параметрів швидкості навчання багато менше початкових. У випадкувикористання лінійної ініціалізації первісний етап грубого підстроювання можебути пропущений.
Для реалізації методу сегментації задопомогою карт Кохонена був обраний пакет Deductor Studio.
Пакет Deductor Studio містить повний набірмеханізмів імпорту, обробки, візуалізації й експорту даних для швидкого йефективного аналізу інформації.
Уся робота з аналізу даних у DeductorStudio базується на виконанні наступних дій:
1. Імпорт даних;
2. Обробка даних;
3. Візуалізація;
4. Експорт даних;
Усі механізми уніфіковані і виконуються задопомогою майстрів. Відправною крапкою для аналізу завжди є процедура імпортуданих. Отриманий набір даних може бути оброблений кожним з доступних способів.
Результатом обробки також є набір даних,що у свою чергу знову може бути оброблений. Результати обробки можнапереглянути безліччю способів і експортувати.
Послідовність дій, які необхідно провестидля аналізу даних є сценарієм, якому можна автоматично виконувати на будь-якихданих.
У Deductor Studio використовуються самімогутні технології, такі як багатомірний аналіз, нейронні мережі, дереварішень, самонавчальні карти, спектральний аналіз і безліч інших.
При цьому акцент зроблений на самонавчальніметоди і машинне навчання, що дозволяє будувати адаптивні системи, тобто здатніреагувати на зміну ситуації.
Використання методів, що самонавчаються, імайстрів для настроювання, дозволяє знизити вимоги до підготовки персоналу,роблячи сучасні технології доступними широкому колу користувачів.
Для того, щоб почати аналіз, необхідноодержати табличні дані зі стороннього джерела.
Природа джерела даних значення не має.Deductor Studio підтримує безліч джерел даних: сховище даних Deductor Warehouse,промислові СУБД (Oracle, MS SQL), текстові файли, офісні програми (Excel,Access), ADO і ODBC джерела.
Наступним кроком є обробка даних. Підобробкою мається на увазі будь-яка дія зв’язана з перетворенням даних.Механізми обробки можна комбінувати довільним образом. Доступні наступні:нейронні мережі, дерева рішень, самонавчальні карти, асоціативні правила,лінійна регресія і безліч інших.
Переглянути результати можна за допомогоюмеханізмів візуалізації. Візуалізувати можна будь-який об’єкт у сценарії обробки.Програма самостійно аналізує, яким образом можна відобразити інформацію,користувач повинний тільки вибрати потрібний варіант – статистика, графнейросети, ієрархічна система правил, карти і т.д..
Завершальним кроком у сценарії обробкинайчастіше є експорт даних. Підтримуються наступні формати: сховище данихDeductor Warehouse, Microsoft Access, Microsoft Excel, Microsoft Word, HTML,XML, Dbase, текстової файл із роздільниками.
Переваги системи:
– Одержання даних для навчання зтекстового файлу, СУБД;
– Різні способи нормування даних;
– Створення багатошарових нейроннихмереж різної конфігурації;
– Настроювання параметрів навчаннянейросистеми;
– Можливість зберегти результатинавчання;
– Автоматизація навчання системи – єможливість використання тестової безлічі як валідаційного, тобто можливістьавтоматично припинити навчання при зростанні помилок на тестовій безлічі, щодозволяє скоротити ризик перенавчання системи;
– Автоматичне формування навчальноїі тестової безлічі. Додатково змінений спосіб формування навчальної безлічі, щотакож поліпшує якість навчання;
– При навчанні можливість варіюваннявхідними параметрами системи;
– Відмінна візуалізація даних;
У пропонованому наборі компонентів маєтьсякомпонент, що реалізує власне самонавчальну карту Кохонена — TDBSOM, що можебути самостійно використаний для рішення задачі аналізу.
Крім того, мається компонент TDBSOM, щодозволяє формувати карту на основі інформації, отриманої зі стандартнихкомпонентів Delphi для роботи з базами даних (такі як TTable і TQuery).
Також мається компонент TSOMVisualizer, щодозволяє відобразити отриману карту в зручному для сприйняття графічному виді.
На рисунку 1 представлені карти, що показують розподілпозичальників по характеристиках “Сума кредиту”, “Термін кредиту”, “Цількредитування”(турпоїздки, покупка товарів, покупка та ремонт нерухомості,оплата навчання, оплата послуг, та інше), “Середньомісячний доход”, “Кількістьутриманців” і “Вік”. Проведемо аналіз представлених даних.
/>
Рисунок 1 — Карти Кохонена
Спочатку необхідно дати аналіз по кожнійхарактеристиці окремо, а потім вже оцінити їхній загальний зв’язок.
На карті видна рівна кількість як бажаючихузяти суми до 20 000 гривень так і досить вагомі суми до 80 000 гривень.Причому, виходячи з даних карти середньомісячного доходу, практично всіпозичальники мають однаковий прибуток 2 – 3 тис. грн., з якого випливаєподібність карт “суми кредиту” і “терміну кредиту” — з тим самим доходом великі суми беруться на більшийперіод.
По карті “вік” можна судити прозатребуваність кредитів серед молоді — половина кредитів беруть позичальникимолодше 30 років.
По сукупності карт “кількість утриманців” і “середньомісячний доход” можнасудити про питому прибутковість на кожного члена родини позичальника.Зрозуміло, що при однакових доходах до позичальників з меншою кількістюутриманців довіра більше.
Переважна більшість кредитів беруться на покупкутоварів тривалого споживання. Причому, навіть тут можна виділити як дешеві, такі дорогі товари:
/>
Рисунок 2 — Виділення групикредитів на дорогі товари
Цікава також група позичальників з мінімальнимдоходом (рис. 3). Як видно, їхня активність спостерігається в сфері оплатипослуг, а також у сфері оплати за освіту. Також частина позичальників здобуваєв кредит дешеві товари.
/>
Рисунок 3 — Область кредитуванняпозичальників з малим доходом
Карти Кохонена також вирішують задачукластеризації.
На рисунку 4 усі позичальники розбиті накілька сегментів.
/>
Рисунок 4 — Виявлені сегментипозичальників
Опишемо кожний із представлених сегментів.
– 0сегмент – найбільший, представляє всіх позичальників старше 30 років. Ценайбільш консервативна частина всіх позичальників, тому їй властиві подібніриси і, отже, необхідний однаковий підхід при наданні їм послуг кредитування, атакож їхньої класифікації. Позичальники ж молодше 30 років поділяються ще на 4сегменти:
– 1сегмент – більш заможні молоді родини, що бажають облаштувати своє житло.Причому верхня частина сегменту – проблемні позичальники, що неадекватнооцінюють свої можливості;
– 2сегмент – працюючі студенти;
– 3сегмент – позичальники, що здобувають у кредит дешеві товари;
– 4сегмент – група позичальників, що бере кредит на ремонт;
– 5сегмент – позичальники, що одержують у кредит освіту і різні послуги.
Кластеризація показала, що на ринкукредитування фізичних осіб існують не тільки різні напрямки — кредитуваннятоварів, освітні кредити і т.д., але і різні сегменти позичальників, щокористуються тим самим видом послуг.
Для цих груп потенційних позичальників необхіднодати нечітку оцінку його кредитоспроможності, наприклад, увівши поняттяймовірності повернення кредиту повністю й у строк Для побудови такої моделінеобхідно представити рішення про видачу кредиту в числовому виді: 0 — «поганий кредит», 1 — «добрийкредит».
Тоді після побудови моделі на виході вийдесаме ймовірність повернення. Керуючому ж залишається лише задати граничнезначення ймовірності, і якщо результат вище його, то ухвалювати рішення щодовидачі кредиту, якщо нижче, то відмовляти.
Отримана модель дає можливість прямоуправляти рівнем ризику. Можна звести ризик до мінімуму, указавши як поріг 1або підвищити його при менших значеннях порога (але й, відповідно до практики,що застосовується в банках, перекласти його на позичальників).
Це дозволить залишатися у виграшномуположенні перед конкурентами: знизити вартість певних послуг до рівняконкурентів, але також при цьому збільшити поріг, знизивши ризик.
Проведемо апробацію експертної системи.Для цього візьмемо кредитну історію позичальників (150 записів), як з поганимитак і добрими характеристиками, а також кілька анкет, заповнених позичальникамидля перевірки правильності ухвалення рішення по видачі кредитів. Анкетипозичальників візьмемо з зовсім різними вхідними факторами, для того щоб вонипотрапили в різні кластери при сегментації на картах Кохонена з підсумковоювідповіддю про видачу кредиту.
Проведемо аналіз отриманих результатів.
/>
Рисунок 5 – Результат сегментаціїна картах Кохонена
На рисунку 5 видно, що приклади анкетнихданих, узятих для тестування системи були сегментовані з подібними даним знавчальної вибірки за допомогою карт Кохонена, вони на картах позначенімітками.
На виході було отримано 4 кластери, у якихдані сегментовані по подібних вхідних і вихідних факторах.
На карті видно що приклади 1, 3, 4потрапили в кластер 3, і відповідно до вихідних параметрів навчальної вибірки,передбачуване рішення по видачі кредиту = 0, тобто кредит не видавати.
По матриці помилок квантування, видно щопо дані приклади сегментовані з нульовою помилкою.
Приклад 2 потрапив у 2-ий кластер, іпередбачуване рішення по видачі кредиту =1 – видавати кредит.
На карті помилок видно, що рішення поданому кредиті було прийнято з мінімальною помилкою. Розглянемо приклад 2, накарті видно, що він потрапив у 0-ий кластер, рішення по видачі кредиту = 0,5,при помилці = 0,25.
У такий спосіб параметри даного кредитунеобхідно уточнити або переглянути, або сегментувати з великою кількістюприкладів у навчальній вибірці.