大數據風控建模標準流程

欄目: 企業管理範文 / 發佈於: / 人氣:4.49K

一、風控建模標準過程

（一）數據採集彙總

1、以客户為維度組織蒐集信息（人口屬性、交易信息、交易渠道、風險評估、產品偏好、經營信息）

2、評估數據真實性和質量，數據質量好的變量進入後續步驟

（二）模型設計

1、時間窗和好壞客户定義

時間窗：根據獲取數據的覆蓋週期，將數據分為用來建模的觀察期數據，和後面用來驗證表現的表現期數據；

好壞客户定義：分析客户滾動和遷移率，來定義什麼程度逾期的為“壞客户”，例如定義M3為壞客户就是定義逾期3個月的才是壞客户；

2、樣本集切分和不平衡樣本處理

樣本集切分：切分為訓練集和測試集，一般7/3或8/2比例；

不平衡樣本：最理想樣本為好壞各50%，實際拿到的樣本一般壞客户佔比過低，採取過採樣或欠採樣方法來調節壞樣本濃度。

3、模型選擇

評分卡模型以邏輯迴歸為主。

（三）數據預處理及變量特徵分析

1、變量異常值、缺失值處理：使用均值、眾數等來平滑異常值，來填補缺失，缺失率過高的變量直接丟棄；

2、變量描述性統計：看各個變量的集中或離散程度，看變量的分佈是否對樣本好壞有線性單調的相關性趨勢；

（四）變量篩選

1、變量分箱：變量取值歸入有限個分組中，一般5個左右的分箱數量，來參加後面的算法模型計算。分箱的原則是使得各箱內部儘量內聚，即合併為一箱的各組壞樣本率接近；使得相鄰分箱的壞樣本率呈現單調趨勢。從方法上一版採取先機器分箱，後人工微調。

2、定量計算變量對於識別壞樣本的貢獻度（WOE和IV）

（1）WOE是統計一個變量的各分箱區間之間的好佔總好比值壞佔總壞之比，不同分箱之間差異明顯且比例成單調趨勢，説明分箱的區分度好；

（2）IV是在WOE基礎上進一步加權計算這個變量整體上對於區分好壞樣本的識別度，也就是變量影響因子。數越大説明用這個變量進行區分的效果越好，但IV值過大容易引起模型過擬合，即模型過於依賴單一變量，造成使用過程中平衡性健壯性不好；

3、計算變量之間的相關性或多重共線性，相關性高於0.5甚至0.7的兩個變量裏，就要捨棄一個，留下iv值較高的那個。例如“近一個月查詢次數”、“近三個月查詢次數”、“近六個月查詢次數”這三個變量顯然明顯互相相關度高，只保留其中一個變量進入模型即可。

（五）變量入模計算

1、以最終選定的若干變量，進入迴歸模型算法，機器自動計算

其中每一個X就是一種變量，這個計算就是為了算出每種變量的最終權重，也就是算出所有的b。

2、客户違約概率映射為客户分數。以上公式一旦計算確定，則給出一個確定的客户，就可以算出其違約概率，下面公式是把概率進一步再映射計算成一個客户總評分。

3、計算確定每種變量每個分箱所應該給的得分

某一變量在一個分箱的得分該組WOE

（六）模型驗證與評價

1、模型區分好壞客户能力評價

（1）ROC值及繪圖

用來評價模型的靈敏度，橫座標是好人被錯殺的概率，縱座標是壞人被正確挑出的概率，所以曲線越向左上角偏越好，曲線下方面積就是AUC值，一般達到0.75以上説明靈敏度好。

（2）K-S值及繪圖

評價模型區分好壞客户的能力，並得到最大化通過好客户、拒絕壞客户的極值點。橫座標是評分，縱座標是累計百分比，紅線是壞人被正確識別的累計概率，藍線是好人被錯殺的累計概率，灰線是紅藍數值之差，則灰線最高點為KS極值點，通常KS大於0.4為良好的模型。

2、模型穩定性評價

因為模型是使用過去的一批客户訓練出來的，穩定性測試是為了證明訓練出來的模型不依賴於訓練樣本的某些特異屬性，而是能抓住業務面對客户的共同特點規律，在未來實際業務使用中能夠健壯穩定地識別新客户的好壞。主要是模型在訓練集和測試集中識別率表現應該基本一致，對全樣本的不同時段切片應該表現基本一致，對樣本內數據和樣本外數據應該表現基本一致。

3、模型壓力測試

壓力測試是評估模型承受“罕見但是仍然可能”的宏觀經濟衝擊或重大金融事件過程，進行壓力測試一般用量化模型，用以衡量在經濟環境變化導致樣本大幅偏移的情況下模型是否仍然有效，評估銀行抵禦經濟週期性變化的能力。目前我行使用專家模型，需要有完整時間週期（如整年）的樣本積累，並且進行經濟預期數據建模後續可以開展有效的壓力評估。

Tags：風控建模流程