廣告
文章
  • 全站
  • 文章
  • 論壇
  • 博客
高級
首頁 / 科技 / 科技創新 / 正文
 
廣告
 

新模型,新風險:如何有效管理機器學習與人工智能?

現今機器學習模型愈發復雜,新風險叢生。合理調整傳統風險管理模式下的驗證框架,可更好地管理模型,降低風險。

利用海量數據所構建的模型,機器學習和人工智能將優化商業決策,提供定制服務,改進風險管理。兩者帶來的優勢也注定會為銀行業帶來翻天覆地的變化。麥肯錫全球研究院的數據顯示,這些技術的應用有望為銀行業創造超過2500億美元的價值。

但是,機器學習模型的應用也放大了某些傳統模式下的風險。目前,大多數銀行在對模型風險進行評估和管理時,采用的都是傳統風險管理模式下相對成熟的模型驗證框架。這些傳統做法雖然能夠滿足監管合規要求,但仍不足以有效管理與機器學習模型相關的新型風險。

考慮到其管理難度,多數銀行都在謹慎前行。比如,它們會試探性地將機器學習模型應用于數字營銷等低風險業務中,以測試銀行可能會面臨的財務、聲譽和監管風險。銀行害怕自身會不知不覺地觸犯反歧視法,從而招致巨額罰款。出于這一擔憂,一家銀行明令禁止其人力資源部門使用基于機器學習的簡歷篩選器。鑒于上述情況,如果銀行想最大程度地從機器學習模式中受益,更好的、可能也是唯一可持續的辦法,就是加強模型風險管理。

目前,監管機構尚未發布任何具體章程,來引導企業如何管理機器學習和人工智能相關模型。在美國,監管機構規定,銀行必須負責管理機器學習模型帶來的所有風險。與此同時,他們也指出,諸如美聯儲此前頒布的模型風險管理指南Guidance on Model Risk Management(SR11-7)等現有監管準則的內容已足夠寬泛,可作指導手冊而用。

可喜的是,許多銀行并不需要通過建立全新的模型驗證框架,來應對機器學習模型的風險。它們大可對現有模型管理的驗證框架進行一系列補充,以達到同樣目的和效果。例如,它們可將新模型納入模型清單中,并確定相應的風險偏好、風險層級、風險角色、管理職責,以及模型生命周期管理中相關的模型驗證技術。

新風險、新選擇、新實踐

近年來,新興機器學習模型產生的負面新聞并不少見。2016年,算法的逆向反饋機制直接導致英鎊閃崩”6%。此外,一輛基于機器學習技術而研發的自動駕駛汽車,也未能正確識別并避讓一名推著自行車過馬路的行人。

無論機器學習模型被應用于何種行業或應用,這些風險發生的原因,與所有機器學習模型中風險被放大的原因其實都相同:即模型復雜性的大幅增加。機器學習模型通常基于大規模的非結構化數據集(如自然語言、圖像和語音信息等),并使用新的軟件包和特定的計算基礎架構進行構建。這些算法比傳統的統計方法要復雜得多,往往需要在測試訓練環節開始前,就做好設計決定。

然而,模型本身的復雜并不意味著我們也要采取過度復雜的應對方式。如下圖所示,只要理解得當,銀行現有的傳統模型驗證框架,完全能夠有效管理與機器學習模型相關的風險。

 風險管理模型

從上圖中,我們可以清楚地看到,麥肯錫Risk Dynamics模型風險驗證和管理團隊,對模型驗證框架和實踐方法作出了調整。這一框架覆蓋了SR11-7的監管要求,曾被用于驗證銀行業數千個傳統模型。它的審驗范圍涵蓋8大風險管理層面,共計25個風險要素。針對機器學習和人工智能技術相關模型,模型風險驗證和管理團隊修改了12個已有要素,增補了6個新要素,讓銀行能夠借助新模型來有效識別和管理與機器學習相關的風險。

六大新要素

這六大新要素(可解釋性、偏差、特征工程、超參數、生產就緒和動態模型校準)代表了對傳統驗證框架最根本的增改。

可解釋性(Interpretability)

受模型架構的牽制,機器學習生成的結果有時會難以理解或作詮釋。因而,機器學習又常被稱為黑匣子。例如,為了幫助業務經理交叉銷售,某銀行花費數月開發了一個基于機器學習的產品推薦引擎。然而,由于業務經理無法理解模型為何會做此推薦,便決定無視這些建議,甚至對模型采取置之不理的態度。這種忽視會直接帶來人力資源的浪費,甚至可能還會錯失商業機會。不過,如果一味地聽從模型并采取行動,而不深究其背后的原因,可能也會帶來嚴重的后果。

對銀行而言,決定機器學習模型的可解釋性應到達何種程度,是銀行應根據其自身風險偏好而作出的一個政策規定。銀行可以規定所有機器學習模型的可解釋性都必須保持在統一的高標準,也可以選擇根據模型風險的不同而進行具體區分。以美國為例,決定是否批準借貸申請的模型受美國公平信貸法管轄,因此,當模型做出拒絕的決定時,必須提供明確的原因代碼。有些時候,銀行可能會認為,機器學習模型做出的某些決策不會對銀行帶來太多風險——如在特定客戶的移動應用上投放產品廣告。在這種情況下,了解模型做此決定的原因就沒那么重要了。

驗證人員還需確保模型符合所選策略。幸運的是,盡管機器學習模型一直有黑匣子的別稱,但近年來,我們確實在其結果的可詮釋性方面取得了重大進展。基于模型類別,我們可從一系列方法中做選擇:

  • 線性且單調模型(如線性回歸模型):線性回歸系數有助于揭示模型結果對輸入的依賴程度。

  • 非線性但單調模型(如有單調性約束的梯度提升模型):通過限制模型輸入(自變量)和函數值(因變量)具有全域上升或下降的關系,從而簡化輸入對預測的貢獻。

  • 非線性非單調(如非約束的深度學習模型):可采用LIME(Local Interpretable Model-Agnostic Explanations)Shapley值,以確保局部可解釋性。

偏差(Bias)

一般來說,模型主要會受到四種偏差的影響:樣本偏差、測量偏差、算法偏差,以及對特定人群偏見的偏差。在機器學習模型中,后兩種類型(即算法和偏見)的偏差可能會被放大。

具體來看,隨機森林算法傾向于采用價值更為明確的輸入值,但這樣會增加決策欠佳的風險。例如,某銀行開發了一個隨機森林模型,以期識別潛在的洗錢活動。他們發現,該模型傾向于采用具有大量分類值的字段(如職業)。但事實上,某些分類值較少的字段(如國家)則能更好地預測洗錢的風險。

為解決算法偏差,我們應更新模型驗證過程,以確保在任何給定情況下,都能選擇出合適的算法。當然,有時候也存在一些技術解決方案,比如隨機森林模型的特征選擇。如果沒有技術解決方案,便可換種思路,比如建立挑戰者模型,即用其他算法來對標該算法的表現。

想要解決針對特定人群的偏見偏差,銀行必須首先確定,公平的評判標準是什么。以下四個評判標準最廣為人知,但具體的使用情況還要視模型的選擇而定:

  • 人群無關性:機器學習做出的決策基于一系列有限的特征集,但這些特征與受保護的人群——即受法律或政策保護的人群——相關度極低。

  • 人群均等: 所有受保護人群的特征值按比相等。

  • 機會均等所有受保護人群的真陽性率相等。

  • 幾率相等所有受保護人群的真陽性率和假陽性率相等。

模型驗證者需要確認開發者已經采取了必要的措施來保證公平。在模型開發的各個階段,驗證者可對這些模型進行公平性測試,在必要的情況下,會對從模型設計到模型性能監控的各個階段進行修正。

特征工程(Feature engineering)

相較于傳統模型,機器學習模型的特征工程更為復雜。原因有以下幾點:第一,機器學習模型可以容納海量的信息。第二,機器學習模型基于非結構化的數據源(如自然語言),而這些非結構化數據通常在數據集訓練前就需要特征預處理。第三,現在已有越來越多的商業機器學習包都在提供所謂的自動機器學習(AutoML),自動機器學習可以生成大量的復雜特征來測試多種數據轉換。使用這些特征產生的模型可能會非常復雜,從而導致過度擬合。比如說,某機構使用了一個商業自動機器學習(AutoML)平臺搭建模型,結果發現,一款產品應用程序中的特定字母序列會被視作欺詐行為。這是算法為了實現模型樣本外性能最優,而得到的錯誤結論。

在特征工程中,銀行也需要制定相應的政策來降低風險。比如,銀行必須明確,為實現每一個特征的概念完備性需要多少支持。當然,隨著模型應用場景的不同,政策的設定也會有差別。比如說,如果是一個受到嚴格監管的信用決策模型,銀行可能就需要仔細評估模型中的所有特征。而對于風險較低的新型模型,銀行也許僅僅審視一下特征工程的處理流程(如數據轉換和特征排除)就可。

接下來,模型驗證者應確保,特征及特征工程過程與相應的風險政策互相吻合。在針對某個特征進行測試時,模型驗證者通常會考慮三點:模型輸入的正確轉換、特征選擇的標準,和特征對應的商業邏輯。例如,銀行可能會認為,與客戶使用自動取款機的頻率(ATM usage)相比,將客戶的債務收入比(debt-to-income ratio)納入信貸模型建模的特征會更為理想。這一決定從商業角度來看十分合理,因為客戶使用ATM機本來就是銀行所倡導的,不應為此而受到政策上的懲罰。

超參數(Hyperparameters

在訓練過程開始前,機器學習模型的許多參數都應得到明確的定義,如隨機森林模型中樹的深度,或深層神經網絡中的層數等。換句話說,它們的值并不是從可用數據中派生的。從經驗來看,那些用于解決其他問題的參數,甚至是用于反復試驗的參數,都是常見的替代品。在統計建模中,有關這類參數(稱為超參數)的決策,通常都要比類似的決策更為復雜。令人不足為奇的是,模型本身的性能及穩定性,也會視所選超參數而改變。例如,銀行越來越多地在使用二進制分類器,如結合支持向量機和自然語言處理,以識別客戶投訴中潛在的行為準則風險。選定的內核函數不同,這些模型的性能和泛化能力可能也會十分不同。

模型驗證者應當確保,所選的超參數越正確越好。與定性型輸入不同,在某些定量性的輸入上,可以使用特定的搜索算法來確定參數空間的最優范圍。在其他情況下,選擇超參數的最佳方法,是將專家判斷與可以獲知的最新行業實踐相結合。

生產就緒(Production Readiness

不同于規則驅動型的傳統模型,機器學習模型由算法驅動,因此需要的計算過程也更多。在模型開發過程中,對計算的要求通常會被忽視。現實情況是,模型開發人員在構建完復雜的預測模型后,卻往往發現銀行現有生產系統無法給予支持。例如,某家美國銀行投入了大量資源,建立起一個基于深度學習的模型來預測欺詐交易,結果卻發現,它根本無法達到系統運行所需的標準。

在傳統模型驗證框架中,與模型實施相關的系列風險都得到了有效的評估和審核。但對機器學習模型而言,相關風險評估的范圍還需進一步擴大,比如預估模型將會擁有的數據流量、評估生產系統的體系架構(如用于深度學習的圖形處理單元),以及估算相應的運行時間。

動態模型校準(Dynamics model calibration

有別于傳統的定期手動審閱及更新模式,機器學習模型可以通過強化學習算法,或貝葉斯模型來動態修改其參數,以反映數據中隱含的新態勢。值得注意的是,如果監督不夠,隨著時間的推移,過度強調數據的短期態勢可能會損害模型的性能。

因此,銀行需要明確動態重校準的觸發規則。比如,它們可能會認為,只要監督得當,類似于算法交易的部分應用可以進行動態重校準。但對其他應用,如信用決策而言,則需有明確的證據表明,動態重校準確確實實要優于靜態模型,這樣才可采取相應的操作。

明確了相應的規則后,模型驗證者便可根據模型的預期用途,來評估是否需要采用動態重校準,并制定相應的監測和控制手段來識別和減輕潛在風險。比如,預先設定好反映模型運行發生重大變化的指標(如樣本外性能評價指標)閾值,和其他預定義值(如風險敞口上限值),這樣才能判斷是否需要人工評估的干預。

針對機器學習和人工智能技術的普及,銀行業需要逐步開展和完善相應的風險管理工作。銀行要做的第一步,就是確保所有現存的機器學習模型都已被納入模型清單中。以一家銀行為例,其模型風險管理部門一直認為,該銀行并沒有使用機器學習模型。直到最近他們才發現,其新成立的創新部一直在忙于開發用于反欺詐和網絡安全的機器學習模型。

為了有效管理機器學習模型的風險,銀行可以考慮擴展現有的傳統模型驗證策略。考慮到模型性能的監測和優化需要長時間的積累,銀行可以先對部分特定的機器學習模型進行管理,積累更多經驗后,再在未來逐步將這些驗證策略推廣至各類機器學習模型。若能有效發揮機器學習的技術威力,銀行可顯著降低風險。

亞洲實踐

隨著機器學習的推廣,亞洲金融機構也會日益將其視作一種流行的技術手段,廣泛用于商業決策和風險管理等領域。這種局面出現后,如何有效控制相應的模型風險,也會成為各大金融機構的焦點所在。

近期,東南亞某商業銀行就在遵從上述模型驗證框架,從初始診斷開始,逐漸建立起整體模型風險任務、模型風險政策和治理框架,以明確模型生命周期中的各個角色與職責。他們還建立了中央模型庫存,以便管理所有使用的模型。除去使用模型分層法,在每個模型層分別建立起相應的驗證標準外,他們還將模型風險引入了高管KPI,并建立起了一套模型風險實時報告體系。針對復雜度更高的機器學習模型,這家商業銀行建立了相應的驗證標準,有效且高效地進行了模型驗證工作。

作者

Kevin Buehler是麥肯錫全球資深董事合伙人,常駐紐約分公司;

Adam Pivonka是麥肯錫Risk Dynamics全球副董事合伙人,常駐紐約分公司;

Bryan Richardson是麥肯錫資深知識專家,常駐溫哥華分公司;

Derek Waldron是麥肯錫全球董事合伙人,常駐紐約分公司;

Bernhard Babel是麥肯錫自身外部顧問。

© 世界經理人:自1999年創立以來,世界經理人網站(www.xfeuqk.live)致力于引導職業經理人實現卓越管理,以專業的形象為經理人用戶全方位提供最佳管理資訊服務和互動平臺。

    

 
 

今日聚焦

 
廣告
廣告

世界經理人網站App下載

熱門排行榜

  • 熱門
  • 經典
  • 管理
  • 文章
  • 論壇
  • 博客
 
 
資訊訂閱
世界經理人 iPhone APP
世界經理人微信 為你推送和解讀最專業的管理資訊
三分赛车app