中文在线免费视频,欧美亚洲桃花综合,日本中文字幕在线视频站,欧美精品一区二区三区观

沈艷:數字金融發(fā)展中的數據治理挑戰

發(fā)布日期:2021-04-26 10:41    來(lái)源:

導語(yǔ):近年來(lái),數字金融市場(chǎng)發(fā)生的風(fēng)險事件,表明與大數據相關(guān)的金融基礎設施不足,是新金融業(yè)態(tài)存在新風(fēng)險隱患的主要原因之一。對模型算法討論的缺失,導致在數字金融發(fā)展過(guò)程中存在一些認識上的誤區,這種誤區可能帶來(lái)治理偏誤。本文旨在從對模型算法治理的角度來(lái)討論數字金融發(fā)展中需要應對的大數據治理挑戰,并針對數據治理提出了相關(guān)政策建議。


隨著(zhù)互聯(lián)網(wǎng)、大數據、云計算、區塊鏈、人工智能等技術(shù)在金融業(yè)的廣泛應用,我國數字金融市場(chǎng)蓬勃發(fā)展。根據銀保監會(huì )和中國人民銀行發(fā)布的《2019年中國普惠金融發(fā)展報告》,2019年全國使用電子支付的成年人比例達82.39%。在新冠肺炎疫情沖擊中,我國互聯(lián)網(wǎng)銀行對小微企業(yè)發(fā)放的貸款及時(shí)幫助小微企業(yè)擺脫困境,發(fā)揮了災害情況下的經(jīng)濟穩定器作用。我國數字金融的一些業(yè)務(wù)模式也已經(jīng)走在世界前列。根據國際貨幣基金組織(International Monetary Fund,簡(jiǎn)稱(chēng)IMF)的測算,我國數字金融公司估值已經(jīng)超過(guò)全球總估值的70%,其中2016年中國個(gè)人移動(dòng)支付總額達7900億美元,是美國的11倍;中國最大的移動(dòng)支付提供商的處理能力大約是美國同行的3倍。總體來(lái)看,我國對數字金融助力普惠金融、促進(jìn)經(jīng)濟高質(zhì)量增長(cháng)方面,寄予厚望。

但要促進(jìn)數字金融市場(chǎng)進(jìn)一步健康發(fā)展,就不能忽視金融基礎設施中的短板。近年來(lái),數字金融市場(chǎng)發(fā)生的風(fēng)險事件,表明與大數據相關(guān)的金融基礎設施不足,是新金融業(yè)態(tài)存在新風(fēng)險隱患的主要原因之一。例如,我國個(gè)體對個(gè)體網(wǎng)絡(luò )借貸在過(guò)去的十多年經(jīng)歷了萌芽、繁榮、興盛和衰落的過(guò)程。仔細梳理這一過(guò)程可發(fā)現,雖然滿(mǎn)足個(gè)人旺盛的金融需求、幫助中小企業(yè)解決“貸款貴、貸款難”問(wèn)題的初衷良好,但在我國數字金融基礎設施還比較落后,尤其是缺乏廣泛可靠的個(gè)人征信系統的情況下,構架于其上的業(yè)務(wù)模式商業(yè)不可持續,而最終的失敗難以避免。

金融基礎設施中,與數據要素密切相關(guān)的是信息基礎設施(涉及信息記錄、數據分析和計算能力三方面)和監管基礎設施中的數據隱私監管。而與金融大數據治理相關(guān)的問(wèn)題主要有四個(gè):一是如何構建金融大數據要素市場(chǎng);二是如何做好數據隱私和信息安全管理;三是如何甄別和處置數據壟斷;四是如何做好模型算法等方面的管理。對于前三個(gè)問(wèn)題,相關(guān)研究和討論已經(jīng)展開(kāi)。政府和業(yè)界分別對打破數據壟斷也有探討,但是對數字金融市場(chǎng)中算法治理討論較少。

對模型算法討論的缺失,導致在數字金融發(fā)展過(guò)程中存在一些認識上的誤區。例如,一些觀(guān)點(diǎn)認為,采用金融大數據一定比采用傳統數據更好;基于金融大數據的分析更科學(xué)更公正;基于機器學(xué)習模型設計的產(chǎn)品因為沒(méi)有人工干預因而比傳統決策體系更優(yōu)越;進(jìn)而將“零人工干預”作為業(yè)務(wù)的一個(gè)主要優(yōu)勢加以宣傳。但上述觀(guān)點(diǎn)是否成立,既取決于對大數據的作用是否有充分恰當的評估,也取決于對金融決策中人的作用的理解。由于目前機器學(xué)習算法重相關(guān)關(guān)系,而不重基于挖掘金融內在發(fā)展規律的因果關(guān)系分析,決策中高估大數據分析的模型算法優(yōu)勢而忽略人的作用,就會(huì )帶來(lái)新的金融風(fēng)險隱患。|

本文旨在從對模型算法治理的角度來(lái)討論數字金融發(fā)展中需要應對的大數據治理挑戰。分析金融領(lǐng)域“大數據自大”的潛在危害,討論忽略大數據算法模型等數據治理可能產(chǎn)生偏誤的原因,并提出相關(guān)政策建議。

“大數據自大”的潛在危害

2014年大衛·拉澤(David Lazer)等學(xué)者提出的“大數據自大”(Big Data Hubris),針對的是高估大數據分析的作用、但忽略其中潛在問(wèn)題的現象。大衛·拉澤等學(xué)者是在《科學(xué)》雜志發(fā)文討論谷歌公司流感趨勢預測出現重大偏差的原因時(shí)提出上述觀(guān)點(diǎn)。2008年11月,谷歌公司啟動(dòng)了谷歌流感趨勢(Google Flu Trends,簡(jiǎn)稱(chēng)GFT)項目,目標是預測美國疾控中心報告的流感發(fā)病率。2009年,GFT團隊在《自然》發(fā)文稱(chēng),只須分析數十億搜索中45個(gè)與流感相關(guān)的關(guān)鍵詞,GFT就能比美國疾控中心提前兩周預報2007—2008季流感的發(fā)病率。但該研究發(fā)現,2009年GFT沒(méi)有能預測到非季節性流感A-H1N1;并且從2011年8月開(kāi)始的108周里,GFT有100周高估了美國疾控中心報告的流感發(fā)病率,高估程度達1.5倍~2倍多。

他們認為,這些估計偏差反映了“大數據自大”這樣一個(gè)理念,就是大科技企業(yè)擁有的“海量數據”就是“全量數據”,采用這樣的數據做分析比科學(xué)抽樣基礎上形成的傳統數據更優(yōu)越、更可靠、更讓我們接近客觀(guān)真理。但他們對GFT項目的評估表明,這樣的看法并不正確。
在數字金融領(lǐng)域,如果沒(méi)有恰當的模型算法治理,基于金融大數據分析的產(chǎn)品和業(yè)務(wù)模式可能產(chǎn)生決策“知其然不知其所以然”、出現“算法歧視”等問(wèn)題,甚至可能產(chǎn)生算法腐敗的問(wèn)題。

忽略算法模型治理可能產(chǎn)生偏誤的原因

基于金融大數據的預測模型的具體執行步驟可以被分為三個(gè)過(guò)程:學(xué)習過(guò)程、測試過(guò)程和應用過(guò)程。以預測貸款人是否會(huì )逾期這一機器學(xué)習任務(wù)為例,首先需要獲得歷史的貸款數據,其中既要包括有逾期的人員也要包括沒(méi)有逾期的人員。然后將這一數據分為兩部分:訓練集和測試集。第三步,用訓練數據訓練模型,得到相應參數;再用測試數據來(lái)檢驗預測能力的高低,進(jìn)而調整參數得到最好的模型。最后,預測能力最強的模型會(huì )被用于實(shí)際場(chǎng)景中。

從上述步驟可知,實(shí)際應用中基于金融大數據模型的優(yōu)勢需要滿(mǎn)足以下三個(gè)條件:第一,實(shí)際應用數據和歷史數據沒(méi)有重大結構變化;第二,訓練數據有充分的代表性;第三,模型有可解釋性,并且應用者能及時(shí)評估模型的適用性。如果這三個(gè)條件不能滿(mǎn)足,那么基于金融大數據的模型就可能帶來(lái)額外風(fēng)險。

歷史數據和未來(lái)數據不相似。金融大數據至少有兩個(gè)不同于傳統數據的特征:一是結構變化更難檢驗,二是金融大數據的生成機制更復雜多變。這就容易導致用于訓練和測試的歷史數據和預測使用的未來(lái)數據不相似。

金融大數據存在不易檢驗的結構變化。由于我國數字經(jīng)濟和數字金融領(lǐng)域運用大數據的時(shí)間還比較短,跨越較長(cháng)經(jīng)濟周期、體量大、顆粒度細的大數據系統尚在建設中。而大數據分析所依據的機器學(xué)習或者深度學(xué)習模型,都假定了訓練數據的生成機制和真實(shí)數據的生成機制是相似的,即不存在重大結構性變化。和傳統數據不同的是,大數據難以在不同研究機構之間分享、不少算法模型如同“黑匣子”,難以用經(jīng)典的檢驗數據結構變換的模型去識別數據是否產(chǎn)生了重大結構變化。在這樣的情況下,當經(jīng)濟和金融領(lǐng)域出現重大結構性變化,但是算法依據的模型無(wú)法快速發(fā)現這種變化還繼續沿用過(guò)去運行良好的模型,就會(huì )出現預測不準的現象。

金融大數據的生成機制受生成平臺的運營(yíng)活動(dòng)影響。和傳統數據的生成機制不同,大數據不再是由政府特定部門(mén)或者特定機構主持收集,而是經(jīng)濟社會(huì )主體運營(yíng)中產(chǎn)生的副產(chǎn)品,因此大數據生成受平臺自身運營(yíng)狀況影響。例如,金融大數據分析中,不少模型加入個(gè)體的社交媒體信息作為風(fēng)控的額外維度,對這類(lèi)數據的分析常常建立在一個(gè)假定之上,即社交媒體上用戶(hù)的多少、活躍度等,客觀(guān)反映了人們對社交媒體的使用狀況。但實(shí)際收集到的用戶(hù)數據是用戶(hù)自身因素和平臺運營(yíng)管理共同作用的結果。

又如,最初某旅游信息平臺記錄保存客戶(hù)信息的動(dòng)機僅僅是本公司發(fā)展業(yè)務(wù)需要,并沒(méi)有對客戶(hù)采取分層定價(jià);但在精準營(yíng)銷(xiāo)下采用了“大數據殺熟”,提高了對優(yōu)質(zhì)客群的定價(jià)。客戶(hù)在發(fā)覺(jué)后選擇離開(kāi)該平臺,導致客群整體質(zhì)量下降。當該科技公司和金融機構合作時(shí),這一客群質(zhì)量的下降并非由于經(jīng)濟金融狀況惡化導致,而是由于合作公司自身的利益訴求帶來(lái),如果不能識別這一變化原因,金融機構會(huì )在相應的借貸決定中產(chǎn)生偏差。

另一個(gè)影響金融大數據生成機制的是算法調整。例如,某支付平臺的主要目標是幫助用戶(hù)實(shí)現方便快捷的支付。為了實(shí)現這一目標,數據科學(xué)家與工程師不斷更新算法,讓用戶(hù)可以有越來(lái)越好的用戶(hù)體驗。這一策略在商業(yè)上非常必要,但在數據生成機制方面卻導致不同時(shí)期的數據不可比。如果數據分析團隊和算法演化團隊沒(méi)有充分溝通,數據分析團隊不知道算法調整對數據生成機制的影響,就會(huì )誤將數據變動(dòng)解讀為市場(chǎng)真實(shí)變動(dòng)而帶來(lái)誤判。

金融大數據的代表性需要驗證。目前,金融科技公司和金融機構之間的助貸和聯(lián)合貸款,在發(fā)揮金融科技公司的技術(shù)優(yōu)勢、金融機構的資金優(yōu)勢,提高資金配置效率方面,發(fā)揮了重要作用。但不容忽視的是,金融科技公司和金融機構都有其特定的客群,因此適用于某一平臺的客群分析或者某一地區適用于該地區金融科技公司和金融機構的合作模式是否可以外推到其他地區,也就是金融大數據是否具有代表性的問(wèn)題,都需要進(jìn)一步驗證。

這一問(wèn)題的重要性可以用2020年人工智能領(lǐng)域熱議的事件來(lái)佐證。當時(shí)使用者輸入奧巴馬低分辨率照片后,PULSE算法輸出了高分辨率白人圖片,而對這一偏差最主要的解釋?zhuān)褪怯柧毤械恼掌蠖鄶凳前兹苏掌H绻鹑诳萍脊镜奶囟腿簲祿陀柧毤械陌兹藞D片類(lèi)似,而金融機構的目標客戶(hù)群和奧巴馬的圖片類(lèi)似,那么就會(huì )出現代表性不足的問(wèn)題。例如,新冠肺炎疫情暴發(fā)之初對餐飲行業(yè)影響較大,如果采用某餐飲行業(yè)平臺產(chǎn)生的大數據分析得到的小微企業(yè)沖擊嚴重程度,進(jìn)而指導全市其他行業(yè)小微企業(yè)的貸款發(fā)放,就可能高估不良率的發(fā)生。

不少金融大數據分析模型可解釋性低。基于金融大數據分析的模型在極大提高了運算效率的同時(shí)也有代價(jià),模型解釋性低就是一個(gè)主要問(wèn)題。其中,常用的模型包括在邏輯斯蒂模型、決策樹(shù)模型(如隨機森林、梯度提升模型),支持向量機模型、卷積神經(jīng)網(wǎng)絡(luò )模型等。這些模型的共同特征是致力于尋找最優(yōu)的預測,因此探尋不同經(jīng)濟金融特征與預測目標之間的因果關(guān)系,并不是機器學(xué)習模型分析的重點(diǎn)。這就產(chǎn)生了兩個(gè)不容忽視的問(wèn)題:一是“知其然不知其所以然”,除了邏輯斯蒂模型對于數據生成機制作出較為清晰的假定、參數含義較為清晰之外,其余模型從輸入到輸出表現為“黑匣子”;二是忽略了模型結果實(shí)際存在的主觀(guān)性。

以金融機構是否需要給個(gè)人發(fā)放貸款這一決策為例。以大數據中維度可能是成千上萬(wàn)客戶(hù)數據作為輸入錄入模型后,模型最終會(huì )給出具有某些特征的人可以發(fā)放貸款,而另一些特征的人不應發(fā)放的預測。在傳統金融模式下,貸款發(fā)放于貸款責任人之間有密切關(guān)系,這就要求信貸員對于自己發(fā)放貸款的理由有清晰的認識。但基于機器學(xué)習的模型只給出了“發(fā)或者不發(fā)”的決策建議,并不會(huì )給出“為什么發(fā)或者不發(fā)”的原因,這就會(huì )讓“知道你的客戶(hù)”失去抓手。

另一個(gè)常見(jiàn)誤區是,既然貸款發(fā)放決策由機器學(xué)習模型決定,那么這一決策一定比人做更客觀(guān)。但由于較為復雜的機器學(xué)習模型需要由人事先設定參數,而模型越復雜需要設定的參數越多。例如,用一個(gè)卷積神經(jīng)網(wǎng)絡(luò )模型做有監督的分類(lèi)決策可能需要事先設定上百萬(wàn)參數。參數過(guò)多的情況下,設定會(huì )存在較大主觀(guān)性,導致更為復雜機器學(xué)習模型的結果未必更好的現象。

在介紹自身大數據分析優(yōu)勢時(shí),不少平臺強調“零人工干預”帶來(lái)的效率改進(jìn)。上述分析表明,在數據體量大不容易識別結構性變遷、數據代表性不清晰、數據生成機制變化有經(jīng)濟金融之外的因素、模型可解釋性低的情況下,應當慎言“零人工干預”。這是因為,在金融大數據分析還存在上述諸多挑戰的情況下,如果大量貸款決策都是“零人工干預”,也就是將決策責任從人轉移到機器,那么當模型預測能力下降時(shí),就難以分別產(chǎn)生的原因究竟是數據問(wèn)題、是算法問(wèn)題、是外部環(huán)境問(wèn)題,還是內部治理問(wèn)題,出現既不了解自己的客戶(hù)、又不了解自己的現象。這樣的數據治理架構的金融安全隱患顯然不容小覷。 

加強金融大數據治理的建議

提高大數據使用的透明度,加強對大數據質(zhì)量的評估。由于大數據體量大、分析難度高等問(wèn)題,不僅大數據的收集過(guò)程可能是“黑箱”,大數據分析也可能存在過(guò)程不透明的現象。例如在GFT案例中,研究人員指出,谷歌公司從未明確用于搜索的45個(gè)關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調整了數據算法,但是谷歌并沒(méi)有公開(kāi)相應數據,也沒(méi)有解釋這類(lèi)數據是如何搜集的。與透明度相關(guān)的是,大數據分析結果的可復制性問(wèn)題。由于谷歌以外的研究人員難以獲得GFT使用的數據,因此就難以復制、評估采用該數據分析結果的可靠性。這種數據生成和分析的“黑箱”特征,容易成為企業(yè)或者機構操縱數據生成過(guò)程和研究報告結果的溫床。通過(guò)推動(dòng)金融大數據分析的透明化,建立其健康的數據分析文化,是夯實(shí)金融信息基礎設施的重要步驟。

在保護隱私和數據安全的基礎上,通過(guò)加大傳統數據和大數據的開(kāi)放共享力度來(lái)解決單個(gè)企業(yè)數據顆粒度較高但代表性不足的“信息孤島”問(wèn)題。在具體執行上,可以按照數據的所有權屬性差異分層施策。對作為公共產(chǎn)品的數據,政府部門(mén)需要在不涉密的情況下,盡可能向社會(huì )和公眾開(kāi)放政府數據。對大數據征信產(chǎn)品這類(lèi)準公共產(chǎn)品,可采用俱樂(lè )部付費式的產(chǎn)品模式,并推動(dòng)政府推動(dòng)設立的公司和相關(guān)金融科技公司合作聯(lián)合開(kāi)發(fā)相關(guān)征信數據。對基于大量個(gè)人數據、數據所有權界定困難的大數據,可以通過(guò)安全多方計算、同態(tài)加密、聯(lián)邦學(xué)習等技術(shù)研發(fā),允許擁有數據的各方在不像其他機構公開(kāi)數據敏感信息的情況下,實(shí)現數據共享與利用。最后,可進(jìn)一步探索開(kāi)放銀行模式和數據信托模式等在不同場(chǎng)景中的適用性。

推動(dòng)數據和模型算法審計工作。要求企業(yè)發(fā)布經(jīng)審計的財務(wù)報表是國內外為保障金融市場(chǎng)健康運轉、保護相關(guān)方利益的通行做法。這一做法的邏輯是,由于公司內部運作狀況對外部投資者來(lái)說(shuō)也像“黑匣子”,經(jīng)理人就可能會(huì )濫用對投資者的這一信息優(yōu)勢;通過(guò)要求企業(yè)提供經(jīng)過(guò)第三方獨立審計過(guò)的運營(yíng)情況報告就可以在一定程度上遏制這一問(wèn)題。由于大數據分析的算法模型等也有類(lèi)似的“黑匣子”特征,歐美等發(fā)達國家和地區的監管機構已經(jīng)開(kāi)始探索數據和模型算法審計相關(guān)工作。例如,歐盟的通用數據保護條例就要求,企業(yè)能夠解釋他們的算法決策過(guò)程。要應對數字金融治理問(wèn)題帶來(lái)的相應金融風(fēng)險,我國應提早布局,探索金融大數據相關(guān)的算法審計的可行性、推進(jìn)對算法模型審計人員的培養。

加強算法模型治理,是夯實(shí)數字金融基礎設施中的重要一環(huán)。由于金融大數據的算法和模型不僅涉及計算機科學(xué)、機器學(xué)習方法,在使用相應模型時(shí),不應高估“零人工干預”的重要性。事實(shí)上,良好的算法和模型治理機制需要將人的創(chuàng )造性、主觀(guān)能動(dòng)性和機器與大數據的優(yōu)勢相結合。通過(guò)推動(dòng)精通計算機科學(xué)、機器學(xué)習方法、金融專(zhuān)業(yè),乃至心理學(xué)、行為經(jīng)濟學(xué)、倫理學(xué)等多個(gè)領(lǐng)域專(zhuān)業(yè)人士的共同努力,實(shí)現及時(shí)識別與解決算法模型相關(guān)問(wèn)題的目標,促進(jìn)數字金融市場(chǎng)的穩健發(fā)展。

(本文刊發(fā)于《清華金融評論》2021年3月刊,2021年3月5日出刊。)


分享到: