首頁 > 產經 > 正文

如何應對AI可解釋性危機,解釋和驗證更應關注哪個?

2022-03-25 21:22:30 來源:澎湃新聞

當前人工智能落地應用的繁榮很大程度上來自于機器學習(Machine Learning)尤其是深度學習(Deap Learning)的技術發展,但智能背后空茫的無法理解不可解釋始終讓人們質疑人工智能是否必須可解釋才能用于一些高風險場景,尤其是在醫療保健、金融和政府等關鍵領域。

深度學習即深度神經網絡(Deap Neural Network),其特征在于無需經過特點人為干預設計就能自主從大量數據中學習并構建規律體系。然而在AI深度學習模型輸入數據和輸出結果之間,在復雜結構層級的人工神經網絡中,是大量人類難以理解的代碼和數值,無法準確解釋AI在特定情況下做出特定預測的緣由。

這就是很多人聽說過的“AI可解釋性危機”。

3月23日,《Fortune》在一篇文章中指出,人工智能存在可解釋性危機,但它可能不是你想的那樣。在其文章末尾更是表達了“當談到現實世界中的人工智能時,我們應該關心的不是解釋而是驗證”的觀點。

所以,對可解釋人工智能的追求有什么問題呢?

“我們認為,通過當前的可解釋性方法建立信任的愿望代表了一種虛假的希望:即個人用戶或受人工智能影響的用戶能夠通過審查解釋(即特定于該單個決定的解釋)來判斷人工智能決策的質量。那些使用此類系統的人可能誤解了當代可解釋性技術的能力——它們可以在一般意義上產生對人工智能系統如何工作的廣泛描述,但對于單個決策,這些解釋是不可靠的,或者在某些情況下,只能提供膚淺的解釋水平。”近日,麻省理工學院計算機科學家Marzyeh Ghassemi,澳大利亞機器學習研究所放射科醫生兼研究員Luke Oakden-Rayner和哈佛大學公共衛生學院流行病學系研究員Andrew Beam在醫學雜志《柳葉刀數字健康》上發表的一篇論文中寫道。

為機器學習決策產生人類可理解的解釋的嘗試通常分為兩類:固有可解釋性和事后可解釋性。

對于輸入數據復雜性有限且易于理解的機器學習模型,量化這些簡單輸入與模型輸出之間的關系稱為固有可解釋性。比如從一開始就訓練AI來識別某種疾病的原型特征,像肺部存在“毛玻璃”圖案,然后告訴醫生它認為檢查的圖像與原型的匹配程度有多接近。

這看起來直觀簡單,但作者發現,這也很大程度上取決于人類的解釋——是否選擇了正確的原型特征,并在得出結論時對每個特征進行了適當的加權。

即使是固有可解釋模型也會因存在無法識別的混雜因素而難以真正生效。更別說在許多現代人工智能用例中,數據和模型過于復雜和高維,不能用輸入和輸出之間的簡單關系來解釋。

事后可解釋性思路是通過各種途徑剖析其決策過程。一種流行的事后可解釋性形式稱為熱圖,熱圖突出圖像的每個區域對給定決策的貢獻程度,并且具有說明性,常用在醫學成像模型中。

圖說:用于檢測胸部X光肺炎的深度學習模型的事后解釋方法生成的熱圖(根據深度神經網絡,較亮的紅色表示重要性級別較高的區域,較深的藍色表示重要性級別較低的區域)

但Ghassemi等研究發現,本應解釋為什么AI將患者歸類為肺炎的熱圖,即使是圖中“最熱區域”(最影響判斷區域)也包含著在醫生看來有用和無用的信息,簡單地定位該區域并不能準確揭示模型認為有用區域的確切內容。

“臨床醫生不知道該模型是否恰當地確定了空域混濁的存在在決定中很重要,心臟邊界或左肺動脈的形狀是否是決定因素,或者該模型是否依賴于與人類不相關的特征,例如特定的像素值或紋理,可能與圖像采集過程有關,而不是潛在疾病,” Ghassemi、Oakden-Rayner和Beam寫道。

他們指出,在缺乏此類信息的情況下,人類傾向于假設人工智能正在研究人類臨床醫生會發現的重要特征。這種認知偏差會使醫生對機器學習算法可能犯的錯誤視而不見。

研究人員還發現了其他流行的可解釋性方法的缺陷,如GradCam、LIME和Shapley Values。其中一些方法通過改變輸入的數據點,直到算法做出不同的預測,然后假設這些數據點對原來做的預測來說一定是最重要的。

但這些方法與熱圖有同樣的問題——它們可能會識別出對決策很重要的特征,但它們不能準確告訴醫生為什么算法認為這些特征很重要。如果這個特征讓醫生覺得違反直覺,醫生該怎么做?斷定算法是錯誤的,還是斷定它發現了以前醫學未知的臨床重要線索?任何一個都有可能。

更糟糕的是,不同的最新解釋方法在對算法結論的解釋上經常存在分歧。在2月8日發表的《可解釋機器學習中的分歧問題:從業者的視角》論文中,來自哈佛大學、麻省理工學院、卡內基梅隆大學和德雷克塞爾大學的研究人員發現,在現實世界中,大多數使用算法的人都無法解決這些差異,而且通常,正如Ghassemi等學者所建議的那樣,他們只是簡單地選擇了最符合他們現有想法的解釋。

卡內基梅隆大學計算機科學教授Zachary Lipton在接受《Fortune》采訪時表示,“醫療保健領域領域每個認真的人都知道,當今大多數可解釋的AI都是無稽之談。”Lipton表示,在他們的醫院部署了一個據稱可解釋的AI系統來解釋醫學圖像后,已經有許多放射科醫生向他尋求幫助,這些圖像的解釋沒有意義——或者至少,與放射科醫生真正想要的東西無關。

然而,公司繼續將他們的AI系統推銷為“可解釋的”,Lipton表示,因為他們認為他們必須這樣做才能進行銷售,“他們說,‘如果沒有解釋,醫生不會相信它。’ 但也許他們不應該相信它。”

根據《英國醫學雜志》(The BMJ)2020年發表的一項研究,在最壞的情況下,提供解釋是為了掩蓋醫學成像中使用的大多數深度學習算法都沒有受到嚴格的雙盲隨機對照試驗,而這些實驗在新藥被批準之前是必須的。

“我們建議可解釋AI的最終用戶,包括臨床醫生、立法者和監管機構,要意識到當前存在的可解釋AI的局限性。我們認為,如果希望確保人工智能系統能夠安全可靠地運行,那么重點應該放在嚴格和徹底的驗證程序上。”Ghassemi、Oakden-Rayner和Beam得出了一個有點違反直覺的結論,即醫生不應該專注于解釋,而應該關注AI的作用效果,以及其是否經過了嚴格、科學的測試。

他們指出,醫學充滿了醫生使用的藥物和技術,因為它們起作用,盡管沒有人知道為什么——對乙酰氨基酚已被用于治療疼痛和炎癥一個世紀,盡管我們仍然不完全了解其潛在機制。?

關鍵詞: 如何應對

本網站由 財經產業網 版權所有 粵ICP備18023326號-29
聯系我們:85 572 98@qq.com