淺談AI的黑盒子-深度學習

淺談AI的黑盒子-深度學習

很多人跟我一樣好奇人工智慧背後到底是哪些技術,得以讓其發展如此快速。

我的工作搭上了這班列車,最近一年客戶最有興趣談AI的應用如何如何的幫助業務服務,例如利用虛擬機器人擔任虛擬客服或線上客服,跟客戶交談與聯繫;又例如應用分析與比對技術,自動在海量的金融交易中即時偵測詐欺與洗錢的可疑犯罪案例,還有如何結合臉部與聲紋辨識來自動識別客戶與身分,這些都是人工智慧廣義範疇裡的一些典型應用,而且很多都已經成熟的商業化多年。

寫這篇文章其實是個自我學習文,也分享學習的心得給有所有工作者,我前兩篇文章「AI之後薪資再凍漲」一文裡最後提到不管現在每個人的工作是什麼,不管AI最終如何實現,都應該全力擁抱AI,絕不要置身事外。

「學習」一詞在本文中特別重要,不是對我而是對AI而言,學習技術的成熟就是支撐AI的發展的比過去二十年突飛猛進的最重要原因。

無人車

我們先從無人車市場講起,現在市場上主要車廠都已經投入無人車領域,一些原來不做汽車的公司也很早就開始做無人車,因為車本身不是門檻,自動駕駛技術才是,像是GoogleTesla這樣創新的公司當然也是其中領先者,許多傳統起汽車業者也投入其中。
在傳統的汽車產業裡Audi是其中積極在這領域的公司,Audi A8採用公布了無人車計畫,宣稱已經達到SAE Level 3的程度,意思是有條件的狀態下可進行自動駕駛,並具備特定的表現能力,但適當的時機還是需要人為的介入。另一家車業者Volvo則宣稱他們的S60無人測試車已經逐步達到SAE Level 4的地步,按照SAE的定義,Level 4指的是即使在需要人為介入的時候,駕駛人並沒有即時反應,自動駕駛技術仍然能展現特定的操控能力。



撇開定義不談,這兩年在美國的鄉村道路上有一個不一樣的事情正在悄悄發生,智慧晶片製造商Nvidia合作開發的實驗車輛正在演化。按照Nvidia的說法,它與一般自動駕駛所採用的技術不同,它不遵循傳統以規則或指令編碼為基礎的邏輯判斷。相反它完全依賴於通過觀察人類的駕車行為學習駕駛的方法,意思是經由觀察、學習並教導自己如何開車的思考能力已經建立。
學習開車並上路這件事情對於人類來說表面上是容易的,重點在於駕駛本身的基本能力與知識的培養,但更深層的意義是人文、法治、道德觀所內化出來的一種複雜的社會行為,它不是只是交通規則、紅燈停綠燈走、禮讓行人這麼單純的規則而已,這些規則都可以經由感知設備、影像分析與基於指令編碼的邏輯進行自動化判斷。

依賴觀察與學習的人工智慧,我們知道它有某些神祕模型的建立,卻不清楚其決策判斷的底層是如何運作的,如同我們的大腦,雖然其思維的不透明會帶來不確定性與不安全感,從另一個角度來看,這代表人工智慧技術與運算能力的大幅提昇,是真正人工智慧時代的來臨,這些支撐AI的底層技術就是所謂「深度學習」(deep learning)。

舉例來說,當駕駛看到停在路邊的母鴨帶小鴨準備過馬路,人類的同理心會指導我們放慢速度或停車,甚至下車引導鴨群們過馬路,這個同理心也許可以被人工智慧學習,但是如果母鴨與小鴨已經停在路中心,當車輛高速行進中,人類如何評估當下的風險立刻進行急煞、閃避或直接衝撞,這個快速決策的過程其實無法有效預測,因為這與人類當下的認知、性格、習慣、身心理狀態與社會層面的所有因素都有關,這些也是人工智慧難以經由學習得到一致性結果的原因,以這個角度來看,有人認為經由模仿人類行為的人工智慧的技術可能導致令人不安的結果。

不管如何,無人車已經是趨勢,它的應用廣泛,在有條件的環境與監管情況下,由AI所引發的無人車時代的來臨令人非常期待。

棋王

人工智慧下棋這件情從經典的IBM的深藍(Deep Blue)開始說起,我們來複習一下深藍在20年前怎麼打敗當時的西洋棋王卡斯巴羅夫,深藍的名字源自其雛型「沉思」(Deep Thought)及暱稱「巨藍」(Big Blue)的電腦兩個名字合併而成,最終深藍電腦以3.52.5擊敗卡斯巴羅夫。

深藍如何下棋?它如何從成千上萬個可能的選項中準確選擇下一步棋?答案在於其創新的軟體工程和龐大平行處理能力的有效組合。

IBM聰明的工程師把過去一百年中70萬個大師比賽的數據建在資料庫裡,透過一個評估演算法函數,測量給定棋子最好位子的演算推定值,每個棋值給於基本的評價分數,深藍採用一種選擇性擴展的系統來檢查棋盤位置,讓強大的電腦更有效地搜索關鍵的棋步安排。深藍並非試圖對每個可能的位置進行詳盡的搜索,而是有方法地選擇不同的路徑來消除過程中不相關的搜索,用最快的速度完成評估與決策。

說穿了就是一個專門為了下棋而設計的電腦,當對手下一個棋步,深藍就基於當下的棋局,從龐大的資料庫裡搜尋可能的棋步,檢查當前狀態並評估最有可能贏的下法,因為資料量夠大,演算法夠先進,運算能力夠強,所以贏了棋王。

深藍的表現具爭議性,從現今的角度來看它代表的並非完全是人工智慧的里程碑,更多的是在表達另一部超級電腦的誕生。

那麼AlphaGo呢?從西洋棋換成圍棋可不是簡單的事,圍棋的棋局複雜度無法僅通過尋找最佳棋步來解決,一盤平均約有150步,每一步平均約200種可選的下法,意思是太多可能性需要被處理,以目前的運算資源來說如果還是用類似深藍那種結構性的演算法恐怕效果有限。
AlphaGo也是「深度學習」的一個最經典的應用,它強調使用蒙特卡洛樹搜索(Monte Carlo tree search)技術,在所謂深度神經網路的學習(或稱訓練)過程中模仿人類大師們的棋局,當他達到一定程度的基礎,開始設計和自己對弈的棋局,逐步強化本身的棋藝,不斷精進。

什麼是神經網路?(Neural Network或稱類神經網路)

神經網路是一個以輸入與輸出節點為基礎的複雜數學模型,簡單來說是經由大量資料投入輸入節點,並以輸出節點值為目標值,在具有回饋機制的內部節點中不斷反覆自我適應與修正,達成所謂訓練的目的,它的缺點也是它的優點,缺點是你不能解釋其適應的邏輯,優點是即使你講不出個道理來,它還是可以學習到神祕的邏輯,你也無需解釋它。

最簡單的例子是你拿過去兩年每一天很多經濟數據來當輸入,隔天的股價當輸出來訓練這個神經網路,經由兩年的數據就可以訓練出一個預測隔天股票漲跌的模型,準不準很難說,變數眾多,基本上神經網路的學習就是這個道理,越多的因子,越大量的數據,越有可能得到相對可信的模型,這也是為什麼這樣的深度學習總是需要龐大的運算資源,據稱在AlphaGo 2015年的分散式版本就用了多達1920CPU280GPU

認知

再來看一下最近十年IBM所發展的另一個重點領域 認知科學,也就是Watson人工智慧系統,初期發展的指標性里程碑就是2011年的經典秀,Watson參加電視Jeopardy!的益智問答節目,這個節目的遊戲,參加的人必須等到主持人將每個問題念完後進行搶答,先按下搶答器按鈕的人可以獲得回答問題的機會,經過三輪的比賽Watson,沃森打敗了最高獎金得主和連勝紀錄保持者詹寧斯。

IBM藉由參加這樣一個高度人機互動的比賽來強調其高超的認知、理解與搜尋能力,Waston是能夠使用自然語言來回答問題的人工智慧系統,IBM介紹時說「它是一個結合高級自然語言處理、訊息檢索、知識表示、自動推理、機器學習等開放式問答技術的應用」,並且是基於為假設認知和大規模的證據搜集、分析、評價而開發的深度問答技術。

根據IBM說法,Watson的資料來源包括百科全書、字典、詞典、新聞和文學作品。它最重要的核心技術之一也是「深度學習」,經由學習的認知科學可以應用在多個領域,主要在協助決策分析的專業工作上。

例如醫學, 2015IBM醫療健康部門成立,收購幾家醫療資料管理、醫學影像等公司,隨後便推出人工智慧癌症治療輔助系統,提供醫生治療建議與專業諮詢。

複雜的氣象預測是另一個應用,2015IBM併購The Weather Company,整合於氣象資訊服務提供更精準與多元的氣象預測與資訊服務。

另一個經典應用是廣告分析,IBM提供以Watson為基礎的影像內容分析服務,使用語氣分析、個性洞察等API來分析影像內容資料,協助媒體和廣告業者更容易管理各種影像資料,透過分析結果來製作符合目標客群的媒體內容。

根據IBM的說法,今年之後Watson的重點商業應用領域有三大方向,個人與企業報稅、智能監測電梯和自動扶梯、客服支援等領域,已經由一些銀行跟Watson合作開發智能機器人服務銀行客戶。

姑且不論這些應用是否只是噱頭(宣示意義大於實質效益),可以想見這樣一個高度智慧化的系統已經擺脫過去以知識庫結合邏輯編碼的傳統演算框架,未來勢必會更趨成熟,應用的領域將更為廣泛,學習速度更快,模型可信度更高。

機器人

基本上還是自然語言加上一些感知互動、自動控制的應用,深度學習還是其中重要的一環,這與傳統工業用生產自動化所謂的機器人大不同,過去用於生產線的機器人主要做的是重複性的動作,例如汽車組裝、半導體輔助製程、工業設計模組化作業等等,透過精密、高速、不間斷的機器手臂進行大量生產或精密生產的目標。

現在的工業4.0的主要強調的是強化機器人的智慧化應用,結合智能技術進行協同作業,其他技術例如3D列印、VR/AR、大數據分析等應用也幫助機器人,在未來能夠滿足動態生產、企業資源管理、物流與配送等的有效運用。

最近幾年的機器人應用已經走入服務業與家庭,許多公司分別推出特定功能或一般性功能的智能機器人,語言的交互溝通是最重要的一環,一個有趣的報導,臉書嘗試讓兩個人工智慧機器人彼此溝通,試圖讓他們交易一些物品,例如帽子、球和書等,姑且不論是否屬實,最後發現兩個AI機器人在討價還價,並且開始產生一些人類無法解讀的語言進行交談,這些背後都是經由學習產生的思考性大腦,我們知道它內部一定有一些模型,只是無法簡單解釋這些神祕模型的邏輯。

更多的技術

「學習」是目前AI最重要的技術之一,當然還有更多的技術,Forrester談到十個最重要的核心技術,我認為是一個不錯的簡單分類,它包含了以下:

·       自然語言:從語音或數據轉成有意義的語言文本,並具備理解能力。
·       語音識別:可辨識語言的來源,並將人類語言轉換為有意義可用的程序。
·       虛擬客服:提供語音或文字的辨識與互動。
·       機器學習:提供以數據、模型、API與開發工具回基礎的學習系統,透過訓練提供特定的分類或預測能力。
·       智能晶片:專屬的優化硬體,包含最重要的專門設計和架構的圖形處理單元(GPU)和設備,能更有效運行AI大量的運算任務。
·       決策支援:在AI系統中建立規則和邏輯,並持續維護和優化的決策引擎。
·       深度學習平台:由具有多個抽象層的神經網絡組成的特殊類型的深度機器學習,主要用於由非結構化且大量的數據基礎訓練,多用於識別和分類應用。
·       聲紋辨識:利用生物特徵進行設備與人的交互與認證。
·       自動化:主要用於重複性工作,解決效率與品質問題。
·       文本分析:通過統計和機器學習方法促進對句子意義、情感和意圖的理解,可配合模糊比對等技術進行篩檢工作,例如犯罪分析。

結語
在我念書的90年代,人工智慧是不太熱門的學科,那個年代很現實的問題是畢了業可能找不到相關工作,我的碩士論文的研究主題是一個新的神經網路演算法,我的教授蔡瑞煌先生當時是台灣這方面的先驅,研究成果算是顯著,也在國外著名期刊發表,並獲得了那年碩士論文首獎,只是畢了業做的IT領域工作跟人工智慧一點關係也沒有。

雖然現在回頭看,因為經驗與資源的不足,當年的研究稍顯原始粗糙,但還是很慶幸自己能具備這方面的基本知識與能力。

回到本文的開始,AI已經是個不可逆的趨勢,AI正在經由學習而演進,尤其硬體成本的下降與專業晶片的能力不斷提昇,其演進的速度與效果將逐漸加強,並且逐漸被人們接受與信賴,可以想見AI的成熟與普及指日可待。

/老林

關於作者:
目前擔任美商優利系統副總經理、企業應用服務事業群總監
曾任Dell亞太區技術支援中心資深協理、IBM大中華區協理、IBM台灣經理

長期從事企業數位轉型服務、網路金融、全渠道服務、客戶關係、與智能化科技

留言

熱門文章