AI-AIoT

AI 人工智慧即將取代人類? 五分鐘帶你讀懂深度學習產業現況與應用案例

by GIGABYTE
人工智慧真的會模擬人類嗎? 近年最熱門的深度學習應用案例有哪些?
2019 年是「 AI 人工智慧」突飛猛進的一年,隨著機器學習領域軟硬體的成熟,特別是高效能的圖形處理器(GPU)的技術提升,大幅度提高了矩陣與數值運算的速度;此外,深度學習框架的普及也讓開發深度學習應用不再是極為困難的任務: TensorFlow 、 Caffe 、 Torch 等主流開發框架受到全球開發者的歡迎。《詞彙學習:什麼是人工智慧(Artificial Intelligence)?

現在使用深度學習技術進一步強化產品功能已經不是新鮮事: NVIDIA 、 Google、Amazon 、 IBM 等等的業界領導企業早已投入大量的資源發展「深度學習結構」,誕生出許多具龐大發展潛力的產品── 這些科技公司正在為傳統產業帶來全新的革命,根據 Gartner 的估計, AI 人工智慧產業在 2018 年創造了 1.2 兆美元的年產值,相較去年增長了 70% ,預計在未來三年達到 3.5 兆美元的年產值。
人工智慧真的會模擬人類嗎?
「人工智慧」字面上雖然是將電腦模擬成人腦,以低成本、高效率的機器取代人工執行,但這是錯誤的說法:目前人工智慧與人腦的運作模式天差地遠:電腦架構上只能處理數位訊號 ( 0 跟 1 的組成的數位訊號)。

人工智慧技術中,最大的進展是能讓電腦「學習」判讀「圖像」以及「聲音」,現實環境的物體都具有數量繁多、種類龐雜的資料表徵(Feature),例如圖像中各個像素強度的向量值、聲波的類比訊號,或是不同物體形狀的向量特徵,這類電子訊號經過處理後可以轉譯為數位訊號,進而讓電腦分析處理。

「深度學習(Deep Learning)」透過多層的訓練模型篩選輸入的資料集,在每一個篩選層不斷調整各個資料特徵的權重,逐步提高猜測結果的正確率,最後當輸出值的正確率達到理想範圍,整個過程被稱為「訓練(Training)」。

正確參數的權重將得到越高的分數,反之則否,經過數百萬次的調整,隨後只要電腦遇到類似的物體或聲音,會將物體的參數與先前獲取的「圖像」、「聲音」進行比對,如果比對結果在容許範圍內,最終這部電腦每次都能獲得正確的答案,這項過程則稱為「推導(Inference)」── 這就是電腦辨認圖形、物體與聲音的基礎原理,但因為容許一定程度的錯誤,深度學習嚴格來說不要求精準的數字計算,更精確的是說「猜」。

當電腦能以高正確率猜測圖像與聲音,便能執行過去機器難以達成的任務,協助人類日常中的工作,而且能比人類做得更快、更好,例如最近非常熱門的瑕疵檢測、自動駕駛系統、語音助理、臉部辨識、醫療診斷、拍照攝影等領域,深度學習在這些領域的應用被認為是革新下一個世代技術的關鍵。《了解更多:我們可以更進階地談論深度學習這檔事》
近年最熱門的AI人工智慧應用:深度學習案例有哪些?
雖然我們沒有發覺,但深度學習早已深入生活之中,舉例來說,我們已經習慣能流暢對話的語音助理、享受自動駕駛所帶來的方便性,並且驚豔於智慧型手機攝影時的影像演算法,相片內原本漆黑的城市頓時變成亮麗的夜景,這些令人激動的創新正不斷挑動人類對未來世界的嶄新想像。

早在數年前,許多最頂尖的公司投入了大量的資源開拓人工智慧領域的應用,在多年的努力下,深度學習技術被證實具有龐大的商用價值,這邊列舉深度學習目前的三大主流應用:
AI應用案例1:圖像辨識(Image Recognition)與人臉辨識(Facial Recognition)
深度學習技術藉由輸入大量的圖像、解析圖片上的像素距離、排列方式等向量資料,來訓練深度學習模型辨識特定的圖片或是物體,原理是當電腦遇到類似的物體,所遇到的數據與訓練後的參數合理範圍吻合,在允許一定的錯誤範圍內,電腦就會將遇到的物體歸類,比如說汽車、號誌燈或是商家等等的物件,許多人在網站填寫驗證碼時,常常會遇到需要使用者點擊圖片內的特定物體,也有企業提供兼差,透過人工來勾取圖片內的物件,這些就是用來訓練深度學習模型的素材。

在這項基礎上,圖像辨識已經衍生出多項應用,「自動駕駛(Automated Driving)」是最廣為人知的一項應用, Nvidia 、 Tesla 、Waymo 跟 Intel 旗下的 Mobileye 等等企業早已展開激烈的軍備競賽,投入大量的資金研發,瞄準一年數千億美元的傳統汽車市場。

我們熟知的智慧型手機拍照功能也應用了大量的深度學習技術,許多品牌都以「AI 拍照」宣傳,號稱手機能辨識數千種拍照場景,再予以畫面最佳化,使用者能夠輕易拍出清晰、亮麗的照片。

這項技術原理是透過手機鏡頭讀取景物,再以預設好的演算法辨識該用何種場景模式進行畫面調整,雖然手機內無法做到「訓練模型(Training)」,但仍可以透過處理器「推導模型(Inference)」,手機品牌廠會將訓練好的圖像辨識模型安裝到手機中,手機處理器只需要透過中央處理器或是特殊的影像處理晶片便可套用。

另一項已經成熟卻鮮為人知的應用是影音過濾系統(Video Surveillance),隨著 YouTube 、 Facebook 、Twitter 等社群平台普及到生活中,產生了大量的圖片與影片,其中總是暗藏不雅、噁心圖片或是侵權內容。

這些公司透過以深度學習為基礎的圖像辨識技術來偵測平台上是否有非法的內容產生,像是 YouTube 以及 Facebook 都能自動辨識刊登的廣告內容,防止詐騙吸金的廣告推送,或是避免審查人員出現心靈疾病等職業傷害。

了解更多:
5G特性 URLLC低延遲-智慧車聯網 行進安全A+ 運務效率Up!
打造自動駕駛的大腦 技嘉高密度伺服器 協助科技創新者發展自駕車演算法
智慧臉部辨識解決方案
AI應用案例2:自然語言處理(Natural Language Processing / NLP)
Google 語音助理、 Siri 以及亞馬遜的 Alexa 現在已經能夠清楚地辨識我們的聲音與講話內容,靠的就是深度學習中「自然語言處理」的分支技術,藉由大量的文本資料搭配音訊數據,透過音樂的波長、聲音斷句、語調的頓挫,將類比資訊轉為數位音訊進行分析訓練,進而讓程式能夠辨認人類的說話內容和文法結構。

每當我們對著手機講話,螢幕也會顯示對應的文字。事實上是電腦收到符合模型參數內的音訊內容,會比對訓練後的結果、再將進行歸類、最後從資料庫抓出對應的語句,並作出預先設定好的反性,一來一往形成了流暢的語音助理對話,其中深度學習技術扮演著非常關鍵的角色。
AI應用案例3:推薦系統(Recommender Systems)
當我們使用 Spotify 跟 Netflix ,肯定會讚嘆推薦系統的精準度,他們總是能將你喜愛的節目內容推薦到你眼前, YouTube 影音平台也會針對每個使用者偏好推送不同的節目內容。

除此之外,全球最大的電子商務公司 Amazon 也能推薦精準的商品給他們的顧客,藉此提高訂單成交率,為何這些推薦系統能夠越來越準確抓住每個使用者的喜好? 背後還是使用了深度學習的技術。

過去常用的協同過濾法(Collaborative Filtering, CF)雖然被證實是有效的推薦系統,但其中的評分系統卻在許多應用場景中呈現離散的情形,大幅降低其精準性,因此目前的推薦系統都額外加入深度學習模型,不以使用者單一的評分、點擊率、時長、歌曲標籤為單一標準。

那是如何做到的呢? 這些公司會加入上述提到的自然語言處理模型,藉由爬蟲分析網路上大量有關音樂的部落格、網站文本,從中分析出評論家跟網路留言對特定節目或音樂的形容詞,或是同時有沒有提到其他的音樂創作者,並將其中的關鍵字丟入模型,訓練出不同的權重,藉此逼進使用者的真正偏好。

如果這個音樂不受歡迎呢? 網路資訊與聽眾偏好都沒有足夠的樣本數可供分析,那麼 Spotify 會透過分析歌曲本身的音頻,計算並歸納出特定曲風的特徵,例如快節奏、高音、吵雜程度、聲道多寡等等的特徵,再比對出歌曲風格類似的樣本推薦給使用者。

深度學習技術在網路購物、訂閱經濟以及網路廣告的時代將會扮演相當重要的角色,只要能掌握更多的使用者喜好,就能針對特定的族群進行精準行銷,創造更高的價值或是客戶黏著度。
發展深度學習技術碰上的挑戰
討論了這麼多案例,人工智慧卻尚未普及在企業中,為什麼? 事實上,人工智慧這項技術雖然已經發展了數十年,但商業價值浮現僅僅是近三年的事情,起初僅有資金深厚的大公司能夠投入這場資本競爭,除了人工智慧技術人才昂貴而且供給不足之外,訓練深度學習模型需要累積非常大量的數據集,而且是「乾淨、一致」的數據才可供模型進行訓練。 

企業必須自行採集數據,其中的成本非常高昂,必須親自聘僱大量的員工實地蒐集與整理,才能建立深度學習所需的數據庫。值得一提的是,許多 AI 公司都有開源自己的機器學習開發工具,像是函式庫(Library)、框架(Framework)以及眾多的學習資源,然而除了數據的累積之外,要從龐大的數據庫中擷取所需的特徵仍需要高度的技術含量。

另一方面,企業如果要從零發展深度學習技術,不只是數據、軟體的堆疊,也必須針對硬體層面進行適配性與效能改進,如果企業沒辦法建立自己的硬體環境,則必須向 Google Cloud Platform 或是 AWS 購買昂貴的雲端算力,依據地區、租用硬體配備、模型的難度、網路流量不同,價格都會有很大的差異。

如果單項深度學習模型採用最基本的配置,並額外租用顯示卡處理以縮短訓練時間,企業一個月花費至少數千美元,若是較為複雜的深度學習模型,則必須租用更多核心、更大記憶體的硬體配備,更常見的狀況是一口氣處理數個學習模型,此時出租費用將是數十倍計算,對於中小企業來說難以負擔。

還有另一個選項,企業可以選擇自建 GPU 伺服器來訓練深度學習模型,目前台灣大多數公司都是選擇自建資料中心進行研究,除了從頭到尾自行拼湊出一台高效能運算的機器之外,市面上也有許多硬體整合商提供已經整合好的深度學習解決方案,企業只需要購買便能立即使用。

舉例來說,技嘉(Gigabyte)與台灣工研院合作,以工研院的 DNN Training System軟體技術為基礎,整合技嘉科技所提供 GPU 硬體方案,推出針對深度學習訓練打造的技嘉 DNN Appliance 軟硬整合解決方案── 搭配技嘉的 G481-HA1 深度學習運算伺服器,採用Single PCle Root Complex (Single Root) 架構設計,透過單一的中央處理器(CPU)控制多個圖形處理器(GPU)。《推薦給你:關於技嘉GPU 運算伺服器系列產品的更多介紹》

深度學習模型牽涉到大量數據集的訓練計算,需要耗費龐大的GPU運算能力,使得訓練過程需要 GPU 與 GPU 之間極度頻繁的溝通來交換訓練學習到的權重,此時 Single Root 架構的優勢便凸顯出來,所有的 GPU 均透過同一個 CPU 進行溝通能大幅降低資料傳輸上的延遲,減少了跨CPU之間的資料搬移動作,進一步縮短深度學習訓練所需的工作時間。
深度學習軟硬體架構(Hardware & Software Architecture)
以上方的深度學習堆疊圖為例,最底層的硬體項目是技嘉的 G481-HA1 深度學習運算伺服器,這個方案具備中央處理器(CPU)、圖形處理器(GPU)以及記憶體(RAM)等等的硬體設備,並且已經安裝好 Ubuntu OS 、 NVDIA 圖形處理驅動程式,構成底層的作業系統環境,但企業另外還需要深度學習框架以及函式庫來執行深度學習訓練。

什麼是深度學習框架(Deep Learning Frameworks)? 由於深度學習模型的設計相當困難,開發人員不會每次都重新編寫程式碼,而是利用現有的框架與函式庫,以更有效率的方式建立深度學習模型,框架等同模組化後的公版設計,如同樂高積木一樣,工程師不需要重新設計模型,只要把別人設計好的公版模型拿來組合即可,並根據自己的需求進行微調,好比將積木堆疊成理想中的模樣,舉例來說, TensorFlow 、 Caffe 跟 pyTorch 是目前最多人使用的深度學習框架。

另一方面,框架還需要仰賴函式庫(Libraries)進行 GPU 加速以提升訓練效率,函式庫就像是模組內的重要零組件,所謂的函式庫是開發軟體的子程式集合,本身並不是獨立可執行的程式,而是提供開發者引用的程式碼資料庫,由於這些程式碼都具備經調教過的常式建置方法(用於加速深度學習訓練速度的程式碼),開發人員只要透過引用函式庫中的程式碼就能提升深度學習模型的訓練效能,較為知名的函式庫包含 DALI 、 NCCL 以及 cuDNN 。

技嘉 DNN Appliance 整合上述所提到的軟體及硬體要件,提供一個能立即使用的深度學習開發環境,企業不需額外進行複雜的硬體整合、相容性測試以及軟體最佳化的繁雜工作,只需專注在深度學習的應用開發上。
技嘉 DNN Appliance 提供人性化的深度學習開發環境
工研院的 DNN Training System 另外提供了許多方便的管理工具,使技嘉 DNN Appliance 擁有簡易的深度學習入門環境,舉例來說,資料庫管理工具能自動將資料庫轉譯為相容深度學習模型的資料格式,並支援圖形化介面(GUI),方便開發人員管理訓練數據集內容、輕鬆編輯並視覺化深度學習模型結構、調整模型超參數、模型結果分析及版本控制。

技嘉 DNN Appliance 更支援一鍵最佳化模型超參數調教,能自動找尋提升模型精準度的超參數組合設定,立刻改善深度學習模型的訓練效率,減少盲目地調整各超參數設定的人力成本與訓練時間成本花費,等同給企業一套已經最佳化的深度學習解決方案,客戶購入後只需將資料導入,進行微調後便能快速部屬深度學習應用:對於大多數的企業而言,企業需要不斷嘗試深度學習訓練過程、不斷累積經驗與知識來了解哪些企業商業領域面臨的特定問題可以利用深度學習技術解決,進而了解如何利用哪些特定深度學習訓練技術來解決問題,這類的軟硬整合套裝方案在技術門檻、運算成本、訓練時間上都具有較大的優勢。

如果採用技嘉 DNN Appliance,企業不需要再租用昂貴的雲端伺服器,更不需要從頭開始採購、組裝以及設定軟體,這類型的解決方案好比套裝電腦,使用者只需要購買技嘉 DNN Appliance 便可進行深度學習技術的研究與發展── 整合式的深度學習解決方案可以替企業節省掉大量的開發成本與技術瓶頸。《了解更多:你可以閱讀完整的DNN Training Appliance解決方案
深度學習成熟解決方案將協助各大企業快速導入AI應用
雖然一般中小企業導入深度學習技術的難度還很高,但隨著各大 AI 技術公司公開販售訓練好的深度學習模型,未來人工智慧技術將廣泛應用在我們生活的各項應用中,像是 NVIDIA 、Intel 跟 Waymo 都會對外公開販售自動駕駛技術,即使是沒有科技背景的傳統車廠也能讓自家的汽車產品具備同樣的先進功能。

另一個是已經發生的案例,高通(Qualcomm)的 Snapdragon 系列手機處理器具備多項的 AI 演算法,手機品牌廠即使沒有影像演算法的背景,仍然可以購買公版的演算法應賦予手機 AI 攝影功能。

隨著人工智慧的門檻降低,企業不只能購買已經被訓練好的模型,還能針對自身的需求進行微調,利用同樣的框架、不同的輸入數據與特性,訓練出客製化的深度學習模型。

雖然人工智慧技術未來會廣泛普及到各項產業,但如果要走在產業的前端,研究人工智慧的相關技術應用必須盡早開始,才能在技術成熟的時刻快速導入深度學習技術來強化自身產品的競爭力。

深度學習技術的優勢在於「自動化」特性,可以短時間內大幅度強化產品的競爭力,屬於可擴展性(Scalable)的技術種類,由於各個產業的導入速度不盡相同,各家企業都必須盡快掌握這項趨勢,否則會突然發現自身的產品競爭力在短時間內被超越,例如資訊安全產業於 2019 年已經導入深度學習技術來偵測潛在的病毒威脅,讓整個產業競爭更加白熱化。

如同絕大部分的新科技一樣,深度學習技術會隨著時間成熟,慢慢融入到我們的生活當中,協助人類更有效率完成繁瑣的日常作業,讓寶貴時間投資在更高價值的工作上。
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報