Tech-Guide

淺談大數據分析應用,掌握先機的關鍵鑰匙

「大數據big data」或許不是陌生的名詞,但是,您知道它的原理和運用方法嗎?您是否聽說過「大數據的5V原則」?還有,您是否熟悉「做好大數據的三個基礎步驟」?更關鍵的是,如果您想使用大數據,您是否擁有適合的工具?技嘉科技是尖端科技解決方案的知名品牌,發表本篇《科技指南》,目的是介紹大數據的基本知識,淺談大數據所蘊藏的無限商機,並且推薦適用於大數據的技嘉科技伺服器產品,讓您能掌握大數據,解決生活和工作上所遇到的問題。
大數據(big data)在現今的數位科技界早已不是陌生詞彙,卻依然擁有極高的討論度,只因其伴隨而來的分析以及後續應用,正持續打破人們對於數位資訊的固有想像。從商業決策到行為預判、從資訊科技基礎建設到日常生活每一個環節,到處都有大數據的蹤影,大數據儼然已成為一種指標。《詞彙學習:技嘉小百科,告訴你資訊科技(IT)是什麼

然而,大數據究竟是什麼?對您有什麼影響?能為企業帶來哪些優勢?分析數據會碰到什麼困難?技嘉科技為高性能伺服器產品的知名品牌,發表本篇《科技指南》,為各位探究大數據背後的玄機,以及推薦合適的技嘉產品,協助各位解決使用上的問題。
大數據是什麼?集「5V」於一體的巨量資料
顧名思義,「大數據」可簡單理解為龐大資料的集合體,又稱為巨量資料。每當有人使用電腦或是與網路連線,都是在添加更多的新資料,而隨著科技發展,數據的產生速度正以爆炸性的幅度增長。如YouTube的觀看次數、電商的顧客購買資料、每日金融交易資訊、甚至是社群媒體的互動紀錄、或是單一網頁的停留秒數等,這類龐大又複雜的資料,都可視為大數據的一部分。

看過以上的定義,您可能覺得「大數據」和「數據」之間沒有任何差異,所有的數據都是某種「大數據」。事實並非如此,「大數據」除了擁有更複雜且更龐大的資料量,讓傳統的資料處理技術無力負荷,往往也需要更多台電腦同時處理,才能進行相關的分析與應用,導致公部門與私部門紛紛建立資料中心、或是伺服器農場。針對大數據的具體描述,以2001年高德納諮詢公司(Gartner)分析員萊尼(Doug Laney)所提出的「3V原則」最廣為人知,分別為:

詞彙學習:
花你一分鐘,一次看懂關於資料中心
常聽別人說伺服器農場,你知道那是什麼嗎?

● 數據量(Volume)
大數據最顯著的特點,就是需要處理的資料量十分可觀,單一網站的瀏覽紀錄等,所構成的資料量隨著時間尺度而不同,可能達TB(terabyte)、PB(petabyte),甚至EB(exabyte)的程度。

● 多樣性(Variety)
大數據不只是「大」,還有「雜」,存有多種型態不一的資料類型,除了結構化資料以外,隨著技術演進、資料定義的改變,非結構化資料也與日俱增,不同型態的資料都需經過分析處理,才能夠有效應用。

● 速度(Velocity)
儘管大數據的資料量龐大,數據產生、接收與處理的速度,也不同於傳統數據處理效率,亦可理解為數據處理的即時性。

數位資訊快速膨脹,所產生的資料量只會更大、更瑣碎,且型態更為多元;因此,資料可信度與分析後的可用性,已成為大數據逐漸重視的特點,以至於大數據的定義新增了真實性(Veracity)與價值性(Value)兩個新「V」,統稱為「5V原則」。而依照目前科技推進的速度,相信不久後將有更多特性催生而出,再次刷新大數據的定義。
大數據和一般數據有何差異?可透過「5V原則」牢記大數據的特色,數位資訊必須符合量大、多樣化、快速、真實和有價值等屬性,才算是名符其實的大數據。
大數據分析為何重要?藏在數據中的無限寶藏
不久之前,假設我們想要了解某族群對某件事將如何反應(例如,中年婦女對洗髮精廣告的反應),較為科學性的研究方法,就是透過量化研究及統計分析。大數據分析不同於統計學的抽樣方式,而是拿「所有的數據」來做觀察與追蹤,並針對使用者的需求提出最佳解法。在這個生活行為逐漸「連線」的時代,隨著物聯網(IoT)發達、電子消費蓬勃發展,網頁搜尋與閱覽紀錄等數據資料皆有跡可循,線上世界有如模擬真實世界的「數位分身」──您是否已察覺大數據分析的價值所在?

詞彙學習:
技嘉小百科,告訴你物聯網(IoT)是什麼
花你一分鐘,一次看懂關於數位分身

舉例來說,對電商而言,使用者的瀏覽紀錄和消費模式息息相關,藉由大數據分析,可針對行為進行預測,讓客戶還未開始搜尋之前,就已將購物資訊即時奉上。精準行銷和客製廣告投放不僅提升客人的使用者體驗、刺激消費行為,也有助於避免無效的行銷模式,進而控管營運成本,而這不過是大數據分析的其中一項應用而已!

除此之外,大數據分析能給予更完整的資訊,直接協助企業降低決策風險及誤判的可能性。因此,我們必須討論應用大數據時自然產生的問題:為了讓其發揮最大功效,首先要了解如何使用大數據,又可能遇到什麼難題?
如何做好大數據?三個基本步驟,教您彙整、整合及應用
大數據分析聲勢如日中天,從知名企業、電商到政府機構和學術組織,幾乎都在使用大數據來協助解決難題,或是希望從中發現新的洞見。但是,要有效地利用大數據,就得從資料的蒐集彙整、到數據的整合運用,到後續的應用與微調,以上這三個大方向來進行探討。
大數據彙整:蒐集、存儲管理、篩選來源
大數據每年以驚人的速度成長,在IDC國際數據資訊有限公司的預測下,2025年全球大數據資料量將達驚人的175 ZB(等於175兆 GB),相較2018年全球資料量僅33ZB,2016年甚至未突破20ZB。面對以排山倒海之勢席捲全球的大數據,IT工作者要如何準備足夠的存儲空間、如何規劃與時俱進的篩選機制,將是許多人必須克服的第一道關卡。許多企業選擇利用雲端存儲(這是雲端運算的一個環節)及分散式運算系統,來解決記憶儲存量過小的困境。但是,這並沒有解決資料「真實性」與「價值性」的問題,唯有洞察大數據的資料來源,才能確保您所彙整的大數據真正有用:

了解更多:
《詞彙學習:常聽別人說雲端運算,你知道那是什麼嗎?
《詞彙學習:技嘉小百科,告訴你分散式運算是什麼
《科技指南系列文章:關於分散式運算,您不能不知道的叢集運算技術

● 第一方數據:
此為大數據使用者直接與目標群(可能是企業客戶)互動時所獲取的資料,如顧客會員資料、購物頁面瀏覽紀錄等,此類數據直接反應客戶行為,通常具有高度利用價值,是精準行銷層面的參考來源。

● 第二方數據:
透過和其他單位合作、買賣等方式,藉以得到對方的第一方數據,突破自己在第一方數據的侷限與不足。好比說,您在社群平台點擊某些商品連結之後,該品牌就會陸續向您投放廣告,這就屬於第二方數據的應用。

● 第三方數據:
當資料來源是與目標群無直接關係的單位,此類型數據即為第三方數據,如瀏覽器的瀏覽紀錄,最耳熟能詳的便是瀏覽器cookie技術,用來追蹤、記錄用戶的瀏覽網站資訊。其特性在於無差別性地廣泛蒐集資料,藉以幫助企業發現潛在客戶,常用來當作市場開發的評估等面向,但也因此常伴隨著隱私疑慮,在使用上須格外謹慎,確保符合法律規範的要求,不得侵犯他人隱私。
做好大數據是大哉問,但可透過簡單三步驟,牢記使用大數據的基本流程:彙整、整合、應用。彙整階段,依照數據價值來做篩選和儲存;整合階段,將大數據與您的經營策略(或學術研究計畫,等等)結合,並確保使用數據的合法性;應用階段,使用大數據加持的策略解決問題,並依照現況持續調整您使用大數據的方法。
大數據整合:分析、整理與轉化
經過彙整的大數據,必須和企業經營策略、或是公家機關的公共政策、或是研究機構的學術理論做結合,才算是發揮價值,透過大數據找到問題解方。但資料庫中多半是未經清理的原始資料,且資料型態多元,除了能清楚定義的結構化資料之外,還有大量的文字、圖像、影音等無法明確定義的非結構化資料或半結構化資料。利用大數據之前,資料要做整理、分析和運算,轉化成有價值、可使用的資料,且有別於傳統分析方式,大數據分析需要具有即時性,在蒐集資料的同時,就能快速產出分析結果。

因此,運算資源和處理效能是整合大數據的關鍵。先進的大數據整合工作,大多不會使用單一電腦或伺服器進行,而是使用多台伺服器合力運作,組成所謂的運算叢集,進行平行運算或高效能運算(HPC),並透過視覺化軟體,將生冷的數據轉變成清楚易懂的圖表,用來發現問題的痛點及對應解法。上述所需的分析技術,是大數據應用於經營策略的第二項考驗;挑選正確的軟硬體工具,可使您的大數據體驗變得事半功倍。

詞彙學習:
花你一分鐘,一次看懂關於運算叢集
常聽別人說平行運算,你知道那是什麼嗎?
技嘉小百科,告訴你高效能運算(HPC)是什麼

但在處理和執行大數據分析時,需留意個資安全問題,許多原始資料除了型態不一之外,內容可能也混雜著客戶姓名、身分證字號、手機號碼等個人資料。在逐漸重視資訊安全與個資問題的今日,許多大數據資料都要經過去識別化(de-identification)的整理程序,才能開始與經營策略結合,以避免後續可能發生的法律問題。
大數據應用:多方領域的成功案例分享
大數據之所以有價值,因為它能真實反映現實狀況;因此,儘管經營策略(或是公共政策等)已經陸續導入大數據的分析與應用,還是要仔細觀察現實世界的使用狀況,持續針對大數據做微調與修正。大數據的應用範疇十分廣泛,企業、政府機關和學術單位都仰賴大數據,以下僅是幾種較為顯著的大數據實用案例:

● 機器學習與人工智慧
人類因為掌握大數據的海量資料,進而延伸出機器學習、人工智慧等不同的應用方式。無論是仰賴電腦視覺的自駕車,或是協助電腦了解人類溝通的「自然語言處理」(NLP),最終都需要以數據資料作為養分,讓電腦有自我學習、預測未來、自動執行的能力,跳脫以往只能循著固定程式運作的舊有模式。透過大數據的分析應用,甚至能讓設備達到預測性維護、搜尋引擎提供自動推薦等先進功能。

了解更多:
《詞彙學習:花你一分鐘,一次看懂關於機器學習
《詞彙學習:常聽別人說人工智慧(AI),你知道那是什麼嗎?
《詞彙學習:技嘉小百科,告訴你電腦視覺是什麼
《詞彙學習:花你一分鐘,一次看懂關於自然語言處理(NLP)
《成功案例:技嘉高密度伺服器,協助科技創新者發展自駕車演算法 
《成功案例:技嘉實踐CSR、ESG,協助成大勇奪亞太HPC-AI電腦競賽冠軍 
大數據已應用在我們的生活周遭,包括人工智慧等尖端科技發明、及串流媒體服務的推薦系統,都包括在其中。您可以自行發想:如果我掌握大數據,我能做些什麼?
● 預測性商業模式
大數據應用於行銷及商業模式的實際案例,想必大家都略有耳聞,從陌生客群開發、消費行為追蹤,及預判客戶的消費行為,在人人搶客戶的商業戰場,從使用者的搜索記錄、瀏覽網頁,進一步預判潛在的購物動機,為其提供客製化的消費套餐,都是鮮明的實例。

更創新的應用方式之一,就是亞馬遜(Amazon)開發的「預測配送模型」,它透過大數據預判消費者的購物行為,並提前將貨物運送到附近配送點,只要等買家按下購物鍵,即可安排出貨,縮短整個運送過程,不僅降低配送成本,也大大提升顧客體驗。這是很好的啟發,我們每個人都能想想,該如何使用大數據來創造空前未有的價值。

● 協助學術研究執行、促進公共政策成形
學術研究往往需要數據支撐其論點,也經常仰賴高效能運算技術。有了大數據的輔助,以往運算困難的巨量資料將得以解套,並能得到更即時且準確的預測分析結果,如氣象模擬、社會學研究、行為狀態分析等,都是其應用範疇。

有價值的學術研究成果,也有助於公共政策落地,例如西班牙跨學科物理和複雜系統研究所(IFISC),2021年參與「DISTANCIA-COVID計畫」,透過大數據的應用,分析行動裝置的資訊流量,研究與新冠肺炎疫情擴散之間的關聯,並分析「社交距離」措施的效益。IFISC購買技嘉科技R282-Z91R272-Z32兩款R系列機架式伺服器,伺服器提供的低延遲資料傳輸、高穩定資料儲存功能,都是處理大數據時非常需要的伺服器特性。

延伸閱讀:
《關於技嘉GIGABYTE機架式伺服器系列產品的更多介紹》
《成功案例:西班牙IFISC用技嘉伺服器,為新冠肺炎、氣候變遷尋求解方 
《成功案例:暴風解碼,技嘉運算叢集協助早稻田大學研究氣候變遷 

● 量身打造的精準化推薦,加深您的娛樂體驗
藉由記錄使用者進入品牌網站或是平台後的行為模式,可得知其瀏覽習慣與行為變化,並透過大數據分析,做到精準化的產品推薦,有效提升顧客回購率。像是購物網站上常見的「猜你喜歡」購物列表,這些「猜」的行為,背後都有大數據作為推薦依據。

此外,知名影音串流平台網飛Netflix,也是運用精準化推薦的佼佼者。您是否留意到?每次瀏覽影片清單時,片單上所推薦的影片順序、種類都不盡相同,這便是藉由大數據分析,針對不同瀏覽行為所做出的客製化清單,以此讓使用者投注更多關注力與時間在平台上!
挑選技嘉科技伺服器解決方案,掌握大數據的每一個環節
來到《科技指南》的尾聲,我們希望本篇文章有助於您更了解大數據,並且能想像導入大數據的好處。如果您希望購買先進伺服器產品,協助您展開全新的大數據旅程,請您參考以下技嘉科技的產品,技嘉提供各類型的伺服器解決方案,能執行大數據運算、大數據儲存等相關工作:

● 運算
- H系列高密度伺服器
技嘉科技H系列高密度伺服器,適合HPC和超融合基礎架構(HCI)使用,產品特色是在小而美的機殼內,容納大量運算節點,並且支援Intel® Xeon®可擴展平台、AMD EPYC™,甚至是基於「雲端原生」ARM架構的Ampere® Altra®處理器。如果您的使用空間有限,運算需求卻很龐大,挑選技嘉高密度伺服器準沒錯!

了解更多:
《關於技嘉GIGABYTE高密度伺服器系列產品的更多介紹》
《詞彙學習:常聽別人說超融合基礎架構(HCI),你知道那是什麼嗎?
《詞彙學習:技嘉小百科,告訴你節點是什麼
《科技指南系列文章:從智慧型手機到超級電腦 ,略談ARM處理器的由來與優勢
《成功案例:技嘉ARM伺服器發威,台大「高精準車流模型」開發效率提升200% 》

- G系列GPU協同運算伺服器
G系列伺服器非常適合平行運算與異質運算,因為可搭載GPGPU(通用圖形處理器)使用,擅長處理大量圖像數據。如果在您使用大數據的過程中,將會出現很多圖像資訊,則可考慮使用技嘉的GPU協同運算伺服器。

了解更多:
《關於技嘉GIGABYTE GPU協同運算伺服器系列產品的更多介紹》
《詞彙學習:花你一分鐘,一次看懂關於異質運算
《詞彙學習:常聽別人說通用圖形處理器(GPGPU),你知道那是什麼嗎?
《科技指南系列文章:什麼是HPC高效能運算?相關使用案例與技嘉產品 

- R系列機架式伺服器
H系列與G系列伺服器是專才,R系列機架式伺服器則是通才,擅長處理運算工作,並可用來達到效率和可靠性之間的平衡,推薦可以搭配其他類型的伺服器使用,達到運算效能高、成本也合理的雙重目標。

● 儲存
- S系列儲存伺服器
顧名思義,S系列儲存伺服器可以儲存大數據,尤其是在「彙整」大數據的初期階段,這些可擴充性高的產品適合扮演儲存節點。儲存伺服器搭載容錯式獨立磁碟陣列(RAID)、軟體定義儲存(SDS)等技術,還提供技嘉專屬的智慧型危機管理與防護(SCMP)、電壓瞬間調頻等功能,安全保護您可貴的大數據金庫。

延伸閱讀:
《關於技嘉GIGABYTE儲存伺服器系列產品的更多介紹》
《詞彙學習:技嘉小百科,告訴你可擴充性是什麼
《詞彙學習:花你一分鐘,一次看懂關於軟體定義儲存(SDS)
《詞彙學習:常聽別人說容錯式獨立磁碟陣列(RAID),你知道那是什麼嗎?

希望經由本篇文章介紹,能幫助各位進一步認識大數據的定義、分析應用與面臨的挑戰。若對於伺服器應用於大數據分析有任何疑問、或是想要更深入了解,技嘉科技將提供您最適宜的諮詢服務,歡迎您透過marketing@gigacomputing.com電子信箱聯絡技嘉科技業務窗口,我們將協助您挑選適合的伺服器解決方案。
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報