← Career advice
Advice Columnist

非結構化數據

非結構化數據

近年數據科學及人工智能發展迅速,大眾開始對數據(Data)有很大興趣,甚至有「數據是未來的石油」(Data is the new oil)的講法。很容易會聽到如大數據(Big Data)、數據導向決策(Data Driven Decision)、數據化組織(Data Organization)等等與數據相關的詞語,其中重點,不外乎都是如何運用已儲存的數據,通過數據處理及數據分析,從而得出結論,幫助決策。筆者今日希望談談的,是另一個技術用語,與大數據一詞經常一齊出現,就是非結構化數據(Unstructured Data)

 

何謂數據

要理解非結構化數據,要先理解何謂數據,廣義上的數據通常指的是原數據(Raw Data),是我們為了記錄事物而製造出來,因此要定義數據,筆者會用以下的定義。

數據本質上是紀錄(Record),是狀態的紀錄(Record of states),通常專指未經處理的原數據(Raw Data)。

記錄的形式可以包羅萬有、層出不窮,一個原始人結的繩結是數據;一本寫在竹簡上的書是數據;一個Excel檔案也是數據。資訊科技的高速發展,令我們可以儲存及記錄大量數據。由數據開始,人類可以掫取資訊(Information),歸納為知識(Knowledge),內化成智慧(Wisdom)

 

 

所以數據是分析、學習的基礎,沒有數據,則無法從中掫取資訊,知識就更不可能由其中歸納而成。因此現今對數據的重視,最終目的,就在於希望由分析原數據,得到未知的見解(insight)。

結構化

只是有數據,仍是不夠,我們還需要將數據以結構化(Structured)的方式儲存,才能加以利用。試分析以下兩個情況:

1. 將銷售數據變成如下圖Excel欄及列的形式,分門別類處理好。

2. 收集好每一張銷售發票及銀行月結單,再作統計

要作銷售額統計,兩者較為容易呢?理所當然是前者。 分野原因何在?最關鍵的原因,在於數據是否已經結構化,Excel的欄及列有明顯數據結構:ProductCountriesQtr1Qtr2都是早已定義好的 標頭,要做的只是將不正確的數據清理好,就可以開始分析數據。

相反,銷售發票通常容許較多彈性,沒有統一的填寫方法,例如上圖description中,容許使用者任意填寫任何文字,就稱不上是結構化數據,因為根本沒有一個統一的格式,在分析上就會遇到很多困難。亦正是如此,很多公司都利用系統生成銷售發票,正是為了規範格式。

簡而言之,結構化數據方便處理,也更容易分析,將數據儲存成結構化的格式,有明顯的好處。

那為何非結構化數據成為討論熱點?

這就奇怪了,既然結構化的數據在處理遠比非結構化數據更為簡單,為何近年的討論都集中在非結構化數據之上呢? 箇中原因其實很簡單,結構化數據在過去數十年間,早已是數據分析的中流砥柱,要分析結構化數據,甚至有一個專有的範疇:商業智能(Business Intelligence)就正正是專為了分析結構化數據而設,微軟近年開發的商業智能工具PowerBI就正正是其中最好的例子。

相反,非結構化數據卻被長期忽略,大家細想日常工作所傳送的電郵、收取的表格、Facebook上的影片等,都是數據的一部份,然而由於分析難度很大,通常在分析數據時,都會盡量避免處理這些數據,以節省人力物力。如分析大量Facebook影片的內容,不以人力逐一觀看,就只有運用現今深度學習的算法,如圖像辨識(Image Recognition)等,才能掫取有用的數據。正因如此,很多可能有用的數據就這樣被埋沒了。

結構化數據三層級

除了上述的例,結構化和非結構化數據還有其他例子嗎? 下圖綜合了三種不同結構化程度的數據:

由上圖可見,圖片、影片、即時對話內容、錄音、手寫資料、電郵、二進位檔等都是非結構化數據的最佳例子。而關聯式資料庫、CSV檔、Excel檔案等則是結構化數據的例子,能夠使用傳統的數據分析工具去處理及理解。 結構化數據及非結構化數據中間,還有一個灰色地帶,也就是半結構化數據,半結構化數據包含了常用傳輸格式: XML、JSON、YAML等,因為這些格式有一定的格式架構,例如JSON只支援數組(Array)、物件(Object)、字串(String)等常用的數據型別,但又不會像關聯式資料庫(RDBMS)般需要一個既定的型式,因此在編程中常常用作傳輸、儲存數據。NoSQL中使用的,也常常是半結構化數據,例如MongoDB就是儲存了JSON格式的數據。

有估計都認為,結構化數據及半結構化數據其實只佔了總體數據的百分之二十,剩餘的百分之八十都是屬於非結構化數據的領域。 日常工作、瀏覽網頁,用戶時刻都製造了許多數據,而這些數據,很多就屬於非結構化數據。

非結構化與數據科學

正因大部份的數據本質上都是非結構化,因此在大數據時代的今日,要分析、處理、圖像化非結構化數據,就使數據科學(Data Science)成為了一門顯學。不同機構及公司都因此爭相聘請數據科學的人材,去處理這個長期忽略的「大多數」。無意之間也令大眾衍生了一種誤解:以為結構化數據與非結構化數據中間有一條楚河漢界,又或是以為非結構化數據是一個新的數據格式。實際上兩者都是由來已久,只是近年技術發展迅速,出現了不少大數據的工具,例如Apache Spark、Kafka、Hadoop等,數據處理工具Pandas等亦漸成主流,才令非結構化數據走到了舞台的中心位置。

 

Keep reading

Related career advice

【職場心理學】上司話你唔夠狠,下屬話你唔撐佢哋——做中層,你係人肉避雷針
Advice Columnist

【職場心理學】上司話你唔夠狠,下屬話你唔撐佢哋——做中層,你係人肉避雷針

Head count凍結,上司call你入房話:「你自己諗辦法。」 下屬問你年加幾多,你知道答案,但唔敢講。高層宣布新政策,問有冇問題,你笑住話「冇」,但你心裡清楚返去個部門一定炸鍋。績效review,你要寫低屬下嘅不足,但寫嗰陣你係唔舒服嘅,因為佢哋真係有盡力。開完會,上司叫你「帶領好個team嘅方向」,但連你自己都唔知方向係邊。 你夾喺中間,上唔到、落唔得。 高層嫌你執行力唔夠;下屬覺得你唔夠幫佢哋發聲;HR話你要做好榜樣;另一半問你點解又係咁夜返屋企。某一日,你喺東鐵線車廂裡,有個陌生人跟你對眼笑咗一下——你差啲想喊。 有時喺輔導工作中,我遇到嘅中層 manager,坐低嘅第一句往往係:「我唔知自己係咪做錯咗啲乜。」 你以為係你管理技巧唔好?唔係嘅。喺心理學入面,呢個叫「情緒勞動」(Emotional Labor)——即係持續壓抑或管理自己嘅真實情緒,去配合組織對你嘅形象要求(Hochschild, 1983)。做中層嘅人,每日都要演一場無劇本嘅戲:對上管理期望、對下管理情緒、對外管理形象——而你自己嘅感受,係冇位置擺嘅。 長期嘅情緒勞動,係職場 burnout 最常見、又最容易被忽視嘅根源之一。 就好似一架升降機嘅緩衝彈簧——佢嘅功能係吸收衝擊、保護兩邊。但如果長期超重、冇保養,彈簧遲早會斷。 緩衝係你份工嘅一部分,但唔代表你要用自己嘅身心做消耗品。 有一個有用嘅覺察練習:每個星期,寫低三件「唔係我份工、但我一直係咁做緊」嘅事。唔係叫你即刻唔做,而係讓自己知道——你嘅邊界喺邊,你係幾時開始一點一點失去自己嘅。 覺察,係改變嘅第一步。 做中層嘅你,好少被讚,好少有人問你「你點呀」。 今日,我想問你:你點呀? 唔使答得好好聽。只係停一停,不加批判地承認:「係,我最近好攰。」 呢份誠實,係你對自己最大嘅善意。你唔係一個齒輪,你係一個人。 參考資料Hochschild, A. R. (1983). The managed heart: Commercialization of human feeling. University of California Press.Kahn, R. L., et al. (1964). Organizational stress: Studies in role conflict and ambiguity. Wiley.

升職加薪後,為何很多人反而更焦慮?
Advice Columnist

升職加薪後,為何很多人反而更焦慮?

上月專欄談到,在裁員、縮編及經濟不確定性下,職場人士需要建立「財務韌性」,讓自己即使面對收入中斷,仍然保有生活與選擇的空間。 但有趣的是,最近接觸不少客戶時,我發現另一個現象:有些人明明升了職、加了薪,甚至晉升管理層,焦慮感卻沒有減少,反而愈來愈重。 按常理推算,收入增加應該帶來更多安全感,為何現實往往相反?問題很多時不在收入,而在生活模式。 收入增加了,壓力卻沒有減少 曾有一位四十多歲的管理層客戶,十年間薪酬幾乎翻倍,由月入四萬元增至接近八萬元。表面看來事業發展理想,但當我們一起檢視財務狀況時,卻發現他的壓力比十年前更大。 原因很簡單。收入增加後,他換了更大的住宅,供款增加;子女升讀國際學校,教育開支上升;家庭旅遊、保險及生活消費亦同步提高。結果雖然收入增加了一倍,但每月可自由運用的現金流卻沒有明顯改善。 更重要的是,他開始不敢轉工。因為一旦收入出現空檔,整個家庭開支結構都可能受到影響。這種情況在中產及管理層人士之間其實相當普遍。 高收入,不等於高安全感 近年有一個財務規劃概念稱為「生活膨脹」(Lifestyle Inflation),意思是當收入增加時,支出亦同步上升,結果財務自由度未有真正改善。 從職涯管理角度來看,這亦是一種風險。不少人以為職場安全感來自更高薪酬或更高職位,但真正的安全感,很多時來自保留選擇權。 當你有能力拒絕不適合的工作、可以接受短暫轉型期、甚至有空間進修或探索新的職涯方向時,你才真正掌握主動權。相反,如果每月開支已完全依賴當前收入水平,即使職位再高,也可能陷入「不能停、不能轉、不能錯」的壓力循環。 那麼,升職加薪後應如何避免陷入這種情況?我認為有三個值得思考的方向。 第一,讓收入增長快於生活成本增長。 每次加薪後,未必要即時提升所有生活開支。把部分新增收入轉化為儲蓄、投資或退休規劃資產,長遠往往比單純增加消費更有價值。 第二,建立與收入無關的資產。 無論是投資組合、強積金、自願性供款,甚至其他長期資產,本質上都是將今天的工作收入轉化成未來的選擇權。 第三,定期檢視自己的「財務自由度」。 問自己一個簡單問題:如果今天失去工作,現有資源足夠支撐多久?答案未必需要非常充裕,但至少應讓自己擁有重新規劃下一步的時間。 職場發展當然重要,但我認為衡量成功不應只看職位高低或薪酬數字。真正值得追求的,或許不是賺得更多,而是在收入增加的同時,仍然保留選擇人生的能力。因為高薪不一定等於自由,而能夠掌握選擇權的人,往往才擁有真正的安全感。

【IT事務所】駕馭未知的浪潮:企業在持續進化的 AI 時代下的道德標準與管治之道
Advice Columnist

【IT事務所】駕馭未知的浪潮:企業在持續進化的 AI 時代下的道德標準與管治之道

在數位經濟與人工智能技術高速發展的今天,企業正面臨一場前所未有的技術變革。隨著大型語言模型與自主智能體(Agentic AI)的持續進化,企業在享受自動化與生產力提升的同時,也無可避免地遭遇了複雜的道德與管治(Governance)難題。若缺乏完善的監管框架,AI 的失控不僅可能引發公關危機與合規風險,更可能損害企業的長期競爭力。因此,深入理解並建立具備韌性的 AI 管治機制,已成為現代企業不可迴避的戰略核心。 企業在引入 AI 時首當其衝的挑戰便是算法偏見與歧視。AI 模型的輸出品質高度依賴於其訓練數據,若歷史數據本身潛藏社會偏見,AI 系統便會不加思索地放大並延續這些不公。以人力資本管理為例,曾有跨國企業開發 AI 簡歷篩選系統以加速招聘流程,卻發現系統因過去十年的技術職位多由男性擔任,進而「學會」對包含女性特徵詞彙的簡歷給予較低評分。這種情況若發生在銀行或保險業的信貸審批上,將對特定族群造成系統性歧視,進而引發嚴重的合規風險與潛在的金融爭議。 另一個不容忽視的難題是深度學習模型的「黑箱」特質與透明度不足。即使是系統開發者,往往也難以確切解釋 AI 是如何推導出特定結論的。在醫療健康診斷、保險理賠評估或金融爭議處理等需要高度問責與精確性的領域中,這項缺陷尤為致命。若 AI 系統拒絕了客戶的理賠申請或作出了不利的決策,企業卻無法向大眾與監管機構提供清晰的邏輯解釋,這將嚴重摧毀消費者信任。因此,「可解釋性 AI」(Explainable AI)的發展與應用,對於推動技術落地至關重要。此外,在日常營運中,員工若在未經授權的情況下使用面向公眾的生成式 AI 工具,極易在不知不覺中輸入企業機密或客戶的敏感數據,這凸顯了防範數據隱私與商業機密外洩的迫切性。 面對上述挑戰,企業必須摒棄僵化的政策,轉而建立一套動態且跨部門的 AI 管治框架。AI 的應用早已超越單一資訊科技部門的範疇,企業應籌組涵蓋技術、法務、合規、人力資源及業務代表的專責委員會,共同制定符合企業核心價值觀的 AI 使用政策。同時,企業必須實施分級風險評估機制,針對不同應用場景採取差異化管理。例如,用於撰寫一般行銷文案的低風險系統可採常規監管;但涉及客戶信用評分、自動化醫療決策等高風險領域,則必須強制進行嚴格的「偏見審計」,並確保人類在決策流程中保留最終決定權。 在技術部署與企業文化層面,企業應積極引入私有化與企業級的 AI 解決方案,透過安全的隔離環境處理敏感數據,從根本上阻絕資料外洩的風險。然而,技術的防護仍需配合持續的內部審查與教育訓練。由於 AI 模型會隨著時間推移產生「數據漂移」(Data Drift)導致預測失準,企業必須定期對系統進行回溯測試。更重要的是,管治不僅是限制,更是賦能。企業應致力培養全體員工的數位素養,教導他們識別輸入敏感資訊的風險,並學會批判性地評估 AI 生成的結果,而非盲目信賴。 總結而言,在數位轉型的浪潮中,AI 的管治與道德標準絕非阻礙創新的絆腳石,而是企業實現永續發展(Sustainability)的堅實護城河。一間能夠負責任地運用 AI、嚴格保障數據隱私並確保算法公平性的企業,將能在未來競爭激烈的市場中贏得深厚的社會信任與品牌價值。唯有將「道德設計(Ethics by Design)」的理念深深植根於 AI 應用的每一個環節,企業方能在這場持續進化的技術革命中穩健前行。

非結構化數據 | CPJobs Career Advice