
非結構化數據
近年數據科學及人工智能發展迅速,大眾開始對數據(Data)有很大興趣,甚至有「數據是未來的石油」(Data is the new oil)的講法。很容易會聽到如大數據(Big Data)、數據導向決策(Data Driven Decision)、數據化組織(Data Organization)等等與數據相關的詞語,其中重點,不外乎都是如何運用已儲存的數據,通過數據處理及數據分析,從而得出結論,幫助決策。筆者今日希望談談的,是另一個技術用語,與大數據一詞經常一齊出現,就是非結構化數據(Unstructured Data)。 何謂數據 要理解非結構化數據,要先理解何謂數據,廣義上的數據通常指的是原數據(Raw Data),是我們為了記錄事物而製造出來,因此要定義數據,筆者會用以下的定義。 數據本質上是紀錄(Record),是狀態的紀錄(Record of states),通常專指未經處理的原數據(Raw Data)。 記錄的形式可以包羅萬有、層出不窮,一個原始人結的繩結是數據;一本寫在竹簡上的書是數據;一個Excel檔案也是數據。資訊科技的高速發展,令我們可以儲存及記錄大量數據。由數據開始,人類可以掫取資訊(Information),歸納為知識(Knowledge),內化成智慧(Wisdom)。 所以數據是分析、學習的基礎,沒有數據,則無法從中掫取資訊,知識就更不可能由其中歸納而成。因此現今對數據的重視,最終目的,就在於希望由分析原數據,得到未知的見解(insight)。 結構化 只是有數據,仍是不夠,我們還需要將數據以結構化(Structured)的方式儲存,才能加以利用。試分析以下兩個情況: 1. 將銷售數據變成如下圖Excel欄及列的形式,分門別類處理好。 2. 收集好每一張銷售發票及銀行月結單,再作統計 要作銷售額統計,兩者較為容易呢?理所當然是前者。 分野原因何在?最關鍵的原因,在於數據是否已經結構化,Excel的欄及列有明顯數據結構:Product、Countries、Qtr1、Qtr2都是早已定義好的…










