物聯網數據的精煉應用是跨越數字化轉型鴻溝的基礎
隨著公司根據從物聯網設備獲得的數據實施更多的用例,甚至完成業務模式轉型,需要一種對這些數據進行數據質量管理的結構化方法變得至關重要。太多的公司試圖在質量低劣的數據基礎上擴大數字化轉型,這會導致很多挫敗感,并且幾乎沒有實際的商業利益。
我有時會用著名的“跨越鴻溝”圖進行類比。事實上,初創公司從早期創新者轉向被大多數市場采用所面臨的挑戰有相似之處。當應用于數字化轉型時,挑戰在于跨越從成功的數字化試點項目到全面實施的鴻溝。
許多公司無法在試點階段之后擴大數字化轉型計劃。
行業公司最近的研究證實,數據質量是擴展工業分析的主要障礙之一。換句話說,眾所周知的“垃圾進——垃圾出”的口號仍然很盛行。
了解數據質量
現在,盡管數據質量對我們大多數人來說具有直觀的意義,但實際上它是一個具有多種可能定義的彈性概念。這些范圍可以更窄,例如:
當數據正確地代表了它想要描述的潛在現實世界現象時,數據就具有良好的質量。
根據這個定義,數據需要有效、準確、一致和完整等。數據質量的另一個常見且同樣有用的定義如下:
當數據適合目的時,數據的質量就很好。
在第二個定義中,數據結構化、可解釋性和情境化的方面也被納入考慮范圍,只要這些方面與預期用例相關。
物聯網數據精煉廠
就像煉油廠中原油的情況一樣,質量可能較差的原始數據可以得到提煉。可以將其視為通過一系列“質量門”的數據,如下所示:
門1:可訪問
數據在可供使用時到達此門。此步驟需要成功連接到數據源并能夠查詢/讀取樣本。
門2:結構化和情境化
通過此門的數據是結構化和情境化的。對于物聯網數據,此步驟通常意味著已添加設備和資產元數據以及其他關鍵上下文。
門3:已驗證
下一步是數據的質量驗證。此時,數據質量是根據許多關鍵維度進行評估的,包括準確性、一致性和及時性。
門4:清理
評估數據質量通常是不夠的。許多數據產品需要數據清理作為管道的一部分來創建可供使用的數據。
門5:帶注釋
除了清理和結構化之外,可能還需要由主題專家(SME)或數據管理員提供的附加標簽,以使數據適合使用。例如,可以標記資產關閉的時間段或在檢查問題后添加根本原因信息。
門6:驗證
對于關鍵數據(例如關鍵報告或計費中使用的數據),讓數據管理員明確驗證數據并承諾適合使用的事實通常是一種很好的做法。
門7:共享
此時,數據已準備好共享。共享可以發生在內部或外部、與供應商或客戶。
門8:可視化
數據可視化和探索是下一步。分析師可以在PowerBI或類似的描述性分析環境中研究數據。
門9:建模
一些數據用于建模。此任務通常由數據科學家執行。
門10:預測
最后,模型可用于對新傳入數據進行預測。
隨著數據通過大門,它變得更加精致、更加值得信賴、更加有價值。我們確實可以將這個逐步過程視為“數據精煉廠”,并與煉油廠或蒸餾過程進行類比。
在真實的煉油廠中,生產各種產品。例如,靠近蒸餾塔底部的地方生產柴油和煤油等成分,用于重型卡車和噴氣式飛機。汽車中使用的汽油混合成分等較輕的成分被提取到蒸餾塔的頂部。
同樣,我們的數據精煉廠可能會產生各種數據產品。并非所有這些產品都同樣精致。重要的是,我們知道每個產品在數據特征和質量方面的期望。沒錯,我們不想不小心把煤油放進我們的跑車里!
數據產品占據中心舞臺
當公司意識到有必要明確定義數據產品作為數據基礎設施和最終用戶應用程序之間的一層時,就會出現宣泄的時刻。
數據產品由K2view定義為