一些人士和組織認識到數據對未來的重要性,在數據學認知缺位的情況下,或自已臆想,或引用別人并不正確說法,濫用數據學的概念和理論。在這種情況下,知識界需要對作為科學的數據學較有嚴肅的認知。
進入信息社會以后,數據以自然方式增長,其產生不以人的意志為轉移。數據學最重要的基礎在于定義了數據自然(data nature)。數據自然是所有存入信息系統的數據總集合,包括數字、字符、音視頻以及計算機程序等。與大自然一樣,數據自然也有未知、復雜、多樣等屬性。
在數據自然的視角下,人、社會、大自然及其歷史,都將轉變成數據自然,人類同時生活在大自然和數據自然之中。人類將通過探索數據自然來了解大自然,了解社會和人類行為。在數據自然的視角下,數據學被定義為研究探索數據自然奧秘的理論、方法和技術,通過研究數據自然,揭示大自然和人類行為的規律。
在數據學的體系中,要在數據自然中獲得收益,與在大自然中獲得收益類似,需要采用一系列技術方法。
首先要對數據自然進行數據勘探,探查數據集的總體特征和數據集的結構,判斷數據集的價值,為下一步開發利用該數據集提供依據。數據抽樣和數據分析是數據勘探的基本方法。
完成數據勘探,與采礦、洗礦類似,可將相關數據集從數據自然中提取出來并加以清洗,稱之為數據獲取。數據再通過整合,使之在邏輯上相關聯并使之便于訪問,就可存入數據倉庫。接著,可采用數據挖掘技術對數據倉庫進行處理,尋找數據的內在規律并以可視化的形態展示。數據獲取、數據整合、數據倉庫和數據挖掘均經過多年發展,比較成熟,現在都可以歸入數據學的范疇。
面對大自然,人類可以用科學實驗的方法,通過有控制的干預,發現對象的新特點、新規律,從而加以利用,獲得收益。例如在實驗室中可以合成新的化合物,培養新的物種,再將其量產。
按數據學理論,面對數據自然,也可以采用數據實驗的方法,通過干預和控制數據,發現數據自然、人類社會和大自然的新規律,新特點,并設計出將其轉化為生產性活動模式。
數據實驗可以模擬企業運行、政府運作、社會現象。比如,可以模擬新產品投產上市后的運行,模擬不同氣候條件下流感的傳播等。在數據實驗中,可以輸入不同參數,對數據模型調優。數據實驗還可以模擬自然現象,比如極端氣候,用來評估災害。
數據實驗是數據學最主要的研究方法,用來模擬大自然和人文社會,用來驗證假說和規律。它比用于發現數據相關性的數據勘探和數據挖掘,在探索數據自然的深度上又前進了一大步。
近年,一些先進的企業設立了首席數據官(CDO),招聘數據科學家,成立與IT部門并立的數據部,試圖在企業運營中運用數據學的方法。未來,我們可以期待數據學將像從前的IT一樣,對企業和人類社會產生極為深遠的影響。計世傳媒集團副總編 孫定