【廣告】
數據模型三要素是數據結構、數據操作、數據約束。
1、數據結構
是計算機存儲、組織數據的方式。數據結構是指相互之間存在一種或多種特定關系的數據元素的集合,即帶“結構”的數據元素的集合。。通常情況下,精心選擇的數據結構可以帶來更高的運行或者存儲效率。數據結構往往同有效的檢索算法和索引技術有關。
2、數據操作
數據模型中數據操作主要描述在相應的數據結構上的操作類型和操作方式。它是操作算符的集合,包括若干操作和推理規(guī)則,用以對目標類型的有效實例所組成的數據庫進行操作。
3、數據約束
數據模型中的數據約束主要描述數據結構內數據間的語法、詞義聯系、他們之間的制約和依存關系,以及數據動態(tài)變化的規(guī)則,以保證數據的正確、有效和相容。它是完整性規(guī)則的集合,用以限定符合數據模型的數據庫狀態(tài),以及狀態(tài)的變化。
數據建模的具體過程可分為六大步驟:
一、制訂目標
制訂目標的前提是理解業(yè)務,明確要解決的商業(yè)現實問題是什么?
如:在社交平臺KOL中,存在假粉絲的情況,如何識別假粉就是一個要解決的現實問題。
二、數據理解與準備
基于要解決的現實問題,理解和準備數據,一般需要解決以下問題:
1.需要哪些數據指標(即特征提?。??(如:哪些指標能區(qū)別真粉和假粉?)
2.數據指標的含義是什么?
3.數據的質量如何?(如:是否存在缺失值?)
4.數據能否滿足需求?
5.數據還需要如何加工?(如:轉換數據指標,將類別型變量轉化為0-1啞變量,或將連續(xù)型數據轉化為有序變量)
6.探索數據中的規(guī)律和模式,進而形成假設。
需要注意的是,數據準備工作可能需要嘗試多次。因為在復雜的大型數據中,較難發(fā)現數據中存在的模式,初步形成的假設可能會被很快推到,這時一定要靜心鉆研,不斷試錯。
數據建模后需要評估模型的效果,因此一般需要將數據分為訓練集和測試集。