作者:梁棟、張兆靜、彭木根

內容簡介:

【想深入了解大數據、資料探勘的讀者請進!!】

什麼是資料前處理?
電信業者跟資料探勘有什麼關係?
神經網路具體到底是什麼?
集群分析的演算法有哪些?

◎資料探勘的「十大經典演算法」你都認識嗎?
國際權威的學術組織the IEEE International Conference on Data Mining (ICDM)評出了資料探勘領域的十大經典演算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive Bayes和CART。

1.C4.5演算法
C4.5是一種用在機器學習和資料探勘領域的分類問題中的演算法。它基於以下假設:給定一個資料集,其中的每一個元組都能用一組屬性值來描述,每一個元組屬於一個互斥的類別中的某一類。C4.5的目標是透過學習,找到一個從屬性值到類別的映射關係,並且這個映射能用於對新的類別未知的實體進行分類。

2.The K-Means Algorithm (K-Means演算法)
K-MeansAlgorithm是一種聚類演算法,它把n個對象根據他們的屬性分為k個分割,k<n。它與處理混合正態分布的最大期望演算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自空間向量,並且目標是使各個群組內部的均方誤差總和最小。它是一種無監督學習的演算法。

◎結構化/半結構化/非結構化資料有什麼不同?
(一)結構化資料:能夠用數據或統一的結構加以表示的資料,如數字、符號。傳統的關係資料模型,儲存於資料庫,通常可用二維表結構表示。
(二)非結構化資料:是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化資料(如數字、符號等資訊)而且更適合處理非結構化資料(全文文字、圖像、聲音、影視、超媒體等資訊)。
(三)半結構化資料: XML、HTML文檔就屬於半結構化資料。它一般是自描述的,資料結構和內容混在一起,沒有明顯的區分。

◎如何設計神經網路的拓撲結構?
在開始訓練之前,用戶必須確定網路拓撲,說明輸入層的單元數、隱藏層數(如果多於一層)、每個隱藏層的單元數和輸出層的單元數。

對訓練元組中每個屬性的輸入測量值進行規範化將有助於加快學習過程。通常,對輸入值規範化,使得它們落入0.0和1.0之間。離散值屬性可以重新編碼,使得每個域值有一個輸入單元。例如,如果屬性A有3個可能的或已知的值{a0,a1,a2}則可以分配三個輸入單元表示A,即我們可以用I0,I1,I2作為輸入單元。每個單元都初始化為0。如果A=a0,則I0置為1,其餘為0;如果A=a1,則I1置1,其餘為0;諸如此類。

神經網路可以用於分類(預測給定元組的類標號)和數值預測(預測連續值輸出)。對於分類,一個輸出單元可以用來表示兩個類(其中值1代表一個類,而值0代表另一個類)。如果多於兩個類,則每個類使用一個輸出單元。

★全書特色
全書分為九章,內容包括:大資料探勘與智慧營運的概念,資料前處理,資料探勘中的四種主流演算法:集群分析、分類分析、迴歸分析、關聯分析,增強型資料探勘演算法,資料探勘在營運商智慧營運中的應用案例,未來大資料探勘的發展趨勢等。主要提供給電信業者及其他高科技企業員工、大專院校學生和研究生,以及其他對資料探勘與精準行銷感興趣的讀者。

發行日:2020/8/26

定價:650

ISBN:9789577359926

博客來:

KOBO:

最後修改日期: 27 8 月, 2020

作者

留言

請問書裡面的SPSS範例沒有可以下載試作的檔案嗎?

撰寫回覆或留言

發佈留言必須填寫的電子郵件地址不會公開。