SQL Server 2005數據挖掘實

《SQL Server 2005數據挖掘實例分析》對數據挖掘和知識發現的各個方面都進行了必要的解說,側重於用SSAS進行數據挖掘模型的建立、挖掘結果的分析與檢驗,以及解釋與驗證結果。數據挖掘的目的在於使用所發現的模式幫助解釋當前的行為或預測未來的結果。數據挖掘過程涉及下列7個研究方面:數據倉庫及OLAP技術、數據預處理、使用SQL Server Data Mining、關聯規則、分類和預測、聚類分析及時序和序列數據的挖掘。《SQL Server 2005數據挖掘實例分析》對主要的挖掘技術提供了詳細的SQL Server 2005數據挖掘的實例,讀者通過案例來實驗性地建立和檢驗數據挖掘模型。 《SQL Server 2005數據挖掘實例分析》適合希望學習SQL Server 2005數據挖掘技術的讀者,可以作為數據挖掘工程師的參考用書。《SQL Server 2005數據挖掘實例分析》適合作為高校教學數據挖掘的教程,也是公司培訓不可多得的參考用書。

內容簡介

《SQL Server 2005數據挖掘實例分析》闡述了數據挖掘的部分原理以及使用SSAS進行數據挖掘的基本方法和各種可視化工具。《SQL Server 2005數據挖掘實例分析》還針對不同的挖掘模型設計了實用的案例,幫助讀者深入理解數據挖掘和熟悉SSAS。對於數據挖掘的用戶而言,《SQL Server 2005數據挖掘實例分析》將成為他們的入門工具和實踐指南。相信大多數資料庫管理人員、IT專業人員和數據挖掘方面的學生都會從《SQL Server 2005數據挖掘實例分析》中獲益。

圖書目錄

前言
第1章 數據挖掘基本知識
1.1 數據挖掘的概念
1.2 數據挖掘的存儲對象
1.2.1 關係資料庫
1.2.2 數據倉庫
1.2.3 事務資料庫
1.2.4 高級資料庫系統和高級資料庫套用
1.3 基本數據挖掘任務
1.3.1 特徵和區分
1.3.2 關聯分析
1.3.3 分類和預測
1.3.4 聚類分析
1.3.5 局外者分析
1.4 數據挖掘系統的分類
1.5 數據挖掘的主要問題
第2章 數據倉庫OLAP技術
2.1 數據倉庫的概念
2.1.1 數據倉庫的定義
2.1.2 數據倉庫的建立
2.1.3 運算元據庫系統與數據倉庫的區別
2.1.4 分離的數據倉庫
2.2 多維數據模型
2.2.1 由表和電子數據表到數據方
2.2.2 多維資料庫模式
2.2.3 定義星型、雪花和星座的實例
2.2.4 度量的計算
2.2.5 概念分層
2.2.6 多維數據模型上的OLAP操作
2.2.7 多維資料庫的星型查詢模型
2.3 數據倉庫的系統結構
2.3.1 數據倉庫的設計步驟和結構
2.3.2 三層數據倉庫結構
2.3.3 OLAP伺服器類型(ROLAP、MOLAP、HOLAP)的比較
2.4 數據倉庫實現
2.4.1 數據方的有效計算
2.4.2 索引OLAP數據
2.4.3 OLAP查詢的有效處理
2.4.4 元數據存儲
2.4.5 數據倉庫後端工具和實用程式
2.5 數據方技術的進一步發展
2.5.1 數據方發現驅動的探查
2.5.2 多粒度上的複雜聚集:多特徵方
2.5.3 其他進展
2.6 由數據倉庫到數據挖掘
2.6.1 數據倉庫的使用
2.6.2 由在線上分析處理到在線上分析挖掘
第3章 數據預處理
3.1 數據預處理的重要性
3.2 數據清洗
3.2.1 遺漏數據處理
3.2.2 噪聲數據處理
3.2.3 不一致數據處理
3.3 數據集成與轉換
3.3.1 數據集成處理
3.3.2 數據轉換處理
3.4 數據消減
3.4.1 數據立方合計
3.4.2 維數消減
3.4.3 數據塊消減
3.5 離散化和概念層次樹生成
3.5.1 數值概念層次樹生成
3.5.2 類別概念層次樹生成
第4章 使用SQL Server 2005進行數據挖掘
4.1 關於Business Intelligence Development Studio
4.1.1 關於用戶界面
4.1.2 在線上模式和離線模式
4.1.3 如何創建數據挖掘對象
4.2 對數據源進行設定
4.2.1 數據源
4.2.2 使用數據源視圖
4.3 創建和編輯模型
4.3.1 挖掘結構與模型
4.3.2 使用數據挖掘嚮導
4.3.3 創建MovieClick的數據挖掘結構和模型
4.3.4 使用數據挖掘設計器
4.4 處理
4.5 使用模型
4.5.1 掌握模型查看器
4.5.2 使用挖掘準確性圖表
4.5.3 在MovieClick上建立提升圖
4.5.4 使用【挖掘模型預測】視窗
4.5.5 創建數據挖掘報告
第5章 關聯規則
5.1 關聯規則簡介
5.1.1 購物籃分析
5.1.2 關聯規則挖掘路線
5.2 關聯規則挖掘算法
5.2.1 Apriori算法:使用候選項集找頻繁項集
5.2.2 由頻繁項集產生關聯規則
5.2.3提高Aptiori的有效性
5.3 Microsoft關聯規則挖掘模型簡介
5.4 Microsoft關聯規則挖掘模型的使用
5.4.1 挖掘問題的提出
5.4.2 數據準備
5.4.3 挖掘模型簡介
5.4.4 挖掘操作流程
5.4.5 挖掘結果分析
第6章 分類和預測
6.1 分類與預測的內涵
6.2 有關分類和預測的若干問題
6.3 基於決策樹的分類
6.3.1 決策樹生成算法
6.3.2 樹剪枝
6.3.3 由決策樹提取分類規則
6.4 Microsoft決策樹挖掘模型簡介
6.5 Microsoft決策樹挖掘模型的使用
6.5.1 挖掘問題的提出
6.5.2 數據準備
6.5.3 挖掘模型簡介
6.5.4 挖掘操作流程
6.5.5 挖掘結果分析
6.6 貝葉斯分類
6.6.1 貝葉斯定理
6.6.2 樸素貝葉斯定理
6.6.3 Microsoft貝葉斯挖掘模型簡介
6.6.4 Microsoft貝葉斯挖掘模型的使用
6.6.5 挖掘結果分析
6.7 神經網路
6.7.1 神經網路概述
6.7.2 前饋神經網路
6.7.3 Microsoft神經網路挖掘模型簡介
6.7.4 挖掘操作流程
6.7.5 挖掘結果分析
第7章 聚類分析
7.1 聚類的概念
7.2 聚類分析中的數據類型
7.2.1 區間標度(Interval-Scaled)變數
7.2.2 二元(Binary)變數
7.2.3 標稱型、序數型和比例標度型變數
7.2.4 混合類型的變數
7.3 主要聚類方法的分類
7.3.1 劃分方法
7.3.2 層次方法
7.3.3 基於密度的方法
7.3.4 基於格線的方法
7.3.5 基於模型的方法
7.4 Microsoft聚類挖掘模型簡介
7.4.1 典型的劃分方法
7.4.2 算法參數
7.5 Microsoft聚類挖掘模型的使用
7.5.1 挖掘問題的提出
7.5.2 數據準備
7.5.3 挖掘模型簡介
7.5.4 挖掘操作流程
7.5.5 挖掘結果分析
第8章 時序和序列數據的挖掘
8.1 時序數據的挖掘
8.1.1 時序分析中的相似性搜尋
8.1.2 Microsoft時序分析挖掘模型簡介
8.1.3 Microsoft時序分析挖掘模型的使用
8.2 序列數據聚類
8.2.1 Microsoft順序分析挖掘模型簡介
8.2.2 Microsoft順序分析挖掘模型的使用
第9章 數據挖掘的套用和發展趨勢
9.1 數據挖掘的套用
9.1.1 針對生物醫學和DNA數據分析的數據挖掘
9.1.2 針對金融數據分析的數據挖掘
9.1.3 零售業中的數據挖掘
9.1.4 電信業中的數據挖掘
9.2 數據挖掘系統產品和研究原型
9.2.1 怎樣選擇一個數據挖掘系統
9.2.2 商用數據挖掘系統的例子
9.3 數據挖掘的其他主題
9.3.1 視頻和音頻數據挖掘
9.3.2 科學和統計數據挖掘
9.3.3 數據挖掘的理論基礎
9.3.4 數據挖掘和智慧型查詢應答
9.4 數據挖掘的社會影響
9.5 數據挖掘的發展趨勢
參考文獻

文摘

第1章 數據挖掘基本知識
數據挖掘作為一個新興的多學科交叉套用領域,正在各行各業的決策支持活動中扮演著越來越重要的角色。本章將從數據管理技術演化的角度介紹數據挖掘的由來、作用和意義。同時還將介紹數據挖掘系統的結構、數據挖掘所獲得的知識種類,以及數據挖掘系統的分類。最後還簡要介紹了當前數據挖掘領域尚存在的一些熱點問題。
本章內容包括:
數據挖掘的概念
數據挖掘的存儲對象
基本數據挖掘任務
數據挖掘系統的分類
數據挖掘的主要問題
1.1 數據挖掘的概念
數據挖掘,比較公認的定義是W.J.Frawley、G.PiantetskyShapir0等人提出來的;數據挖掘就是從大型資料庫的數據中提取人們感興趣的知識。這些知識是隱含的、實現未知的潛在的有用信息,提取的知識表示為概念、規則、規律、模式等形式。
這裡把數據挖掘的對象定義為資料庫,更廣義的說法是:數據挖掘意味著在一些事實或者觀察數據的集合中尋找模式的決策支持過程。數據挖掘的對象不僅可以是資料庫,也可以是檔案系統,或者其他任何組織在一起的數據幾何,例如WWw信息資源。本書在討論數據挖掘時採用資料庫觀點,即著重強調大型資料庫(SQL Server 2005)中有效的和可規模化的數據挖掘技術。一個算法是可以規模化的,對於給定的記憶體和磁碟空間等可利用的系統資源,其運行時間隨資料庫大小線性增長。通過數據挖掘,可以從資料庫提取有趣的知識、規律或高層次信息,並可以從不同角度觀察或瀏覽。發現的知識可以用於決策、過程控制、信息管理、查詢處理等。因此,數據挖掘被信息產業界認為是資料庫系統重要的前沿之一,是信息產業最有前途的交叉學科。
隨著資料庫技術的迅速發展以及資料庫管理系統的廣泛套用,人們積累的數據越來越多。激增的數據背後隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。目前的資料庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關係和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背後隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。

相關詞條

熱門詞條

聯絡我們