《Web數據挖掘》

《Web數據挖掘》

《Web數據挖掘》是信息檢索領域的書籍,該書深入講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web信息採集機制、Web標引機制以及基於關鍵字或基於相似性搜尋機制),然後系統地描述了Web挖掘的基礎知識,著重介紹基於超文本的機器學習和數據挖掘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的套用。《Web數據挖掘》為讀者提供了堅實的技術背景和最新的知識。

基本信息

人民郵電出版社書籍

Web數據挖掘

作者:(印度)(SoumenChakrabarti)查凱萊巴蒂
市場價:59.00
出版社:人民郵電出版社頁碼:344頁
出版日期:2009年
ISBN:9787115194046
版本:1版
裝幀:平裝
開本:16
Web數據挖掘Web數據挖掘

英語:英語
叢書名:圖靈原版計算機科學系列
外文書名:MiningtheWeb:DiscoveringKnowledgefromHypertextData

內容簡介

《Web數據挖掘》是從事數據挖掘學術研究和開發的專業人員理想的參考書,同時也適合作為高等院校計算機及相關專業研究生的教材。

作者簡介

SoumenChakrabarti,Web搜尋與挖掘領域的知名專家,ACMTransactionsontheWeb副主編。加州大學伯克利分校博士,目前是印度理工學院計算機科學與工程系副教授。曾經供職於IBMAlmaden研究中心,從事超文本數據庫和數據挖掘方面的工作。他有豐富的實際項目開發經驗,開發了多個WEB挖掘系統,並獲得了多項美國專利。

媒體推薦

本書是Web挖掘與搜尋引擎領域的經典著作,自出版以來深受好評,已經被斯坦福、普林斯頓、卡內基梅隆等世界名校採用為教材。書中首先介紹了Web爬行和搜尋等許多基礎性的問題,並以此為基礎,深入闡述了解決Web挖掘各種難題所涉及的機器學習技術,提出了機器學習在系統獲取、存儲和分析數據中的許多套用,並探討了這些套用的優劣和發展前景。全書分析透徹,富於前瞻性,為構建Web挖掘創新性套用奠定了理論和實踐基礎,既適用於信息檢索和機器學習領域的研究人員和高校師生,也是廣大Web開發人員的優秀參考書。
“本書深入揭示了搜尋引擎的技術內幕!有了它,你甚至能夠自己開發一個搜尋引擎。”
圖書室圖書室

——searchenginewatch網站
“本書系統、全面而且深入,廣大Web技術開發人員都能很好地理解和掌握其中內容。作者是該研究領域的領軍人物之一,在超文本信息挖掘和檢索方面有著淵博的知識和獨到的見解。”
——JoydeepGhosh,德克薩斯大學奧斯汀分校教授,IEEE會士
“作者將該領域的所有重要工作融合到這部傑作中,並以一種通俗易懂的方式介紹了原本非常
深奧的內容。有了這本書,Web挖掘終於有可能成為大學的一門課程了。”
——JaideepSrivastava,明尼蘇達大學教授,IEEE會士

編輯推薦

《Web數據挖掘》是Web挖掘與搜尋引擎領域的經典著作,自出版以來深受好評,已經被斯坦福、普林斯頓、卡內基梅隆等世界名校採用為教材。書中首先介紹了Web爬行和搜尋等許多基礎性的問題,並以此為基礎,深入闡述了解決Web挖掘各種難題所涉及的機器學習技術,提出了機器學習在系統獲取、存儲和分析數據中的許多套用,並探討了這些套用的優劣和發展前景。
《Web數據挖掘》分析透徹,富於前瞻性,為構建Web挖掘創新性套用奠定了理論和實踐基礎,既適用於信息檢索和機器學習領域的研究人員和高校師生,也是廣大Web開發人員的優秀參考書。

目錄

INTRODUCTION
1.1CrawlingandIndexing
1.2TopicDirectories
1.3ClusteringandClassification
1.4HyperlinkAnalysis
1.5ResourceDiscoveryandVerticalPortals
1.6Structuredvs.unstructuredDataMining
1.7BibliographicNotes
PARTⅠINFRASTRUCTURE
2CRAWLINGTHEWEB
2.1HTMLandHTTPBasics
2.2CrawlingBasics
2.3EngineeringLarge-ScaleCrawlers
2.3.1DNSCaching,Prefetching,andResolution
2.3.2MultipleConcurrentFetches
2.3.3LinkExtractionandNormalization
2.3.4RobotExclusion
2.3.5EliminatingAlready-VisitedURLs
2.3.6SpiderTraps
2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
2.3.8LoadMonitorandManager
2.3.9Per-ServerWork-Queues
2.3.10TextRepository
2.3.11RefreshingCrawledPages
2.4PuttingTogetheraCrawler
2.4.1DesignoftheCoreComponents
2.4.2CaseStudy:Usingw3c-1ibwww
2.5BibliographicNotes
3WEBSEARCHANDINFORMATIONRETRIEVAL
3.1BooleanQueriesandtheInvertedIndex
3.1.1StopwordsandStemming
3.1.2BatchIndexingandUpdates
3.1.3IndexCompressionTechniques
3.2RelevanceRanking
3.2.1RecallandPrecision
3.2.2TheVector-SpaceModel
3.2.3RelevanceFeedbackandRocchio'sMethod
3.2.4ProbabilisticRelevanceFeedbackModels
3.2.5AdvancedIssues
3.3SimilaritySearch
3.3.1Handling"Find-Similar"Queries
3.3.2EliminatingNearDuplicatesviaShingling
3.3.3DetectingLocallySimilarSubgraphsoftheWeb
3.4BibliographicNotes
PARTⅡLEARNING
SIMILARITYANDCLUSTERING
4.1FormulationsandApproaches
4.1.1PartitioningApproaches
4.1.2GeometricEmbeddingApproaches
4.1.3generativeModelsandProbabilisticApproaches
4.2Bottom-UpandTop-DownPartitioningParadigms
4.2.1AgglomerativeClustering
4.2.2Thek-MeansAlgorithm
4.3ClusteringandVisualizationviaEmbeddings
4.3.1Self-OrganizingMaps(soms)
4.3.2MultidimensionalScaling(MDS)andFastMap
4.3.3ProjectionsandSubspaces
4.3.4LatentSemanticIndexing(LSI)
4.4ProbabilisticApproachestoClustering
4.4.1GenerativeDistributionsforDocuments
4.4.2MixtureModelsandExpectationMaximization(EM)
4.4.3MultipleCauseMixtureModel(MCMM)
4.4.4AspectModelsandProbabilisticLSI
4.4.5ModelandFeatureSelection
4.5CollaborativeFiltering
4.5.1ProbabilisticModels
4.5.2CombiningContent-BasedandCollaborativeFeatures
4.6BibliographicNotes
5SUPERVISEDLEARNING
5.1TheSupervisedLearningScenario
5.2OverviewofClassificationStrategies
5.3EvaluatingTextClassifiers
5.3.1Benchmarks
5.3.2MeasuresofAccuracy
5.4NearestNeighborLearners
5.4.1ProsandCons
5.4.2IsTFIDFAppropriate?
5.5FeatureSelection
5.5.1GreedyInclusionAlgorithms
5.5.2TruncationAlgorithms
5.5.3ComparisonandDiscussion
5.6BayesianLearners
5.6.1NaiveBayesLearners
5.6.2Small-DegreeBayesianNetworks
5.7ExploitingHierarchyamongTopics
5.7.1FeatureSelection
5.7.2EnhancedParameterEstimation
5.7.3TrainingandSearchStrategies
5.8MaximumEntropyLearners
5.9DiscriminativeClassification
5.9.1LinearLeast-SquareRegression
5.9.2SupportVectorMachines
5.10HypertextClassification
5.10.1RepresentingHypertextforSupervisedLearning
5.10.2RuleInduction
5.11BibliographicNotes
6SEMISUPERVISEDLEARNING
6.1ExpectationMaximization
6.1.1ExperimentalResults
6.1.2ReducingtheBeliefinUnlabeledDocuments
6.1.3ModelingLabelsUsingManyMixtureComponents
……
PARTⅢAPPLICATIONS
……

序言

Thisbookisaboutfindingsignificantstatisticalpatternsrelatinghypertextdocuments,topics,hyperlinks,andqueriesandusingthesepatternstoconnectuserstoinformationtheyseek.TheWebhasbecomeavaststorehouseofknowledge,builtinadecentralizedyetcollaborativemanner.Itisaliving,growing,populist,andparticipatorymediumofexpressionwithnocentraleditorship.Thishaspositiveandnegativeimplications.Onthepositiveside,thereiswidespreadparticipationinauthoringcontent.Comparedtoprintorbroadcastmedia,theratioofcontentcreatorstotheaudienceismoreequitable.Onthenegativeside,theheterogeneityandlackofstructuremakesithardtoframequeriesandsatisfyinformationneeds.Formanyqueriesposedwiththehelpofwordsandphrases,therearethousandsofapparentlyrelevantresponses,butoncloserinspectiontheseturnouttobedisappointingforallbutthesimplestqueries.Queriesinvolvingnounsandnounphrases,wheretheinformationneedistofindoutaboutthenamedentity,arethesimplestsortofinformation-huntingtasks.Onlysophisticateduserssucceedwithmorecomplexqueries——forinstance,thosethatinvolvearticlesandprepositionstorelatenamedobjects,actions,andagents.IfyouarearegularseekeranduserofWebinformation,thisstateofaffairsneedsnofurtherdescription.
Detectingandexploitingstatisticaldependenciesbetweenterms,Webpages,andhyperlinkswillbethecentralthemeinthisbook.Suchdependenciesarealsocalledpatterns,andtheactofsearchingforsuchpatternsiscalledmachinelearning,ordatamining.HerearesomeexamplesofmachinelearningforWebapplications.GivenacrawlofasubstantialportionoftheWeb,wemaybeinterestedinconstructingatopicdirectorylikeYahoo!,perhapsdetectingtheemergenceanddeclineofprominenttopicswithpassingtime.Onceatopicdirectoryisavailable,wemaywishtoassignfreshlycrawledpagesandsitestosuitablepositionsinthedirectory.

清華大學出版社書籍

基本信息

Web數據挖掘
作者:BingLiu著、俞勇等譯
ISBN:9787302193388
定價:49元
印次:1-3
裝幀:平裝
印刷日期:2011-3-16

圖書簡介

本書旨在講述這些任務以及它們的核心挖掘算法;儘可能涵蓋每個話題的廣泛內容,給出足夠多的細節,以便讀者無須藉助額外的閱讀,即可獲得相對完整的關於算法和技術的知識。其中結構化數據的抽取、信息整合、觀點挖掘和Web使用挖掘等4章是本書的特色,這些內容在已有書籍中沒有提及,但它們在Web數據挖掘中卻占有非常重要的地位。當然,傳統的Web挖掘主題,如搜尋、頁面爬取和資源探索以及連結分析在書中也作了詳細描述。
本書儘管題為“Web數據挖掘”,卻依然涵蓋了數據挖掘和信息檢索的核心主題;因為Web挖掘大量使用了它們的算法和技術。數據挖掘部分主要由關聯規則和序列模式、監督學習(分類)、無監督學習(聚類)這三大最重要的數據挖掘任務,以及半監督學習這個相對深入的主題組成。而信息檢索對於Web挖掘而言最重要的核心主題都有所闡述。

前言

譯者
2009年3月譯者序序言
過去幾十年里,Web的迅速發展使其成為世界上規模最大的公共數據源。Web數據挖掘的目標是從Web超連結、網頁內容和使用日誌中探尋有用的信息。依據在挖掘過程中使用的數據類別,Web挖掘的任務可以被劃分為三種主要類型:Web結構挖掘、Web內容挖掘和Web使用挖掘。Web結構挖掘從表征Web結構的超連結中尋找知識。Web內容挖掘從網頁內容中抽取有用的信息和知識。而Web使用挖掘則從記錄每位用戶點擊情況的使用日誌中挖掘用戶的訪問模式。
本書旨在講述這些任務以及它們的核心挖掘算法;儘可能涵蓋每個話題的廣泛內容,給出足夠多的細節,以便讀者無須藉助額外的閱讀,即可獲得相對完整的關於算法和技術的知識。其中結構化數據的抽取、信息整合、觀點挖掘和Web使用挖掘等4章是本書的特色,這些內容在已有書籍中沒有提及,但它們在Web數據挖掘中卻占有非常重要的地位。當然,傳統的Web挖掘主題,如搜尋、頁面爬取和資源探索以及連結分析在書中也作了詳細描述。
本書儘管題為“Web數據挖掘”,卻依然涵蓋了數據挖掘和信息檢索的核心主題;因為Web挖掘大量使用了它們的算法和技術。數據挖掘部分主要由關聯規則和序列模式、監督學習(分類)、無監督學習(聚類)這三大最重要的數據挖掘任務,以及半監督學習這個相對深入的主題組成。而信息檢索對於Web挖掘而言最重要的核心主題都有所闡述。因此,本書自然的分為兩大部分。第一部分,包括第2~5章,介紹數據挖掘的基礎。第二部分,包括第6~12章,介紹Web相關的挖掘任務。
有兩大指導性原則貫穿本書始末。其一,本書的基礎內容適合本科生閱讀,但也包括足夠多的深度資料,以滿足打算在Web數據挖掘和相關領域研讀博士學位的研究生。書中對讀者的預備知識幾乎沒有作任何要求,任何對算法和機率知識稍有理解的人都應當能夠順利地讀完本書。其二,本書從實踐的角度來審視Web挖掘的技術。這一點非常重要,因為大多數Web挖掘任務都在現實世界中有所套用。在過去的幾年中,我有幸直接或間接地與許多研究人員和工程人員一起工作,他們來自於多個搜尋引擎、電子商務公司,甚至是對在業務中利用Web信息感興趣的傳統公司。在這個過程中,我獲得了許多現實世界問題的實踐經歷和第一手知識。我儘量將其中非機密的信息和知識通過本書傳遞給讀者,因此本書能在理論和實踐中有所平衡。我希望本書不僅能夠成為學生的教科書,也能成為Web挖掘研究人員和實踐人員獲取知識、信息,甚至是創新想法的一個有效渠道。
序言序言致謝
在撰寫本書的過程中,許多研究人員都給予我無私的幫助;沒有他們的幫助,這本書也許永遠無法成為現實。我最深切的感謝要給予FilippoMenczer和BamshadMobasher,他們熱情地撰寫了本書中重要的兩個章節,他們也是相關領域的專家。Filippo負責Web爬取這一章,Bamshad負責Web使用挖掘這一章。我還要感謝WeeSunLee(李偉上),他幫助完成第5章半監督學習的很大一部分。
JianPei(裴健)幫助撰寫了第2章中PrefixSpan算法,並且檢查了MS-PS算法。EduardDragut幫助撰寫了第10章的最後一節,並且多次閱讀並修改這一整章。YuanlinZhang對第9章提出很多意見。我對他們所有人都有所虧欠。
還有許多研究人員以各種方式提供了幫助。YangDai(戴陽)和RudySetiono在支持向量機(SVM)上提供幫助。ChrisDing(丁宏強)對連結分析提供了幫助。ClementYu(余德)和ChengXiangZhai(翟成祥)閱讀了第6章。AmyLangville閱讀了第7章。KevinC.-C.Chang(張振川)、Ji-RongWen(文繼榮)和ClementYu(余德)幫助了第10章的許多方面。JustinZobel幫助理清了索引壓縮的許多議題。IonMuslea幫助理清了包裹簡介的一些議題。DivyAgrawal、YunboCao(曹雲波)、EdwardFox、HangLi(李航)、XiaoliLi(李曉黎)、ZhaohuiTan、DellZhang(張德)和ZijianZheng幫助檢查了各個章節。在此對他們表示感謝!
和許多研究人員的討論也幫助本書的成形。這些人包括AmirAshkenazi、ImranAziz、RobertoBayardo、WendellBaker、LingBao、JeffreyBenkler、AnHaiDoan、ByronDom、MichaelGamon、RobertGrossman、JiaweiHan(韓家煒)、WynneHsu、RonnyKohavi、DavidD.Lewis、IanMcAllister、Wei-YingMa(馬維英)、MarcoMaggini、LlewMason、KamelNigan、JulianQian、YanQu、ThomasM.Tirpak、AndrewTomkins、AlexanderTuzhilin、WeiminXiao、GuXu(徐谷)、PhilipS.Yu和MohammedZaki.
我的學生們(不論已畢業或是在讀)檢查了許多算法的正確性並且作出了許多修正。他們包括GaoCong(從高)、MinqingHu、NitinJindal、XinLi、YimingMa、YanhongZhai和KaidiZhao。本書中一些章節是我在伊利諾伊斯大學芝加哥分校的研究生課程講義。我要感謝這些課程的學生幫我實現了一部分算法。他們提出的問題在某些情況下也幫助我修正算法。在這裡我不可能完全列出他們的名字,但我要特別感謝JohnCastano、XiaowenDing、MurthyGanapathibhotla、CynthiaKersey、HariPrasadDivyakotti、RavikanthTurlapati、SrikanthTadikonda、MakioTamura、HaishengWang和ChadWilliams,他們指出講義中文本、舉例或算法的錯誤。來自德保羅大學的MichaelBombyk也指出了不少筆誤。
與Springer出版社的員工一起工作是一段令人愉快的經歷。感謝編輯RalfGerstner在2005年初徵詢我對撰寫一本有關Web挖掘的書籍是否感興趣。從那以後,我們一直保持著愉快的合作經歷。我還要感謝校對MikeNugent提高了本書內容的表達質量,以及製作編輯MichaelReinfarth引導我順利完成了本書的出版過程。還有兩位匿名評審也給出不少有見解的評論。伊利諾伊斯大學芝加哥分校計算機科學系對本項目提供了計算資源和工作環境的支持。
最後,我要感謝我的父母和兄弟姐妹,他們給予我一貫的支持和鼓勵。我將最深刻的感激給予我自己的家庭成員:Yue、Shelley和Kate。他們也在許多方面給予支持和幫助。儘管Shelley和Kate還年幼,但他們閱讀了本書的絕大部分,並且找出了不少筆誤。我的妻子將家裡一切事情打理得秩序井然,使我可以將充分的時間和精力用在這本書上。謹以此書獻給他們!
BingLiu(劉兵)

目錄

第一部分數據挖掘基礎
第1章概述3
1.1什麼是全球資訊網3
1.2全球資訊網和網際網路的歷史簡述4
1.3Web數據挖掘5
1.3.1什麼是數據挖掘6
1.3.2什麼是Web數據挖掘7
1.4各章概要8
1.5如何閱讀本書10
文獻評註10
第2章關聯規則和序列模式12
2.1關聯規則的基本概念12
2.2Apriori算法14
2.2.1頻繁項目集生成14
2.2.2關聯規則生成17
2.3關聯規則挖掘的數據格式19
2.4多最小支持度的關聯規則挖掘20
2.4.1擴展模型21
2.4.2挖掘算法22
2.4.3規則生成26
2.5分類關聯規則挖掘27
2.5.1問題描述27
2.5.2挖掘算法28
2.5.3多最小支持度分類關聯規則挖掘31
2.6序列模式的基本概念31
2.7基於GSP挖掘序列模式32
2.7.1GSP算法33
2.7.2多最小支持度挖掘34
2.8基於PrefixSpan算法的序列模式挖掘37
2.8.1PrefixSpan算法38
2.8.2多最小支持度挖掘39
2.9從序列模式中產生規則41
2.9.1序列規則41
2.9.2標籤序列規則41
2.9.3分類序列規則42
文獻評註42
目錄目錄第3章監督學習45
3.1基本概念45
3.2決策樹推理48
3.2.1學習算法49
3.2.2混雜度函式50
3.2.3處理連續屬性53
3.2.4其他一些問題54
3.3評估分類器56
3.3.1評估方法56
3.3.2查準率、查全率、F-score和平衡點(BreakevenPoint)57
3.4規則推理59
3.4.1序列化覆蓋59
3.4.2規則學習:Learn-One-Rule函式61
3.4.3討論63
3.5基於關聯規則的分類63
3.5.1使用類關聯規則進行分類64
3.5.2使用類關聯規則作為分類屬性66
3.5.3使用古典的關聯規則分類66
3.6樸素貝葉斯分類67
3.7樸素貝葉斯文本分類70
3.7.1機率框架70
3.7.2樸素貝葉斯模型71
3.7.3討論73
3.8支持向量機73
3.8.1線性支持向量機:可分的情況74
3.8.2線性支持向量機:數據不可分的情況78
3.8.3非線性支持向量機:核方法80
3.9k-近鄰學習82
3.10分類器的集成83
3.10.1Bagging83
3.10.2Boosting84
文獻評註84
第4章無監督學習87
4.1基本概念87
4.2k-均值聚類89
4.2.1k-均值算法89
4.2.2k-均值算法的硬碟版本91
4.2.3優勢和劣勢92
4.3聚類的表示95
4.3.1聚類的一般表示方法95
4.3.2任意形狀的聚類95
4.4層次聚類96
4.4.1單連結方法97
4.4.2全連結方法98
4.4.3平均連結方法98
4.4.4優勢和劣勢98
4.5距離函式99
4.5.1數值的屬性(NumericAttributes)99
4.5.2布爾屬性和符號屬性(BinaryandNominalAttributes)99
4.5.3文本文檔101
4.6數據標準化101
4.7混合屬性的處理103
4.8採用哪種聚類算法104
4.9聚類的評估104
4.10發現數據區域和數據空洞106
文獻評註108
第5章部分監督學習110
5.1從已標註數據和無標註數據中學習110
5.1.1使用樸素貝葉斯分類器的EM算法111
5.1.2Co-Training114
5.1.3自學習115
5.1.4直推式支持向量機116
5.1.5基於圖的方法117
5.1.6討論119
5.2從正例和無標註數據中學習119
5.2.1PU學習的套用120
5.2.2理論基礎121
5.2.3建立分類器:兩步方法122
5.2.4建立分類器:直接方法127
5.2.5討論128
附錄:樸素貝葉斯EM算法的推導129
文獻評註131第二部分Web挖掘
第6章信息檢索與Web搜尋135
6.1信息檢索中的基本概念136
6.2信息檢索模型138
6.2.1布爾模型138
6.2.2向量空間模型139
6.2.3統計語言模型141
6.3關聯性反饋142
6.4評估標準143
6.5文本和網頁的預處理147
6.5.1停用詞移除147
6.5.2詞幹提取147
6.5.3其他文本預處理步驟148
6.5.4網頁預處理步驟148
6.5.5副本探測149
6.6倒排索引及其壓縮150
6.6.1倒排索引150
6.6.2使用倒排索引搜尋151
6.6.3索引的建立152
6.6.4索引的壓縮153
6.7隱式語義索引157
6.7.1奇異值分解158
6.7.2查詢和檢索159
6.7.3實例160
6.7.4討論163
6.8Web搜尋163
6.9元搜尋引擎和組合多種排序165
6.9.1使用相似度分數的合併166
6.9.2使用排名位置的合併166
6.10網路作弊168
6.10.1內容作弊169
6.10.2連結作弊169
6.10.3隱藏技術170
6.10.4抵製作弊171
文獻評註172
第7章連結分析174
7.1社會關係網分析175
7.1.1中心性175
7.1.2權威177
7.2同引分析和引文耦合178
7.2.1同引分析178
7.2.2引文耦合179
7.3PageRank179
7.3.1PageRank算法180
7.3.2PageRank算法的優點和缺點185
7.3.3TimedPageRank185
7.4HITS186
7.4.1HITS算法187
7.4.2尋找其他的特徵向量189
7.4.3同引分析和引文耦合的關係189
7.4.4HITS算法的優點和缺點189
7.5社區發現191
7.5.1問題定義191
7.5.2二分核心社區192
7.5.3最大流社區193
7.5.4基於中介性的電子郵件社區195
7.5.5命名實體的重疊社區196
文獻評註197
第8章Web爬取199
8.1一個簡單爬蟲算法199
8.1.1寬度優先爬蟲201
8.1.2帶偏好的爬蟲201
8.2實現議題202
8.2.1網頁獲取202
8.2.2網頁解析202
8.2.3刪除無用詞並提取詞幹204
8.2.4連結提取和規範化204
8.2.5爬蟲陷阱206
8.2.6網頁庫206
8.2.7並發性207
8.3通用爬蟲208
8.3.1可擴展性208
8.3.2覆蓋度、新鮮度和重要度209
8.4限定爬蟲210
8.5主題爬蟲212
8.5.1主題本地性和線索213
8.5.2最優優先變種217
8.5.3自適應219
8.6評價標準223
8.7爬蟲道德和衝突226
8.8最新進展228
文獻評註230
第9章結構化數據抽取:包裝器生成231
9.1預備知識231
9.1.1兩種富含數據的網頁232
9.1.2數據模型233
9.1.3數據實例的HTML標記編碼235
9.2包裝器歸納236
9.2.1從一張網頁抽取237
9.2.2學習抽取規則238
9.2.3識別提供信息的樣例242
9.2.4包裝器維護242
9.3基於實例的包裝器學習243
9.4自動包裝器生成中的一些問題245
9.4.1兩個抽取問題246
9.4.2作為正則表達式的模式246
9.5字元串匹配和樹匹配247
9.5.1字元串編輯距離247
9.5.2樹匹配249
9.6多重對齊252
9.6.1中星方法252
9.6.2部分樹對齊253
9.7構建DOM樹257
9.8基於列表頁的抽取:平坦數據記錄258
9.8.1有關數據記錄的兩個觀察結果258
9.8.2挖掘數據區域259
9.8.3從數據區域中識別數據記錄263
9.8.4數據項對齊與抽取263
9.8.5利用視覺信息264
9.8.6一些其他技術264
9.9基於列表頁的抽取:嵌套數據記錄265
9.10基於多張網頁的抽取269
9.10.1採用前幾節中的技術270
9.10.2Roadrunner算法270
9.11一些其他問題271
9.11.1從其他網頁中抽取271
9.11.2析取還是可選272
9.11.3一個集合類型還是一個元組類型273
9.11.4標註與整合273
9.11.5領域相關的抽取273
9.12討論274
文獻評註274
第10章信息集成276
10.1什麼是樣式表匹配277
10.2樣式表匹配的預處理工作278
10.3樣式表層次的匹配279
10.3.1基於語言學的算法279
10.3.2基於樣式表中限制的算法280
10.4基於領域和實例層次的匹配280
10.5不同相似度的聯合282
10.61:?m?匹配283
10.7其他問題284
10.7.1重用以前的匹配結果284
10.7.2大量樣式表的匹配285
10.7.3樣式表匹配的結果285
10.7.4用戶互動285
10.8Web搜尋界面的集成285
10.8.1基於聚類的算法287
10.8.2基於互關係的方法289
10.8.3基於實例的方法290
10.9構建一個全局的搜尋界面292
10.9.1結構上的正確性和合併算法293
10.9.2辭彙的正確性294
10.9.3實例的正確性295
文獻評註295
第11章觀點挖掘296
11.1意見分類297
11.1.1基於意見短語的分類297
11.1.2採用文本分類方法進行意見分類299
11.1.3基於評分函式進行分類299
11.2基於特徵的觀點挖掘和摘要300
11.2.1問題定義301
11.2.2對象特徵抽取305
11.2.3格式1中正面和負面評價部分的特徵抽取306
11.2.4符合格式2和3的評審上的特徵抽取308
11.2.5觀點傾向分類309
11.3比較性句子和比較關係挖掘310
11.3.1問題定義311
11.3.2等級比較性語句的識別312
11.3.3比較關係的抽取314
11.4觀點搜尋315
11.5觀點欺詐316
11.5.1觀點欺詐的目標和行為317
11.5.2欺詐和欺詐者的種類317
11.5.3隱藏技巧318
11.5.4欺詐檢測318
文獻評註320
第12章Web使用挖掘322
12.1數據收集和預處理323
12.1.1數據的來源和類型323
12.1.2Web使用記錄數據預處理的關鍵元素326
12.2Web使用記錄挖掘的數據建模331
12.3Web用法模式的發現和分析334
12.3.1會話和訪問者分析334
12.3.2聚類分析和訪問者分割334
12.3.3關聯及相關度分析337
12.3.4序列和導航模式分析340
12.3.5基於Web用戶事務的分類和預測342
12.4討論和展望343
文獻評註344
參考文獻345

相關詞條

相關搜尋

熱門詞條

聯絡我們