Web数据挖掘(世界著名计算机教材精选)

王朝导购·作者佚名

宽屏版字体: 小|中|大|超大

　　点此进入淘宝搜索页搜索

　　特别声明：本站仅为商品信息简介，并不出售商品，您可点击文中链接进入淘宝网搜索页搜索该商品，有任何问题请与具体淘宝商家联系。

　　参考价格: 点此进入淘宝搜索页搜索
　　分类: 图书,计算机与互联网,数据库,数据仓库/数据挖掘,
　　品牌: 刘兵

基本信息·出版社：清华大学出版社

·页码：375 页

·出版日期：2009年

·ISBN：730219338X/9787302193388

·条形码：9787302193388

·包装版本：1版

·装帧：平装

·开本：16

·正文语种：中文

·丛书名：世界著名计算机教材精选

产品信息有问题吗？请帮我们更新产品信息。

内容简介《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是《Web数据挖掘》的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。

《Web数据挖掘》尽管题为“Web数据挖掘”，却依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大最重要的数据挖掘任务，以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。

作者简介刘兵（Bing Liu），伊利诺伊大学芝加哥分校（tnc）教授，他在爱丁堡大学获得人工智能博士学位。刘兵教授是Web挖掘研究领域的国际知名专家，在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣，他先后在国际著名学术期刊与重要国际学术会议（如KDD、www、AAAl、SIGIR、ICML、TKDE等）上发布关于数据挖掘、Web挖掘和文本挖掘论文一百多篇。刘兵教授担任过多个国际期刊的编辑，也是多个国际学术会议（如www、KDD与AAAl等）的程序委员会委员。

编辑推荐《Web数据挖掘》为世界著名计算机教材精选之一。

第一部分数据挖掘基础

第1章概述3

1.1 什么是万维网3

1.2 万维网和互联网的历史简述4

1.3 Web数据挖掘5

1.3.1 什么是数据挖掘6

1.3.2 什么是Web数据挖掘7

1.4 各章概要8

1.5 如何阅读本书10

文献评注10

第2章关联规则和序列模式12

2.1 关联规则的基本概念12

2.2 Apriori算法14

2.2.1 频繁项目集生成14

2.2.2 关联规则生成17

2.3 关联规则挖掘的数据格式19

2.4 多最小支持度的关联规则挖掘20

2.4.1 扩展模型21

2.4.2 挖掘算法22

2.4.3 规则生成26

2.5 分类关联规则挖掘27

2.5.1 问题描述27

2.5.2 挖掘算法28

2.5.3 多最小支持度分类关联规则挖掘31

2.6 序列模式的基本概念31

2.7 基于GSP挖掘序列模式32

2.7.1 GSP算法33

2.7.2 多最小支持度挖掘34

2.8 基于PrefixSpan算法的序列模式挖掘37

2.8.1 PrefixSpan算法38

2.8.2 多最小支持度挖掘39

2.9 从序列模式中产生规则41

2.9.1 序列规则41

2.9.2 标签序列规则41

2.9.3 分类序列规则42

文献评注42

第3章监督学习45

3.1 基本概念45

3.2 决策树推理48

3.2.1 学习算法49

3.2.2 混杂度函数50

3.2.3 处理连续属性53

3.2.4 其他一些问题54

3.3 评估分类器56

3.3.1 评估方法56

3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)57

3.4 规则推理59

3.4.1 序列化覆盖59

3.4.2 规则学习： Learn-One-Rule函数61

3.4.3 讨论63

3.5 基于关联规则的分类63

3.5.1 使用类关联规则进行分类64

3.5.2 使用类关联规则作为分类属性66

3.5.3 使用古典的关联规则分类66

3.6 朴素贝叶斯分类67

3.7 朴素贝叶斯文本分类70

3.7.1 概率框架70

3.7.2 朴素贝叶斯模型71

3.7.3 讨论73

3.8 支持向量机73

3.8.1 线性支持向量机：可分的情况74

3.8.2 线性支持向量机: 数据不可分的情况78

3.8.3 非线性支持向量机：核方法80

3.9 k-近邻学习82

3.10 分类器的集成83

3.10.1 Bagging83

3.10.2 Boosting84

文献评注84

第4章无监督学习87

4.1 基本概念87

4.2 k-均值聚类89

4.2.1 k-均值算法89

4.2.2 k-均值算法的硬盘版本91

4.2.3 优势和劣势92

4.3 聚类的表示95

4.3.1 聚类的一般表示方法95

4.3.2 任意形状的聚类95

4.4 层次聚类96

4.4.1 单链接方法97

4.4.2 全链接方法98

4.4.3 平均链接方法98

4.4.4 优势和劣势98

4.5 距离函数99

4.5.1 数值的属性(Numeric Attributes)99

4.5.2 布尔属性和符号属性(Binary and Nominal Attributes)99

4.5.3 文本文档101

4.6 数据标准化101

4.7 混合属性的处理103

4.8 采用哪种聚类算法104

4.9 聚类的评估104

4.10 发现数据区域和数据空洞106

文献评注108

第5章部分监督学习110

5.1 从已标注数据和无标注数据中学习110

5.1.1 使用朴素贝叶斯分类器的EM算法111

5.1.2 Co-Training114

5.1.3 自学习115

5.1.4 直推式支持向量机116

5.1.5 基于图的方法117

5.1.6 讨论119

5.2 从正例和无标注数据中学习119

5.2.1 PU学习的应用120

5.2.2 理论基础121

5.2.3 建立分类器：两步方法122

5.2.4 建立分类器：直接方法127

5.2.5 讨论128

附录：朴素贝叶斯EM算法的推导129

文献评注131第二部分 Web挖掘

第6章信息检索与Web搜索135

6.1 信息检索中的基本概念136

6.2 信息检索模型138

6.2.1 布尔模型138

6.2.2 向量空间模型139

6.2.3 统计语言模型141

6.3 关联性反馈142

6.4 评估标准143

6.5 文本和网页的预处理147

6.5.1 停用词移除147

6.5.2 词干提取147

6.5.3 其他文本预处理步骤148

6.5.4 网页预处理步骤148

6.5.5 副本探测149

6.6 倒排索引及其压缩150

6.6.1 倒排索引150

6.6.2 使用倒排索引搜索151

6.6.3 索引的建立152

6.6.4 索引的压缩153

6.7 隐式语义索引157

6.7.1 奇异值分解158

6.7.2 查询和检索159

6.7.3 实例160

6.7.4 讨论163

6.8 Web搜索163

6.9 元搜索引擎和组合多种排序165

6.9.1 使用相似度分数的合并166

6.9.2 使用排名位置的合并166

6.10 网络作弊168

6.10.1 内容作弊169

6.10.2 链接作弊169

6.10.3 隐藏技术170

6.10.4 抵制作弊171

文献评注172

第7章链接分析174

7.1 社会关系网分析175

7.1.1 中心性175

7.1.2 权威177

7.2 同引分析和引文耦合178

7.2.1 同引分析178

7.2.2 引文耦合179

7.3 PageRank179

7.3.1 PageRank算法180

7.3.2 PageRank算法的优点和缺点185

7.3.3 Timed PageRank185

7.4 HITS186

7.4.1 HITS算法187

7.4.2 寻找其他的特征向量189

7.4.3 同引分析和引文耦合的关系189

7.4.4 HITS算法的优点和缺点189

7.5 社区发现191

7.5.1 问题定义191

7.5.2 二分核心社区192

7.5.3 最大流社区193

7.5.4 基于中介性的电子邮件社区195

7.5.5 命名实体的重叠社区196

文献评注197

第8章 Web爬取199

8.1 一个简单爬虫算法199

8.1.1 宽度优先爬虫201

8.1.2 带偏好的爬虫201

8.2 实现议题202

8.2.1 网页获取202

8.2.2 网页解析202

8.2.3 删除无用词并提取词干204

8.2.4 链接提取和规范化204

8.2.5 爬虫陷阱206

8.2.6 网页库206

8.2.7 并发性207

8.3 通用爬虫208

8.3.1 可扩展性208

8.3.2 覆盖度、新鲜度和重要度209

8.4 限定爬虫210

8.5 主题爬虫212

8.5.1 主题本地性和线索213

8.5.2 最优优先变种217

8.5.3 自适应219

8.6 评价标准223

8.7 爬虫道德和冲突226

8.8 最新进展228

文献评注230

第9章结构化数据抽取：包装器生成231

9.1 预备知识231

9.1.1 两种富含数据的网页232

9.1.2 数据模型233

9.1.3 数据实例的HTML标记编码235

9.2 包装器归纳236

9.2.1 从一张网页抽取237

9.2.2 学习抽取规则238

9.2.3 识别提供信息的样例242

9.2.4 包装器维护242

9.3 基于实例的包装器学习243

9.4 自动包装器生成中的一些问题245

9.4.1 两个抽取问题246

9.4.2 作为正则表达式的模式246

9.5 字符串匹配和树匹配247

9.5.1 字符串编辑距离247

9.5.2 树匹配249

9.6 多重对齐252

9.6.1 中星方法252

9.6.2 部分树对齐253

9.7 构建DOM树257

9.8 基于列表页的抽取：平坦数据记录258

9.8.1 有关数据记录的两个观察结果258

9.8.2 挖掘数据区域259

9.8.3 从数据区域中识别数据记录263

9.8.4 数据项对齐与抽取263

9.8.5 利用视觉信息264

9.8.6 一些其他技术264

9.9 基于列表页的抽取：嵌套数据记录265

9.10 基于多张网页的抽取269

9.10.1 采用前几节中的技术270

9.10.2 RoadRunner算法270

9.11 一些其他问题271

9.11.1 从其他网页中抽取271

9.11.2 析取还是可选272

9.11.3 一个集合类型还是一个元组类型273

9.11.4 标注与整合273

9.11.5 领域相关的抽取273

9.12 讨论274

文献评注274

第10章信息集成276

10.1 什么是样式表匹配277

10.2 样式表匹配的预处理工作278

10.3 样式表层次的匹配279

10.3.1 基于语言学的算法279

10.3.2 基于样式表中限制的算法280

10.4 基于领域和实例层次的匹配280

10.5 不同相似度的联合282

10.6 1:m匹配283

10.7 其他问题284

10.7.1 重用以前的匹配结果284

10.7.2 大量样式表的匹配285

10.7.3 样式表匹配的结果285

10.7.4 用户交互285

10.8 Web搜索界面的集成285

10.8.1 基于聚类的算法287

10.8.2 基于互关系的方法289

10.8.3 基于实例的方法290

10.9 构建一个全局的搜索界面292

10.9.1 结构上的正确性和合并算法293

10.9.2 词汇的正确性294

10.9.3 实例的正确性295

文献评注295

第11章观点挖掘296

11.1 意见分类297

11.1.1 基于意见短语的分类297

11.1.2 采用文本分类方法进行意见分类299

11.1.3 基于评分函数进行分类299

11.2 基于特征的观点挖掘和摘要300

11.2.1 问题定义301

11.2.2 对象特征抽取305

11.2.3 格式1中正面和负面评价部分的特征抽取306

11.2.4 符合格式2和3的评审上的特征抽取308

11.2.5 观点倾向分类309

11.3 比较性句子和比较关系挖掘310

11.3.1 问题定义311

11.3.2 等级比较性语句的识别312

11.3.3 比较关系的抽取314

11.4 观点搜索315

11.5 观点欺诈316

11.5.1 观点欺诈的目标和行为317

11.5.2 欺诈和欺诈者的种类317

11.5.3 隐藏技巧318

11.5.4 欺诈检测318

文献评注320

第12章 Web使用挖掘322

12.1 数据收集和预处理323

12.1.1 数据的来源和类型323

12.1.2 Web使用记录数据预处理的关键元素326

12.2 Web使用记录挖掘的数据建模331

12.3 Web用法模式的发现和分析334

12.3.1 会话和访问者分析334

12.3.2 聚类分析和访问者分割334

12.3.3 关联及相关度分析337

12.3.4 序列和导航模式分析340

12.3.5 基于Web用户事务的分类和预测342

12.4 讨论和展望343

文献评注344

参考文献345

……[看更多目录]

序言作为互联网上最重要的应用之一，Web（万维网）提供了便捷的文档发布与获取机制，并逐步成为各类信息资源的聚集地。据Google于2008年发布的官方报告，它们已经在互联网上发现超过1万亿个Web文档，而且这个数字还在以每天几十亿的速度持续增长。面对如此巨大的信息量，普通Web用户往往迷失其中，他们迫切需要一种机制快速定位到所需信息。Web数据挖掘便应运而生，并且伴随Web的发展而备受关注。Web数据挖掘它建立在信息检索、数据挖掘以及知识管理等技术的基础上，通过对大量Web文档进行分析来获得隐含的知识和模式，从而帮助人们更好地进行信息搜索和决策制定。反过来，可以说，也正是Web挖掘技术的不断进展，推动了Web的进一步蓬勃发展。

目前Web数据挖掘已经引起了学术界、工业界、社会学家的广泛关注，也吸引了众多研究人员与开发人员投身其中。国内外很多大学与研究机构先后开设了Web挖掘课程。但长期以来并没有专门针对Web挖掘的教材与专著。刘兵教授出版的这本著作填补了该领域的空白。该教材针对Web挖掘中众多关键主题进行了深入分析。清华大学出版社独具慧眼，决定将该书翻译成中文版在国内出版，这必将对我国Web挖掘的教学与研究产生积极的推动作用，有幸承担该书的翻译工作，我们感到十分荣幸。

本书是由伊利诺伊大学芝加哥分校（UIC）的刘兵（Bing Liu）教授历经一年的时间所著的"Web Data Mining"的翻译版。刘兵教授是Web挖掘研究领域的国际知名专家，曾担任多个国际期刊的编辑，也是多个国际学术会议（如WWW、KDD与AAAI等）的程序委员会委员。刘兵教授在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣。他先后在国际著名学术期刊与重要国际学术会议上发表论文一百多篇。本教材中的部分章节也融入了刘兵教授从事Web挖掘研究多年的心血。

全书主要包括前言和12个章节。本书的翻译和审校由俞勇、薛贵荣和韩定一共同完成。其中，俞勇负责前言、第1章和第2章，薛贵荣负责第3～7章，韩定一负责第8～12章。参加翻译工作的还有韩定一（前言、第1章、第8章）、徐生良（第2章）、凌霄（第3章）、郭晋文（第4章、第5章）、王亮（第6章）、陈林虎（第7章）、傅临云（第9章）、第7张迪（第10章）、包胜华（第11章）和王乐天（第12章）等。上海交通大学APEX数据和知识管理实验室的全体同学参加了本书的校对工作。

在本书的翻译过程中，得到了刘兵教授的大力支持。他向译者提供了全文书稿的最终版本，并对翻译工作提出了指导性建议。同时，感谢微软亚洲研究院李航博士的引荐，使我们有机会学习和翻译此书。最后，感谢清华大学出版社的龙启铭编辑，是他的远见，使得本书能够尽快与读者见面。

由于本书所涉及到内容非常广泛，许多术语目前尚无固定译法，翻译难度相对较大。尽管我们对某些术语进行了推敲，但仍然可能出现词不达意的地方。此外，由于译者水平有限，译文中不当之处也在所难免。我们也真诚地希望同行与读者朋友们不吝赐教。

文摘插图：

第一部分数据挖掘基础

第1章概述

1.2 万维网和互联网的历史简述

万维网的创立：万维网最初是由Tim Berners—Lee于1989年发明的。当时，他在位于瑞士的欧洲粒子物理实验室（Centre European pour la Recherche Nucleaire，或European Laboratory for Particle Physics，CERN）工作。他给万维网命名，并且编写了世界上首个万维网服务器httpd和世界上首个客户端程序（包括一个浏览器和一个编辑器World Wide Web）。

事件起源于1989年3月，当时Tim Berners—Lee向他在CERN的导师提交了一份名为“信息管理提议”的提议书。在这份提议中，他讨论了层次化信息组织的缺点，并且描绘出基于超文本系统的优点。提议书建议设计一套简单的协议，使得用户可以通过网络请求存放在远端系统上的信息；并创立一套使信息可以用相同格式被互相交换，并且用户可以通过超链接把相关文档链接起来的机制。其中还提到如何使用当时在CERN的一些文本阅读和图形显示的技术。提议书完整地描述了分布式超文本系统（Distributed Hypertext System），也就是当今万维网的基础构架。

起初，这份提议书并没有获得足够的支持。然而，在1990年，Berners—Lee重新分发了提议书，并获得了足够的支持来展开工作。在这个项目中，Berners—Lee和他在CERN的团队为最终把万维网发展成为分布式超文本系统铺平了道路。他们设计了服务器、浏览器、用于在客户端和服务器之间进行通讯的协议——超本文传输协议（HyperText Transfer Protocol，HTTP）、用于编辑网络文档的超文本标记语言（HyperText Markup Language，HTML），以及统一资源定位符（Universal Resource Locator，URL）。万维网从此开始迅速发展。

Mosaic和Netscape：下一个万维网的重要事件是Mosaic的出现。1993年2月，来自美国伊利诺伊斯大学国家超级计算应用中心（National Center for Supercomputing Applications，NCSA）的Marc Andreesen和他的团队发布了UNIX操作系统上图形界面的网络浏览器一Mosaic for X。

高效沟通24法则	服务型制造:理论与实践	电磁场与电磁波教学指导：习题解答与实验(电子信息学科基础课程系列教材)	地理信息系统导论（第3版）	半导体集成电路(第2版)(（清华大学信息科学技术学院教材:微电子光电子系列）)
TCP/IP协议族(第3版·中文导读英文版)(大学计算机教育国外著名教材系列(影印版))	Flash CS4网络动画制作简明教程(计算机应用能力培养丛书)	2009年世界发展报告:重塑世界经济地理	华严经·入法界品注释(佛典丛书)	大前研一不爱上学:学校不能教你的本事,在这儿学(人生·探索)