李航 统计学习
非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用非常有用统计学习方法李航著清华大学出版社北京内容简介统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。本书是統计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参本书封面贴有清华大学出版杜防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:0106278298913701121933图书在版编目CmP数据统计学习方法/李航著.一北京:清华大学出版社,20123ISBN978-7302275954I①统…Ⅱ①李…Ⅲ①机器学习Ⅳ①TP181中国版本图书馆CP数据核字(201)第270938号责任编辑:薛慧封面设计:薛慧责任被对:王淑云责任印制:张雷出版发行:清华大学出版社wagtih:http://www.tup.comen,http://www.wgbook.co地址:北京清华大学学研大厦A座邮编:10084社总机:010-6277017510-62786544投稿与读者服务:010-62776969,C-service@tup.tsinghua,edu.cn质量反馈:010-6272015, zhiliang@tup.印刷者:三河市君旺印装厂装订者:三河市新茂装订有限公经销:全国新华书店开本:165mm×240mm印张:15.75字数:314千字版次:2012年3月第1版印次:2012年3月第1次印刷印数:1~3000产品编号:025367-01献给我的母亲前言计算机与网络已融入到了人们的日常学习、工作和生活之中,成为人们不可或缺的助手和伙伴.计算机与网络的飞速发展完全改变了人们的学习、工作和生活方式.智能化是计算机研究与开发的一个主要目标.近几十年来的实践表明,统计机器学习方法是实现这一目标的最有效手段,尽管它还存在着一定的局限性作者一直从事利用统计学习方法对文本数据进行各种智能性处理的研究,包括自然语言处理、信息检索、文本数据挖掘.近20年来,这些领域发展之快,应用之广,实在令人惊叹!可以说,统计机器学习是这些领域的核心技术,在这些领域的发展及应用中起着决定性的作用作者在日常的研究工作中经常指导学生,并在国内外一些大学及讲习班上多次做过关于统计学习的报告和演讲.在这一过程中,同学们学习热情很高,希望得到指导,这使作者产生了撰写本书的想法国内外已出版了多本关于统计机器学习的书籍,比如, Hastie等人的《统计学习基础》.该书对统计学习的诸多问题有非常精辟的论述,但对初学者来说显得有些深奥.统计学习范围甚广,一两本书很难覆盖所有问题.本书主要是面向将统计学习方法作为工具的科研人员与学生,特别是从事信息检索、自然语言处理、文本数据挖掘及相关领域的研究与开发的科研人员与学生本书力求系统而详细地介绍统计学习的方法,在内容选取上,侧重介绍那些最重要、最常用的方法,特别是关于分类与标注问题的方法.对其他问题及方法,如聚类等,计划在今后的写作中再加以介绍.在叙述方式上,每一章讲述一种方法,各章内容相对独立、完整;同时力图用统一框架来论述所有方法,使全书整体不失系统性,读者可以从头到尾通读,也可以选择单个章节细读.对每一方法的讲述力求深入浅出,给出必要的推导证明,提供简单的实例,使初学者易于握方法的基本内容,领会方法的本质,并准确地使用方法.对相关的深层理论则仅予以简述.在每章后面,给出一些习题,介绍一些相关的研究动向和阅读材料,列出参考文献,以满足读者进一步学习的需求,本书第1章简要叙述统计学习方法的基本概念,最后一章对统计学习方法进行比较与总结,此外,在附录中简要介绍一些共用的最优化理论与方法本书可以作为统计机器学习及相关课程的教学参考书,适用于信息检索及自然语言处理等专业的大学生、研究生本书初稿完成后,田飞、王佳磊、武威、陈凯、伍浩铖、曹正、陶字等人分别审阅了全部或部分章节,提出了许多宝贵意见,对本书质量的提高有很大帮前言助.在此向他们表示衷心的感谢.在本书写作和出版过程中,清华大学出版社的责任编辑薛慧给予了很多帮助,在此特向她致谢由于作者水平所限,书中难免有错误和不当之处,欢迎专家和读者给予批评指正.来函请发至ml-book-hangli@hotmail.com李航2011年4月23日符号表实数集RRHxY维实数向量空间,n维欧氏空间希尔伯特空间输入空间输出空间x∈X输入,实例y∈Y输出,标记X输入随机变量输出随机变量T=(x,y),(x2,y2)…,(xN,y)训练数据集样本容量第i个训练数据点x=(x,x),…,x)输入向量,n维实数向量输入向量x的第j分量P(X, P(n概率分布P(X, n联合概率分布假设空间∫∈F模型,特征函数e模型参数v=(w,w2,…,wn)y权值向量偏置Jo模型的复杂度经验风险或经验损失RRL7风险函数或期望损失损失函数,拉格朗日函数学习率L1范数l·|2,l‖·‖L2范数向量x与x的内积XIV符号表H(X), H(p)熵HrX条件熵分离超平面a=(ax,a2…,a)2拉格朗日乘子,对偶问题变量对偶问题的第i个变量K(r, z)核函数ign(r)符号函数指示函数Z()规范化因子目录第1章统计学习方法概论统计学习监督学习1.21基本概念122问题的形式化13统计学习三要素………13.1模型1.3.2策略·1.3.3算法67914模型评估与模型选择……14.1训练误差与测试误差…1.42过拟合与模型选择15正则化与交叉验证1.51正则化…52交叉验证…………………16泛化能力1.6,1泛化误差162泛化误差上界0013345557817生成模型与判别模型1.8分类问题…19标注问题10回归问题本章概要…继续阅读……………习题参考文献……第2章感知机21感知机模型22感知机学习策略………
暂无评论