R语言及Bioconductor在基因组分析中的应用
本书是国内第一本系统介绍R语言及Bioconductor软件包的图书。R是一种计算机程序设计语言,也是一个开放式的软件开发平台。R具有强大的数学统计分析和科学数据可视化功能,提供各种数据处理、统计分析及图形显示工具。软件研究人员可以在R这个开放平台上不断扩充R的功能,开发出面向特定应用的软件。Bioconductor就是一个基于R的、面向基因组信息分析的应用软件集合。Bioconductor的应用功能主要是以包的集成形式呈现在用户面前,它提供的软件包中包括各种基因组数据分析和注释工具,其中大多数工具是针对基因芯片或DNA微阵列数据的处理、分析、注释及可视化。同时,Bioconductor还提供R语言及 Bioconductor在基因组分析中的应用孙啸谢建明周庆等编著斜锝寓腹让北京内容简介本书是国内第一本系统介绍R语言及 Bioconductor软件包的图书。R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台。R语言具有强大的数学统计分析和科学数据可视化功能,能提供各种数据处理、统计分析及图形显示工具。软件研究人员可以在R语言这个开放平台上不断扩充其功能,开发出面向特定应用的软件。 Bioconductor就是一个基于R语言的、面向基因组信息分析的应用软件集合。 Bioconductor的应用功能是以包的集成形式呈现在用户面前,它提供的软件包中包括各种基因组数据分析和注释工具,其中大多数工具是针对DNA微阵列或基因芯片数据的处理、分析、注释及可视化的。同时, Bioconductor还提供许多与DNA微阵列相关的数据包。本书面向计算机应用人员,可供从事数学统计分析和生物信息学研究及应用的有关人员参考。图书在版编目(CI)数据R语言及 Bioconductor在基因组分析中的应用/孙啸等编著.一北京;科学出版社,2006IsBN7-03-016665-5I.R…Ⅱ·孙…Ⅲ.①R语言-程序设计②基因组-分析-软件包,BioconductorⅣ.①TP312②Q34339中国版本图书馆CP数据核字(2005)第155319号贵任躺輯:马学海王静李久进刘晶/责任校对:包志虹贲任印制:钱玉芬/封面设计:王浩骨學廠出版北京东或城根北侷16号邮政编码:100717http://www.sciencep.com新誉剩厂印刷科学出版社发行各地新华书店经销2006年7月第一版开本:B5(720×10002006年7月第一次印刷印张:271/2插页:2印数;1-2000字数:542000定价:68.00元如有印装质量问题,我社负责调换<明辉》)Homo sapiensHomo sapiensMYx(625,6.73e+03YX2222(265,625]2121(164,265]91818117(106,164]1616814(72.6,108](497,72.5]109876543098765(32.1,49.7(199,32.1432(9.85,199ITT(-334,9.85]图163人类各染色体上基因的表达数据gure31210图21.5MA图Figure 320B10og fold change estimate for 1. 25 ug图21.17残差的伪芯片图像红色表示正值,蓝色表示负值图21.7两个浓度下的对数化倍数改变关系1.00.80.6了0.4awpBonferroniHoche0.2SidaksdyBH0.0BY2040608000Number of rejected hypotheses图22.5按照调整后的p值顺序显示多重检验的结果1.00.80.6当0.40.20.0204080100=°IawpHochberg --maxTBonferroniSidakssBHHolmSidaksDBY图2.6按照原始数据顺序显示多重检验的结果100rawBonferroniHolm80HochbergSidakSsSidaksD60maxIBHBY200.00.20.40.60.8Type I error rate图22.7被否决的零假设数目raw+o Holmo HochbergSidakssO SidakSD十32o maxT△BH△BY△△丰△令▲△△入8△目自,图228调整后的p值rawbaselined20105000100001500020000M/Z图241将蛋白质质谱图中的基线归零前言R语言是一种新的计算机程序设计语言,具有强大的数学统计分析和科学数据可视化功能,提供各种数据处理、统计分析及图形显示工具。R语言本质上是一个高级解释语言,其语言简单,编程简捷,可以方便、快速地原型化新的计算方法,同时支持面向对象的编程方式。R环境中包含了一个用于组织相关软件和文档打包的完善系统,以“包”( package)的形式支持软件创建、测试和发布。R语言集成了各种数据分析工具,提供大量的函数,可以通过使用这些函数构建各种各样的功能包。在所有的函数中,与统计分析及数据可视化相关的函数是R语言最重要的一个组成部分。R语言也是一个开放式的软件开发平台。软件研究人员可以在R语言这个开放平台上不断扩充其功能,开发出面向特定应用的软件。 Bioconductor就是个基于R语言的、面向基因组信息分析的应用软件集合。 Bioconductor的应用功能是以“包”的集成形式呈现在用户面前的。它所提供的软件包中包括各种基因组数据分析和注释工具,其中,大多数工具是针对DNA微阵列(或基因芯片)数据的处理、分析、注释及可视化的。同时,Bicconductor还提供许多与DNA微阵列相关的数据包,并将生物元数据与实验数据分析紧密地结合起来。另外Bioconductor还有一些通用生物信息分析工具(如生物分子序列处理)和特殊的分析工具(如蛋白质数据处理)。R语言在国际上刚刚兴起不久,而 Bioconductor也在基因组信息分析,特别是基因芯片数据分析方面逐步得到越来越多的应用。目前国内应用R语言和Bioconductor的人还比较少。但是由于R语言是一种简单的通用语言,非常容易掌握,并且特色明显,相信今后会有很多人对R语言感兴趣。至于Bioconductor,相信随着国内生物信息技术的不断发展,其用户群也将不断地扩大。我们希望通过本书以及开设相应的培训班能在国内推动这项工作。本书面向计算机应用人员,特别是针对从事数学统计分析和生物信息学研究及应用的有关人员,着重介绍R语言和 Bioconductor的基本用法及技术,并提供许多精简的程序实例,为读者了解和熟练使用R语言和 Bioconductor提供帮助。本书分为上下两篇,分别介绍R语言和 Bioconductor。在本书的上篇,我们从计算机语言的实际应用出发,逐步介绍R语言的特点、使用、基本数据结构、对象。数据分组、数组和矩阵、数据列表和数据单、数据导入和导出、表达式和控制语句、函数和包、统计分析、图形和可视化。在介绍语言的同时,我们给出了大量的实例程序,通过实例进一步说明R语言的用法。本书的下篇紧密围绕 Bioconductor进行编写。首先,我们专设一章介绍与Bioconductor相关的生物信息学基础,介绍的内容包括DNA微阵列相关技术、微阵列数据标准、数据预处理方法、基因表达差异的显著性分析、基因表达谱的聚类分析和分类识别,同时还介绍了 Bioconductor的开发背景。之后,介绍Bioconductor的安装和基本使用方法,并通过一个简单明了的综合实例来展示Bioconductor的主要功能,说明如何在实际工作中应用 Bioconductor。在接下来的各章中,我们由浅入深地依次介绍 Bioconductor所提供的十大类功能包。对于每个包,分别介绍其所涉及的类、函数和基本用法,并通过实例说明相关函数的功能和使用方式。在过去的5个月中,我们集中力量在R语言和 Bioconductor方面进行了大量的工作,包括建立R语言和 Bioconductor的网络服务平台,剖析 Bioconductor的各个包,编写本书等。参加这些工作的教师和研究生有15人之多。本书是由陆祖宏教授倡议编写的。孙啸教授全面负责本书的编写工作。周庆老师具体负责编写本书的上篇,即R语言部分,江澎和顾珉参加了这部分内容的编写工作;孙啸教授和谢建明副教授具体负责编写本书的下篇,即Bioconductor部分,翁建洪、董献军、李石法、吴建盛、陶怡、孙宵亮、马薇参加了这部分的编写工作。杨锡南老师对本书的编写提出了很好的建议。东南大学生物科学与医学工程系对编写本书也给予了大力的支持。由此可见,本书是大家共同努力的结果。在此,向所有对本书做出贡献的人表示衷心的感谢。孙啸2006年5月18日
用户评论