计算机视觉算法与应用中文版.pdf(richard szeliski)

-风月无边- 912 0 PDF 2021-04-28 03:04:18

计算机视觉算法与应用美) Richard Szeliski著艾海舟兴军亮等译清华大学出版社北京内容简介《计算机视觉—算法与应用》探索了用于分析和解释图像的各种常用技术,描述了具有一定挑战性的视觉应用方面的成功实例,兼顾专业的医学成像和图像编辑与交织之类有趣的大众应用,以便学生能够将其应用于自己的照片和视频,从中获得成就感和乐趣。本书从科学的角度介绍基本的视觉问题将成像过程的物理模型公式化,然后在此基础上生成对场景的通真描述。作者还运用统计模型来分析和运用严格的工程方法来解决这些问题。本书作为本科生和研究生“计算机视觉”课程的理想教材,适合计算机和电子工程专业学生使用重点介绍现实中行之有效的基本技术,通过大量应用和练习来鼓励学生大胆创新。此外,本书的精心设计和编排,使其可以作为计算机视觉领域中一本独特的基础技术参考和最新研究成果文 Translation from the English language edition: Computer Vision: Algorithms and Applications, Ist Edition by Richard Szeliski Copyright s Richard Szeliski 2010 Springer is a part of Springer Science Business Media All Rights R 本书中文简体字翻译版由德国施普林格公司授权清华大学出版社在中华人民共和国境内(不包括中国香港、澳门特别行政区和中国台湾地区)独家出版发行。未经出版者预先书面许可,不得以任何方式复制或抄袭本书的任何部分北京市版权局著作权合同登记号图字:01-201140579 本书封面贴有清华大学出版杜防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:010-6278298913701121933 图书在版编目(CP数据计算机视觉——算法与应用(美)塞利斯基( SzeliskiR)著;艾海舟,兴军亮等译北京:清华大学出版社,2012,1 书名原文: Computer Vision: Algorithms and Applications ISBN978-7302-26915-1 I.1计...II.1塞...2艾...3兴...III.1计算机枧觉一应用IV.1TP3027 中国版本图书馆CP数据核字(2011)第187910号赉任誓:文开琪封面设计:杨玉兰版式设计:北京东方人华科技有限公司贵任校对:周剑贵任即制:王秀菊发行:清华大学出版社地址:北京清华大学学研大厦A座 http:dwww,tupacom,cn 邮蝙杜总机:01062770175 投稿与读者服务:010-6276969, c-service@ctup. tsinghua. edv.c 购:010-6278654 Rt:010-62772015,zhiliang@tuptsinghua.edu.cn 印刷者:清华大学印刷厂装订者:三河市金元印装有限公司经铺:全国新华书店开本:185×260印张:42.5插页:16字数:1020千字版次:2012年1月第1版印次:2012年1月第】次印刷印数:1~4000 定价:99.00元产品编号:03618801 译者的话在近两年“计算机视觉”课程的教学过程中,我向学生推荐这本当时尚未正式出版的教材(网上有不断更新的电子版草稿)作为参考书,我觉得这是一本难得的好教材。为了帮助学生扫除阅读英文版时可能碰到的障碍,我承担了本书的翻译工作。有了中文版,广大读者—尤其是无法流畅阅读英文版的读者—学习起来无疑更轻松,从而使本书能够充分发挥作用。在本书的翻译过程中,对于英文版中明显存在的少数纰漏(主要是排印或疏漏),我们逐一进行了订正。这些错误一般都很明显,因此译文中我们没有专门声明。有英文阅读能力的读者,在阅读本书的过程中,不妨参照英文版,这样做不仅可以加深对相关专业术语的理解,还能通过这一实践方式提升专业英语阅读能力。参与本书翻译的人员如下(按照工作量的大小排序) 艾海舟(序、目录、第1章、第2章、第15章和术语) 兴军亮(第4章和第1l章) 段根全(第6章和第14章,14.2节除外) 陈先捷(第10章曹翀(第3章的35~39节) 苏延超(第12章,14.2节) 忻海(第8章杜宇宁(第3章的3.1~3.4节) 王楠(第5章卜鹏洋(附录AC) 张晨光(第9章) 刘力为〔第7章) 刘之方(第13章) 全部译稿的最后审定由艾海舟负责。由于译者水平有限,书中难免存在纰漏, 欢迎广大读者批评指正。在阅读过程中,如果发现问题,请发送电子邮件告知,以便今后重印时加以订正。艾海舟清华大学计算机系电子邮件:ahz@mail.tsinghua.edu.cn 主页网址:htt:/ media. cs. tsinghua. edu. cn/~ahz 序本书萌芽于2001年,当时,华盛顿大学的 Steve seitz邀我和他一起讲一门课,课程名称是“面向计算机图形学的计算机视觉”。那个时候,计算机图形学领域正在越来越多地使用计算机视觉技术,用它来创建基于图像的真实物体的模型, 用于产生视觉效果,用于通过计算摄影学技术来合并真实影像。我们决定聚焦于计算机视觉在若干有趣问题中的应用,例如使用个人照片的图像拼接和基于照片的 3D建模等,这一想法引起了学生们的共鸣。从那时起,华盛顿大学和斯坦福大学就一直使用类似的课程大纲和项目导向的课程结构来进行常规计算机视觉课程的教学(在斯坦福大学,在2003年这门课程由我和 David Fleet共同讲授)。类似的课程大纲也被其他很多大学所.用,并被纳入计算擾影学相关的更专业的课程。(有关如何在课程中使用本书的建议,请参见14 节的表1.1。) 本书还反映了我在企业研究实验室(DEC剑桥研究实验室和微软研究院)这二十年的计算机视觉研究经历。在从事研究的过程中,我主要关注在真实世界中具有实际应用的问题和在实践中行之有效的方法(算法)。因此,本书更强调在真实世界条件下有效的基本方法,而较少关注内在完美但难以实际应用的神秘的数学内容。本书适用于计算机科学和电子工程专业高年级本科的计算机视觉课程。学生最好已经修过图像处理或计算机图形学课程,这样一来,便可以少花一些时间来学习一般性的数学背景知识,多花一些时间来学习计算机视觉技术。本书也适用于研究生的计算机视觉课程(通过专研更富有挑战性的应用和算法领域),作为基本技术和近期研究文献的参考用书。为此,我尽量尝试引用每个子领域中最新的研究进展, 即便其技术细节过于复杂而无法在本书中涉及在课程教学过程中,我们发现,要使学生从容应对真实图像及其带来的挑战让他们尝试实现一些小的课程设计通常一个建立在另一个基础之上),是很有帮助的。随后,要求学生分成组选择各自的主题,完成最终的课程设计。(有时,这些课程设计甚至能转换为会议论文!)本书各章最后的习题包含有关小型中期课程设计题目的很多建议,也包含一些更开放的问题,这些问题的解决仍然是活跃的研究课题。只要有可能,我都会鼓励学生用他们自己的个人照片来测试他们的算法,因为这可以更好地激发他们的兴趣,往往会产生富有创造性的衍生问题,使他们更熟悉真实影像的多样性和复杂性。在阐述和解决计算机视觉问题的过程中,我常常发现从三个高层途径获取灵感是有帮助的科学层面:建立图像形成过程的详细模型,为了恢复感兴趣量而构建其逆过程的数学方法(必要时,做简化假设使其在数学上更容易处理)。计算机视觉——算法与应用统计层面:使用概率模型来量化产生输入图像的未知量先验似然率和噪声测量过程,然后推断所期望量的最可能的估计井分析其结果的不确定程度。使用的推断算法往往与用于逆转(科学的)图像形成过程的优化方法密切相关。工程层面:开发出易于描述和实现且已知在实践中行之有效的方法。测试这些方法,以便于了解其不足和失效模态,及其期望的计算代价(运行时的性能)。以上这三个途径相互依存,并且贯穿本书始终。我个人的研究和发展哲学(本书中的习题亦然)非常强调算法测试。在计算机视觉领域,提出一个算法在少数几幅图像上使某件事似乎可以做而不是把某件事做对,这太容易了。要想使算法有效,最理想的遼径是使用一种“三部曲”策略。首先,在干净的合成数据上测试算法,因为已知其精确结果。其次,在该数据上增加噪声,评测性能是怎样作为噪声水平的函数退化的。最后,在真实世界数据上测试算法,优先取自广泛输入源的数据,比如万维网上的照片。只有这样,我们才能确信该算法能够处理真实世界的复杂性,即不符合某种简化模型或假设的图像为了在这一过程中帮助学生,本书附带大量补充阅读材料,这些都可以在本书网站找到,网址为hp:/ szeliski. org/Book。具体资源类别(参见附录C的描述)如下指向万维网上可以找到的问题的常用数据集的链接; 指向软件库的链接,可帮助学生从基本任务入手,比如读/写图像或创建和操作图像; 与本书素材对应的幻灯片; 本书所引用的论文文献列表。在本领域发表新论文的教师和研究人员可能对后两项资源更感兴趣,但即便是普通学生,迟早也会发现它们是很有用的。有些软件库包含广泛的计算机视觉算法的实现,能帮助你应对更难的项目(征得导师同意的情况下) 致谢我要感谢对本书写作有帮助的所有人,他们的研究热情、咨询和鼓励帮助我写就本书。 McGi大学的 Steve Zucker是第一个引导我涉足计算机视觉领域的人,他教导我们所有的学生要敢于质疑和辩论研究结果和研究方法,鼓励我攻读这个领域的研究生。我的博士论文导师,卡内基·梅隆大学的 Takeo Kanade(金出武雄)和 Geoff 教给我良好的研究、写作和报告的基本方法。他们激发了我对视觉处理 3D建模和统计方法的兴趣,与此同时, Larry Matthies让我见识了卡尔曼滤波和立体匹配。序 V Demetri Terzopoulos是我在涉足工业界后从事第一份研究工作的导师,他教给我成功发表论文的方法。 Yvan Leclerc和 Pascal fua,我在斯坦福研究院(SRI nternational)短暂停留期间的同事,在可供选择的计算机视觉研究方法方面给予我新的观点。在DEC剑桥研究实验室工作的六年里,我有幸与很多同事共同工作,包括 Ingrid Carlbom, Gudrun Klinker, Keith Waters, Richard Weiss, Stephane Lavallee 和 Sing bing Kang(江胜明),同时也指导了最初的一大批杰出的暑期实习生,包括 David Tonnesen, Sing bing kang(江胜明), James Coughlan, Harry Shum(沈向洋)。正是在这里,我与 Daniel scharstein就此开始长期合作,他目前在 Middlebury学院工作。在微软研究院,我非常荣幸能和世界上最好的一些计算机视觉与计算机图形学领域的研究员一起工作,他们是: Michael Cohen, Hugues Hoppe, Stephen Gortler,Steve Shafer, Matthew Turk, Harry Shum(it i),Anandan, Phil Torr Antonio Criminisi, Georg Petschnigg, Kentaro Toyama, Ramin Zabih, Shai Avidan, Sing Bing Kang(江胜明), Matt Uyttendaele, Patrice Simard,Lary Zitnick, Richard Hartley, Simon Winder, Drew Steedly, Chris Pal, Nebojsa Jojic Patrick Baudisch, Dani Lischinski t Matthew Brown, Simon Baker, Michael Goesele, Eric Stollnitz, David Nister, Blaise Aguera y Arcas, Sudipta Sinha Johannes Kopf, Neel Joshi, Krishnan ramnath。我也非常幸运能有如此杰出的实习生,他们是 Polina golland, Simon Baker, Mei Han(韩玫), Arno Schodl,Ro Dror, Ashley Eden, Jinxiang Chail(柴金祥), Rahul swaminathan, Yanghai Tsin(秦 Sk7), Sam Hasinoff, Anat Levin, Matthew Brown, Eric Bennett, Vaibhav vaish Jan-Michael Frahm, James Diebel, Ce Liu(*]t), Josef Sivic, Grant Schindler Colin Zheng, Neel Joshi, Sudipta Sinha, Zeev Farbman, Rahul Garg, Tim Cho Yekeun Jeong, Richard roberts, varsha Hedau, Dilip Krishnan 在微软工作时,我还有机会与在华盛顿大学的杰出的同事合作,我是该校的合聘教授。我要感谢 Tony Derose和 David salesin,是他们最初鼓励我参与华盛顿大学正在进行的研究。我要感谢我的长期合作者 Brian curles; Steve seitz, Maneesh Agrawala, Sameer Agarwal, Yasu furukawa。还要感谢我指导且和与我配合很好的学生,他们是: Frederic Pighin,Yung- Yu Chuang, Doug Zongker, Colin Zheng, ah st 如序开始时所提到的,本书发端于 Steve Seitz邀请我一起讲授的视觉课程,源于 Steve的鼓励、课程笔记和编辑翰入。我还要感谢许多其他的计算机视觉研究人员,他们给了我很多关于本书的建设性建议,包括: Sing Bing Kang(江胜明),他是我的非正式版图书编辑; vladimir Kolmogorov,他撰写了关于MRF推断的线性规划方法之附录B.55; Daniel Scharstein, Richard Hartley, Simon Baker, Noah Snavely, Bill Freeman, Svetlana 计算机视觉—一算法与应用 Lazebnik, Matthew Turk, Jitendra Malik, Alyosha Efros, Michael Black, Brian Curless,Sameer Agarwal, Li Zhang(3k* ), Deva Ramanan, Olga Veksler, Yuri Boykov, Carsten Rother, Phil Torr, Bill Triggs, Bruce Maxwell, Jana Kosecka Eero Simoncelli, Aaron Hertzmann, Antonio Torralba, Tomaso Poggio, Theo Pavlidis, Baba vemuri, Nando de freitas, Chuck Dyer, Song Yit〔宋毅),Falk Schubert Roman Pflugfelder, Marshall Tappen James Coughlan, Sammy Rogmans, Klaus Strobel, Shanmuganathan Andreas Siebert, Yongjun Wu(R 33 F ), Fred Pighin, Juan Cockburn Ronald Mallet, Tim Soper, Georgios Evangelidis, Dwight Fowler, Itzik Bayaz, Daniel O Connor, Srikrishna Bhat Shena deuchers极为出色地完成了本书的排版编辑工作,提出了很多有价值的改进建议。 Springer出版社的 Wayne Wheeler和 Simon rees在本书整个出版过程中对我帮助很大。 Keith Price的“ Annotated Computer Vision Bibliography”(注解版计算机视觉参考文献)对追溯参考文献和查找相关工作起着非常重要的作用。我期望这本书准确、信息可靠和及时,所以如果你有任何改进本书的建议,不妨发电子邮件告诉我最后,没有家人难以置信的支持和鼓励,本书不可能问世,或者说不值得费时费力。谨以此书献给我的父母, Zdzislaw和 Jadwiga,他们的爱、慷慨和成就总是激励着我;献给我的妹妹 Basia,因为她对我所付出的毕生的手足之情:特别献给 Lyn,Anne和 Stephen,他们在所有事情(包括本书这个项目)上每天都给予我鼓励,使所有事情都有非凡的价值。 Wenatchee湖畔 2010年8月目录第1章概述... 3.15应用:色调调整 3.2线性滤波什么是计算机视觉? 321可分离的滤波,... 1.2简史......1,...,...: 322线性滤波示例 13本书概述 3.2.3带通和导向滤波器 14课程大纲样例 3.3更多的邻域算子 1.5标记法说明十 22 33,1非线性滤波,......95 1.6扩展阅读, 332形态学第2章图像形成 3.3.3距离变换...100 2.1几何基元和变换......26 334连通量 101 2.1.1几何基元 34傅里叶变换,,,... “如 l02 2,1.22D变换 3.4,傅里叶变换对, l05 21.33D变换 34.2二维傅里叶变换 2143D旋转 343维纳滤波 21.53D到2D投影 37 34.4应用:锐化,模糊 2.1.6镜头畸变......... 和去噪 111 22光度测定学的图像形成 47 3.5金字塔与小波 22,1照明 3.5.1插值 112 2.2.2反射和阴影...49 3.52降采样, 2.2.3光学,54 3.53多分辨率表达 16 2,3数字摄像机.......... 354小波 119 2,3.1采样与混叠, 3.55应用:图像融合... 123 2.3.2色彩.....n 3.6几何变换 125 2,3,3压缩 3.6.1参数化变换 125 2.4补充阅读 3.62基于网格的卷绕 25习题 73 363应用:基于特征的变形.133 3.7全局优化... 133 第3章图像处理,......,,, 371正则化 134 3,1点算子 3.72马尔科夫随机场 3.1,1像素变换 373应用:图像的恢复 31.2彩色变换 81 3.8补充阅读 147 313合成与抠图,.81 3.9习题..11 149 314直方图均衡化