ii.3.1 合格的管理员难求

为什么很难聘请到合适的管理员呢?有以下几个原因:

  1. 现在大部分高性能计算是基于Linux系统,而管理Linux系统和会懂Linux系统开发的人员都是比较缺乏的。

  2. 管理Linux集群不仅需要能够做一般的系统节点级别的管理,还需要有很强的网管能力。门槛又抬高了不少。即使聘请到了合适的Linux系统管理人员,他们的工作效率也不高。

在2005年的全球高性能计算年会上,美国宝洁公司的IT总管曾告诉我,高性能计算对宝洁公司的产品质量和创新是至关重要的,可是他们的管理员并没有把时间花在刀刃上。他们的系统管理员花许多时间在做系统集成商的工作。原因是他们整个公司有许多产品,工程师在设计产品时使用许多的应用。不同的应用支持不同Linux内核版本。有的用Redhat,有的用SuSE,Infiniband网络设备驱动也因为操作系统内核不同而不同。所以,宝洁每次升级系统或应用要做的测试量是非常庞大的。宝洁IT总管看到微软进入这个市场的时候非常兴奋,他说:“终于有一个厂商可以给我提供操作系统、网络设备的驱动认证,使我可以安心地使用系统。因为我知道,当我使用的网络驱动是通过微软认证的,那么它就具有一定的稳定性。”

如果您对高性能计算并行编程感兴趣,可以查看以下相关资源:CUDA高性能计算并行编程高性能计算并行编程技术,以及高性能计算并行编程.zip

ii.3.2 应用编写难

为什么编写并行应用难,调试也难呢?主要有3个原因:

  1. 问题领域难以并行化,所提供的编程模式和主流程序员的能力不匹配。

  2. 新兴商业应用没有很好的编程模式支持。

  3. 微软把程序员分为3类,如图ii-1所示的金字塔。

对于那些想深入了解并行编程技术的人士,以下资源可能会对您有所帮助:高性能并行计算系统高性能计算之并行编程技术,和高性能并行计算