石油HPC：成熟平台架构需把握“平衡”

http://www.bulude.com

文章来源：中国计算机报更新时间：2009-7-14

分享到：

石油HPC：成熟平台架构需把握“平衡”

近年来每年上亿元的IT建设资金投入，让中石油东方地球物理公司研究院（BGP）的计算（HPC）部署规模迅速扩大。据该研究院副总工程师兼处理中心总工程师赖能和介绍，BGP的计算机规模已达到28014个核，运算能力为230T，存储也有3600 TB，整装、规模化软硬件资源，为保证处理周期、及时提交成果提供了很好的保障。“这三年来，各油田的HPC都发展得很快，基本上达到了一定规模。”赖能和说。

　　这个被称为“给地球做CT”的石油物探行业在商用HPC应用中相对成熟，对前沿技术的接受程度也很高。然而，也正是因为成熟，石油行业对于HPC的未来思考也就更为深入。未来石油业的HPC发展要抓住哪些大的技术趋势，以适应地震资料成像应用的快速发展？上规模后的软硬件资源又该如何进行科学化管理？

　　平衡的思维

　　BGP曾经为大港油田的3200平方米的地区做过模拟，投入近1万颗CPU计算，7天就完成了任务，而在几年前，这样的效率几乎是不可想象的。对于物探部门来说，硬件提供的是基础能力支撑，软件应用则是直接决定产出的关键。

　　客观地说，同样是“做CT”，但后片子的成像质量会有不同，差别在于算法。算法的发展是从二维向三维、从声波向弹性波发展。“我们的偏移方法从常规叠后、积分化的时间偏移到了现在的单层波振动偏移，与国外相比还有差距。我们正在实验双层波，再下一步才是弹性波。”赖能和说。相应地，地震资料处理模型演进，对计算平台资源的需求呈急剧增长趋势。

　　英特尔软件与服务集团计算及工作站应用总监Paresh Pattani指出：“石油行业用户不但要考虑软件在多核上面的性能，还要看到将来在众核、在异构多核上的发展。”同时，在系统需求方面，用户也应从平衡的角度出发，考虑单位面积投资的性能、每瓦性能，要考虑到系统能不能适应未来的系统架构……这一切都需要一个平衡系统。“地震资料处理的算法逐步发展，对计算能力提出高要求的不仅仅是CPU性能，还包括内存、带宽、I/O、互联，这一切都是需要共同平衡发展的性能。”Paresh Pattani说。

　　为了确保设计的均衡性，英特尔在计算上其实做了很多方面的工作，不仅在处理器和服务器平台上，在软件工具、互联，甚至数据中心设计方面，也都有相应的资源投入。其中，软件方面的支持，对于发挥平台潜能起着关键作用。Paresh Pattani表示：“在我们的多核到众核，再到将来异构核发展的蓝图里，我们希望软件的发展能始终向后兼容，不需要用户再次投资，将原有积累打破。” 这样做的好处，在Larrabee问世后就可以感受得到。

　　作为平台厂商，英特尔的软硬件先天就具有相互优化的优势，比如在后续路线图中，SSE扩展的下一代产品AVX现在已经获得支持，它可以更好地支持通用的向量计算。Paresh Pattani估计，在HPC领域，尤其是在用到大量向量运算的结构力学、航天航空、地震资料处理方面，收益将达到10%以上。为了充分释放多核潜能，英特尔提供了相应工具，以实现更高程度的并行化。在中国，由何万青博士领导的英特尔支持团队，就为HPC用户做了大量优化工作，帮助用户改进MPI应用，大程度地提高应用效率。

　　可预期的平台演进

　　从硬件平台来说，计算对硬件平台的需求主要聚焦于浮点性能、内存带宽和I/O。基于Nehalem架构的英特尔至强5500处理器正因在这三方面的出色表现，走进越来越多的石油用户的机房。“从技术架构和实际表现来看，至强5500平台不仅面向今天的需求，还面向未来地震资料处理模型对计算资源、I/O资源、内存带宽的需求。”英特尔服务器平台产品经理顾凡表示。

　　从技术角度来看，至强5500通过架构改进，无疑在浮点计算方面取得了更大突破，AVX加速了这一进程。而同时，在与内存带宽及I/O带宽的平衡搭配方面，也因为其技术的先进性得到了充分发挥。顾凡介绍说，在内存带宽方面，引入QPI之前，英特尔从单条前端总线到两条独立总线，再到把每条总线的主频提升到1600MHz，直到Nehalem架构去除前端总线，代之以点对点串行总线，充分释放CPU性能。“QPI是一个标志性的时间点，未来的QPI会向下一代继续演进，提高QPI带宽，增加QPI可支持的串行连接数量。”在I/O方面，PCI-E的演进仍在继续，预计在2011年左右，第三代PCI-E也将面世，保证I/O的通道畅通。而SSD的推广使用，无论是替代内存、硬盘或是作为启动硬盘，也都会在I/O方面带来巨大提升。

　　油藏模拟、地震资料处理等应用对内存带宽的依赖都非常大。对于内存带宽敏感型的应用来说，至强5500相比前代的性能提升接近2倍，甚至2.5倍。“为什么说至强5500也能满足未来需求呢？我们目前采用的地震资料处理模型也许提升幅度不一定达到两倍，约为在30%~40%。但当模型向前演进后，内存带宽一定是重中之重。至强5500会持续带来性能提升。”顾凡说。

　　科学地管理好资源

　　快速扩大规模之后，软硬件资源管理成为摆在石油行业用户面前的一道难题。在这方面，BGP以数字化手段进行集中管理，成为行业标杆。“过去我们管理一二百个CPU很容易，现在是几万颗CPU，按照过去的方式管理就会出问题。计算机机房达到一定规模后，我们的生产和设备的安全问题也无法得到保障，究竟怎么管理？”赖能和道出了这样做的初衷。

　　困难还不止于此，软件相对跟不上造成应用效率比较低，这又连带造成了大规模投资。后来BGP意识到，持续通过硬件扩充来增加产值并非高明的策略。这会造成折旧非常惊人。“BGP 在2008年折旧费达到1.2亿元，全年电费又是1100多万元，我们的运作压力非常大。” 赖能和牵头开发了一整套数字化管理系统，来解决这样的难题。

　　据介绍，BGP共开发了四套系统，对机房实现了管理。一是用数字化管理平台管理所有生产项目，项目进度和所用资源都一目了然，每个项目运作的每个阶段用了多少成本，很容易进行统计。二是开发CPU资源管理平台，对集群实行统一协调管理，在一个板面上可以实时到一百多个机柜的运行状况，再加上视频会议系统，就可以实现前后方远程质量专家协同工作，软硬件技术支持和系统维护。三是开发存储和网络管理平台，实现所有存储资源的远程集中。四是开发UPS空调配电实时软件，确保设备安全。

　　不仅如此，BGP还致力于提高数据中心的效能。他们不仅采用新的节能设备，在基础建设方面也下足了功夫，如水冷技术、风道节能设计。在计算设备上，BGP大的一笔开支节省是借助开发的自适应节能软件。“用这个软件动态调整服务器状态，节能达到25%左右。一万颗CPU一年

上一条：电力设备业紧盯俄国千亿美元蛋糕

下一条：2013年加速度传感器成为MEMS市场热门产品