Facebook的OCP V1.0

Facebook的定制服务器同样是在服务器电源上打主意。这种服务器支持交流和直流48V两种输入,正常情况下由市电进行主供来消除UPS转换带来的能量损失,利用277V输入的PSU(服务器电源)来消除原本PDU(将480V转换为208V)带来的损耗。而在停电时,则有电池组提供48V直流给另外一路服务器电源,该路服务器电源将48VDC转换成12VDC直接向服务器供电。Facebook宣称采用更高效的VR和PSU,所以整个供电系统效率更高(为了突出节能效果,UPS和PDU的效率他们分别采用了86%和97%,与现实情况差距较大)。

 7

 图6:facebook的OCP电源

服务器内部备电

这种方式主要对应google的内置电池服务器。这种定制化服务器每台内部都有一块 12 伏内置电池,正常情况由市场通过服务器电源转换成12V进行供电,如果停电或主路供电遇到问题,则由电池直接给服务器供电。因为内置电池的成本很低,有多少服务器,就配多少块电池,所以安装比较灵活,只要供电系统总容量允许,扩容时基本不用考虑备电的问题。 因为是市电直接供电,所以系统的整体效率就是服务器的效率。

 8

 图7:google服务器

小结:

从备电系统的位置来看,随着电池组一步步向后端延伸,供电架构也从完全的集中式过渡到完全的分布式(数据中心->微模块->机柜->服务器),单个服务器本身的可用性也逐步提高。

通过对各种定制服务器架构的分析可以发现:

BAT天蝎:定制化程度最低,对现有架构的变化最小,服务器电源从各自分散变成了集中到整机柜中(目的是提升供电效率与部署速度),定制服务器仅保留原来的单板、CPU等核心部件;也正因为如此,相比更早开展的OCP项目,天蝎项目反而进展更快。

其次是facebook:需要对服务器电源进行定制(可支持48VDC),而储能系统则可以利用现有的通信电源(铅酸电池成熟度更高),对服务器改动较小,仅需要更换部分服务器电源模块;笔者认为,facebook的这种架构其实对通信运营商非常适合,尤其是现网存在大量传统CT设备的时候(采用48VDC供电),更适合ICT设备融合改造的场景。

然后是微软的LES电源:其本质是把锂电池与服务器电源集成到一个模块里面,而其定制服务器本质上与天蝎服务器一致;LES定制化程度稍高,优点是备电系统与供电系统结合,随负载灵活扩容,可保持固定的备电时间。(换句话说,想增加备电时间必须同时增加电源模块)

最后是google:其服务器定制化程度最高,是彻底的分布式架构,相当于每台服务器都自带UPS,结构最简单;但IT设备使用寿命有限,设备更换后电池无法利旧,造成浪费(网上资料不多,笔者猜测,也可能可以通过拆除电池来利旧)。而为了降低成本不可能配置高容量电池,因此备电时间有限(只有几分钟),对油机切的换速度要求较高。

组合方式:市电最高效,但提升效率并非唯一目的

通过供电方式与备电方式(不同服务器电源架构)的自由组合,就形成了不同的数据中心供电架构,简单来说可以分为三类:

传统的UPS/HVDC系统

传统的UPS系统为保证供电可靠性,普遍会采用2N、N+1的供电架构(这种架构大家应该都非常熟悉,这里不做过多解释)。如果再配合前端的双路市电引入,后端的双路供电服务器,理论上说几乎不存在业务中断的可能。但可靠性提升的同时也带来了投资的增长,所以除了只看重可靠性的金融行业之外,国内的数据中心很少会采用最高规格的Tier4系统。而随着云计算、虚拟化等技术的普及,如两地三中心、同城双活等灾备方案也大幅提升了业务的连续性,单个数据中心的IT设备本身对供电可靠性的要求也有所降低。另外互联网产品对业务中断的抵抗力也较强,也是大家敢于不断尝试新架构的原因之一。比如上半年的携程、支付宝故障也只是让大家感觉不方便而已,并未导致重大的损失(相比金融、通信、交通等行业)。

正是在这种大环境下,互联网企业才出现了越来越多的新的供电架构。但对于其他行业,以UPS为主的供电架构仍然是当前的主流方案。

市电+UPS/HVDC系统(包括ECO)

首先要强调,所有采用市电直供的IT设备都必须满足一个大前提:支持双路输入。即两路输入互为备份,一路断电后由另外一路供电,切换过程不会影响业务的运行。对单路供电的设备,则只能采用不间断电源系统(UPS或HVDC)或使用STS在断电时及时进行电路切换。

采用这种供电架构一般会有两种形式:1、负载均衡方式;2、主备方式。

几乎所有模块化电源(模块化UPS、HVDC、通信电源、服务器电源)在设计时都会要求每个模块可实现均流,即按相同比例平均分担整个负载。对于普通服务器来说,两路输入分别来自市电/ECO和UPS/HVDC,双方各自承担50%的负载。比如,市电效率为100%,UPS效率为94%,则供电系统整体效率(不考虑服务器电源转换效率)则是97%。

通过对服务器电源软件的更改,可以调整各电源模块承担负载的比例,比如让市电承担100%的比例(即市电主供),另外一路UPS/HVDC作为备份,只在市电故障时才对服务器供电。

其实这种方式在整体效率上已经与互联网企业的各种定制化方案没有太大差异了,在正常情况下都是由市电来供电。所以对于比较重视效率,又不希望有太大改动的用户比较合适。但实际上愿意采用这种供电架构的用户并不多,用户通常还是更愿意采用传统的方式。

市电+定制服务器(市电主供+电池热备)

互联网公司的大规模采购量与技术实力使得他们可以进行更多的尝试。这种架构一般需要配合定制服务器,以使用市电为主,其他方式仅作为备份。对供电架构来说,总的趋势是从集中到分布式供电。需要特别提出的是:市电主供+电池备份(或UPS、HVDC等)在可靠性上显然不如传统的UPS+UPS(2N或N+1)方式,但随着备电系统下沉到微模块内、机柜内、甚至服务器内,服务器本身的可靠性在提升,所以综合来看,市电+定制服务器的方式并一定比传统方式可靠性更低。

上文提到,如果仅比较供电系统整体效率的话,互联网的各种定制方案并无明显优势(都采用市电主供的前提下)。其优势主要还是体现在整体方案的部署速度、空间利用率、服务器电源效率、后期维护、综合成本等方面。

各种定制服务器供电架构的比较如下表所示:

 9

需要指出的时,采用这类供电架构时必须具备一些前提,比如:

1、大型IDC普遍具备大容量油机,可以保证在市电断电后短时间内切换到油机供电。

所以电池备电时间可以较短,以便降低采购成本,同时也节省机房空间,甚至将电池集成到服务器内部;

2、采购量较大,人员素质高,同时具备较强的方案设计能力与议价能力。所以可以得到供应商的配合来尝试各种创新方案,可以从整个供电链路来进行方案整合,可以利用规模效应影响、推动行业的变化;

3、业务单一,可复制性强,上层业务连续性有保证(灾备、虚拟化、快速迁移)。所以可以允许部分基础设施可靠性的降低来提升效率、降低成本。

小结:

互联网的“去中心化”思想对数据中心的发展影响深刻。十几年来,从集中到分散的转变一直是数据中心发展的大趋势:从传统数据中心到云数据中心,再到分布式云数据中心;从传统集中式供电、制冷到微模块的分布式供电、制冷。在笔者看来,其本质就是把一个复杂的、不可复制的、串联的系统拆分成若干个简单的、可替换的、并联的系统,由此来降低TCO与维护难度,提升系统的可靠性。

但互联网行业有其特殊性,这些创新供电架构往往需要其他产品与方案的配合,目前来看尚不具备最广泛的普适性,至于未来是否能成为主流,现在下结论还为时尚早。




相关内容