OBT商业科技观察

华为OceanStor Pacific打底,中国医学科学院开启生物医学新时代

2022年10月,瑞典卡罗琳医学院宣布,将2022年诺贝尔生理学或医学奖授予瑞典科学家斯万特·佩博,以表彰他在已灭绝古人类基因组和人类进化研究方面所做出的贡献。而斯万特·佩博的这一发现,则得益于“基因测序”技术的应用。作为国际公认基因检测中的一种,基因测序既可以帮助人们更好地了解自身可能存在的疾病,也能辅助医生进行疾病诊断。

2022年5月,国家发改委发布的《“十四五”生物经济发展规划》提出,加快发展高通量基因测序技术,推动以单分子测序为标志的新一代测序技术创新,不断提高基因测序效率、降低测序成本。但基因测序作为数据密集型应用的典型场景,对海量数据的分析和解读要求非常之高,因此,要提高基因测序效率、降低测序成本,构建坚实的高性能计算中心就成了关键所在。

中国医学科学院及下属研究院在开展科研过程中,生物医学数据的高速增长丰富了生物科学数据资源,同时也给高性能计算中心数据传输、存储和计算提出了新要求。而高性能计算可以进一步支撑海量大数据的汇聚、存储、挖掘和共享,可有效缩短生物医学科技创新的周期,降低科技创新的成本,减少科技创新的不确定性,提升科技创新的效率。

为此,中国医学科学院正在加快建设满足院校内部各院所和创新单位生物医学数据存储、计算需求的高性能计算中心;其中,在数据存储上,中国医学科学院则通过与华为合作,借助华为OceanStor Pacific分布式存储构建基因测序HPC平台,不仅可以更好地支撑基因测序的研究,也能够进一步助力科技创新。

全栈设计HPC中心,存储凸显三大挑战

中国医学科学院,成立于1956年,是中国唯一的国家级医学科学学术中心和综合性医学科学研究机构,是中国的最高医学研究机构和最高医学教育机构。院校拥有23个研究所(院、基地)、6家附属医院、7个学院、3个院外研发机构,集医教研产防为一体的国家级综合性医学科学研究机构。

如今,中国医学科学院正在致力建设成为世界一流科研所院和医学科技创新体系核心基地,为了实现这一战略目标,中国医学科学院迫切需要提升自身在数据存储、计算上的能力。中国医学科学院在计算、存储、网络三个层面全栈设计,以建设全新的高性能计算中心。

其中,在计算上,借助CPU和GPU的混合高性能计算设备,实现高达800万亿次/秒的计算性能;在网络上,建设高通量的网络主干交换机和高吞吐率的计算交换网络,可以满足未来三年的发展需要;在存储上,通过构建高速可靠存储系统,从容应对在数据存储、管理层面面临的三大挑战:

首先,数据分散难以有效共享。由于各研究所院和学院地域分散,多年来管理松散,且由于各单位性质多样,其信息化建设水平参差不齐,因此造成了各院所的大型计算设备或平台建设分散、投资重叠、技术更新慢、效用不强等问题,无法将整个医科院系统内相较分散的海量生物医学数据充分地整合、存储、挖掘和共享起来。

其次,存储性能亟待提升。为了更好地开展医学科技创新,中国医学科学院及下属研究院正在构建统一的高性能计算平台,该平台的建设在大大提升计算能力的同时,也使得存储性能压力剧增。

第三,存储扩展性问题有待解决。在中国医学科学院构建统一高性能计算平台后,未来,中国医学科学院在生物医学上也将加速推进;而随着大数据分析的快速发展,海量生物医学数据也将快速增长,存储必须具备良好的扩展性,才能更好地满足中国医学科学院未来发展的需要。

分层建设HPC中心,华为夯实统一数据底座

为了进一步强化医学和健康的源头创新供给,中国医学科学院在对医学科技创新体系核心基地高性能计算中心全栈设计的基础上,从网络、计算和存储三个层面出发分层建设。

在网络层面,中国医学科学院依托光纤网络,以及各种网络安全设备,确保数据传输的高速、安全、低延时;在计算层面,中国医学科学院通过将高性能计算和人工智能GPU相结合,构建起强大的算力资源池;而在存储层面,为了给HPC平台提供更高性能的存储,满足自身海量数据存储需要,中国医学科学院决定选择华为OceanStor Pacific 9550作为新一代HPC存储设备。

这种统一设计、分层建设的模式主要有两大优势:一方面架构清晰,每个层面独立部署但又互相紧密关联,可以实现更高效的部署;另一方面可以最大限度选择性能更高的产品,并通过集成更充分发挥产品和技术的优势。

在存储层面,华为OceanStor Pacific 作为一款分布式横向扩展存储系统,可以满足各种数据密集型场景所需的高性能和灵活访问,如HPC、AI/ML、大数据分析、大规模虚拟化、内容存储、地震分析、生命科学、金融和任何需要存储海量数据并提供高性能、多协议访问的应用,并为这些应用场景构建统一数据底座。

而华为OceanStor Pacific 9550高密容量型存储系统,相比通用存储型服务器可降低62.5%的机柜空间占用,广泛适用于海量非结构化数据存储。据了解,在中国医学科学院,华为OceanStor Pacific 9550共部署了12个高密大容量节点,总计10PB容量,并采用多租户特性,可以满足医学科学院及下属各研究院对于各自高性能平台安全隔离的需求。

依托生态合力,助力医学科学研究创新

中国医学科学院在建设统一高性能计算平台过程中,之所以能够更好地做到统一设计、分层建设,与来自合作伙伴所聚集的生态合力密不可分。

据了解,华为不仅在存储层面,帮助中国医学科学院构筑起以华为OceanStor Pacific为核心的统一数据底座;还与合作伙伴联旌智能一道,为中国医学科学院联合打造了完整的高性能计算云平台联合方案。

其中,联旌智能不仅具备容器、虚拟化技术、高性能计算、云计算等核心技术能力,还为高等院校、政府部门、科研机构及高科技企业等提供最前沿的高性能云计算解决方案。目前,联旌智能已经通过华为高性能计算解决方案的硬件互通测试,并正式成为“华为认证级ISV合作伙伴”。

正是来自不同伙伴所组成的生态合力,让中国医学科学院能够顺利开展高性能计算中心的分层建设,并实现性能更优。而通过高性能计算云平台联合方案的落地,中国医学科学院不仅获得了可以支撑生物医学研究的强大算力,还可以根据实际应用程序所需、用户可自定义、动态切换的计算环境,获取从算力、算法到数据的全方位服务。

尤其在存储方面,借助华为OceanStor Pacific的部署,中国医学科学院实现了以一套存储承载多个业务处理环节,从而提升研究效率。具体表现在以下四个层面:1、一套存储支撑ARM+AI+x86+GPU多样性算力;2、混合负载设计将全基因组测序效率提升200倍,宏基因组测序效率提升7倍;3、全基因组测序效率提升200倍,宏基因组测序效率提升7倍;4、端到端模块化交付实现开箱即用,推动业务快速上线,AI数据管理大幅降低运维难度。

由此可见,通过构建以华为OceanStor Pacific为核心的统一数据底座,建设统一高性能计算平台,中国医学科学院不仅大大提升了自身在海量数据存储、管理、分析等方面的能力,也为生物医学研究和创新注入了新动能。