/ 中国存储网

极道:探寻生命科学领域数据“多样化”的解决之道

2021-02-22 来源:中国存储网

近年来生命科学领域的数据量呈爆炸式增长的趋势,包括基因测序、临床检测、冷冻电镜、脑科学等。数据的爆发增长导致了数据和数据分析方式呈现出多样化的特征,而这些“多样化”特征是多个层次的,如何解读生命科学领域数据多样化带来的一系列挑战,成为了业内及数据系统公司需要解决的一大难题。

数据类型的“多样化”

第一个层次的“多样化”是数据类型的多样化。

这包括动植物基因组学数据、医学临床数据、结构生物学研究中冷冻电镜产生的蛋白和大分子结构数据,甚至还包括由3D基因组学发展而来的3维基因空间结构数据。多样化的数据类型,让能够观察到和分析出来的数据特征越来越多样化。

除了门、纲、目、科、属、种、变异、突变、临床表征等,越来越多维度的数据特征进入了生命科学研究工作者的视野中。如何从多样化的数据特征中发现数据、利用数据特征生成多维度数据集合,对数据的管理提出了相当高的要求。

非结构化数据的“非结构”特性本身造成了管理上的困难,同时海量数据的特征越来越丰富,数十亿级别的数据加上每个数据都可能有多个不同强关联的特征,而利用关系型数据库加数据路径实现的传统LIMS系统来进行数据管理的方式,其扩展性差、海量数据强关联搜索效率极低并且难以分析的弱点也逐渐被暴露出来。

针对这一现象,极道的新型数据管理系统能够利用分布式图技术对数据进行大规模强关联实时数据特征管理,解决生命科学领域用户的多样化数据特征的痛点,有序管理、快速搜索、生成多维度数据视图。

数据计算模式的“多样化”

第二个层次的“多样化”是数据计算模式的多样化。

传统的生命科学领域无论是基因测序还是冷冻电镜数据,通常采用的是批量计算或者高性能计算的工具和算法。但是随着计算技术的发展,计算模式的不断进步,更多新型方法实现的算法和工具加入到生命科学相关领域的研究和生产中。比如测序领域的GATK4spark和一些其他的基于大数据MapReduce技术实现的算法工具诞生,导致生命科学用户传统的单一HPC集群已不能满足计算的需要。而近两年AI技术的兴起,Google的DeepVariant、Nvidia的Clara等基于人工智能的生物医学平台带来了更多新型分析生物数据的工具和算法,各种异构的计算模式也给生物数据处理和分析带来了很大的挑战。

如何改造传统的计算基础架构?构建和运维独立割裂的HPC集群、大数据集群、AI集群并不是最有效的解决方法。多样化的计算模式带来了资源上的壁垒,资源利用率和运维的复杂度也成为了生命科学研究工作者需要解决的难题,而更为重要的是,新技术诞生并不能一次性的颠覆所有以前的算法实现。

因此可以预见,未来,多样化模式实现的算法将会长期共存。一个复杂的生物数据分析流程很可能会同时涉及到批量计算、高性能计算、MapReduce和深度学习相关的各种算法。

在这种情况下极道Achelous计算系统诞生了。Achelous通过共享硬件的一套集群,动态地构建多模式计算框架、利用智能执行引擎协助生命科学领域用户构建高效率、混合算法的数据流程,有效的解决计算的多样化需求。

计算硬件需求异构化

第三个层次的“多样化”是计算硬件需求的异构化。

随着生命科学领域计算模式的样化,计算硬件也在迅速发展。除CPU以外,GPU、FPGA等稀缺计算资源也加入了进来,以满足复杂和高速的数据分析处理。

解决异构计算资源的共享和调度问题,需要足够智能的计算平台。例如GPU如何根据拓扑调度化零为整、如何根据显存调度化整为零?极道的计算系统Achelous能够面对异构硬件平台,根据不同稀缺计算资源的特征设计高级调度策略,尽可能把稀缺计算资源的利用率发挥到极致。

多种算法模型共存

第四个层次的“多样化”是多种算法模型带来的的多样化。

在生物信息分析计算过程中,一套系统会同时存在多种算法模型的运行实例,而每个算法的实现都对数据存取有不一样的要求,有的要求吞吐、有的要求Ops、有的要求元数据访问的延迟,多样化的IO模式给数据存取效率带来了很大的挑战。面对这种多样化的IO存储模式,存储需要进行相应的优化和动态调整,才能满足数据分析的需要。

比如计算集群登陆节点交互操作多,要求数据和元数据的访问延迟,而计算节点很可能一段时间内是吞吐密集,另一个算法同时需要求高的Ops。解决这种多IO模式共存情况下数据存取的效能,需要计算系统和存储系统的协同,极道独创的“应用感知”理论,其目的是要存储系统通过高级策略根据应用算法多样化IO模式进行实时调整,尽可能把存储的数据存取效能在多样化计算过程中发挥到极致。

事实上,生命科学数据所面对的四个层次的“多样化”,在很多的行业中都有共性表现,面对“多样化”挑战,需要各种各样的“门道”。极道有“道”,能够用产品和优势技术把所有的“道儿”都发挥到极致。

这就是极道作为一个数据系统公司与传统的存储公司、或者IT系统公司的不同之处。极道不仅站在系统公司的角度设计和研发产品,更重要的是还能够深度理解行业应用、根据行业用户的真实数据需要设计产品,来迎接行业所面临的多样化数据挑战。

目前,极道的数据系统产品在国内外顶级的基因公司、临床检测公司、国家级科研机构、药物研发等领域广泛应用,并收获众多客户好评。未来,极道仍将不断提供创新的技术与产品,为生物基因技术的快速发展发挥重要作用。

关于极道

极道,专注于数据“存”、“管”、“算”的创新数据系统公司,由国内顶尖的存储和数据分析专家团队组建。以分布式并行文件存储、强关联大规模实时数据管理系统,以及集群的调度系统和执行引擎为核心产品,满足企业对数据处理、分析和建模的多样化需求,帮助客户迅速提升IT资源效率,将海量非结构化数据转化为真正的数据资产。