搜索搜索

软件存储 巧解基因测序中爆发性数据难题

新闻发布2020-05-14

最近,在搜索工具上用“新冠病毒 基因测序”这两个关键字进行搜索时,浏览器会为你显示几百万条搜索结果(见下图)。全球科学界在面对新冠这样一个未知的病毒时,不约而同地在第一时间选择使用基因测序去溯源、解密、解读、并逐渐攻克它。中国科研人员在疫情爆发后迅速行动,从患者体内分离出一种新型冠状病毒,测出了它的全基因组序列,并第一时间与世界卫生组织分享,可以说基因测序成为了抗击新冠病毒最为重要的工具之一。

jiyincexu-01.jpg

追本溯源 什么是基因测序

自从1953年,沃森和克里克发现了DNA的双螺旋结构,随后分子生物学研究发展迅速。20世纪70年代,DNA测序技术发明。2001年,首个人类基因组图谱绘制完成。30多年时间,测序技术已取得了相当大的发展,从第一代到第二代乃至第四代,测序读长从长到短,再从短到长。测序技术的一次次变革,使人们更多的认识到测序技术在基因组研究,疾病研究,药物研发,育种等领域中的重要作用,对基因和基因组结构的研究和探究也就没有停止过……而基因测序的技术手段也不断迭代出新,平均每隔几年,就会有新的测序技术出现。

jiyincexu-02.png

科技时代 基因测序的风险与挑战

近几年,高通量测序技术的发展比摩尔定律还要更快,如2005年的Roche 454测序仪运行一次可产生400MB左右的基因序列文件,而2010年的Illumina HiSeq 2000运行一次,可以产生200GB的基因序列文件,其单台每月能产生6TB数据,而大型科研机构可能会有几十台测序仪,每年的数据产出量将达到PB量级。

这些数据产出后,需要不断增加存储服务器容量以满足需求,并进行数据处理,如进行序列比对、序列拼接等,需要大内存胖节点机器才能满足运行需求。此外,在数据处理中如果是多用户同时访问,那么并发访问和计算造成的网络压力、磁盘I/O压力都可能从不同程度限制应用运行效率,进而影响科研进度。

因此,如何从这些海量数据中“淘金”,已经成为基因组研究中现实面临的重大问题,对大规模的高性能计算平台提出更高要求,包括对存储容量、存储数据安全性,以及对计算机的运算速度、内存容量、内存带宽、网络带宽等方面也有不同程度的需求。

深耕医疗 Bigtera(大兆)助力基因测序

精准医疗需要众多的技术支持,不仅包括传统的医疗技术,HPC和人工智能也是其中非常关键性的技术。基因测序是精准医疗的前置技术,而目前基因组测序极度依赖HPC,它直接关乎基因数据的测序精度和测序效率。

Bigtera(大兆)作为一家软件存储公司,在进入这个HPC领域之前,走访调研了许多高校或者基因测序领域的研究人员,了解到当前HPC应用过程中存在的诸多问题,如硬件资源合理化利用和直观管理调度,以及测序环境部署难和扩容难等等问题。不仅如此,数据安全无保障、分析质量低、供需不对接、以及分析成本高也极大影响了整个测序行业的可持续发展。

因此我们与国内多家知名高校的科研团队合作,专为生物医学大数据定制打造一个大数据解读生态系统,该生态系统主要由三个部分组成:海量分析工具、高效的任务调度平台以及高性能存储集群。

jiyincexu-03.jpg

其中,海量分析工具由专业的科研团队提供,囊括了目前业界先进的基因组分析框架和技术,包括基因组数据质控,功能基因组分析,结构基因组分析,分子异质性分析,基因组进化分析等先进的分析技术,并且始终紧跟科研领域分析技术的不断更新迭代。

Bigtera(大兆)在该系统中发挥其软件存储的优势,为该系统两大重要组成部分:高效的任务调度平台以及高性能集群存储提供了定向化的基因测序高性能存储技术。

任务调度平台:提供并行批处理任务调度平台,该借鉴美国安德森癌症研究中心基因分析平台调度框架,支持多任务并行执行,任务提交、任务进度跟踪、任务调度、资源隔离,QoS控制等,确保任务执行环境稳定。

大容量高性能存储:基因测试的分析过程,本质上是大量样本数据进行交换、比对的过程。而样本库的数据量则直接影响了基因测序的分析质量,因此许多科研机构纷纷构建TB甚至PB级存储。对于这样大规模的存储系统,系统的易用性、数据的安全性以及数据读取的性能显得至关重要。特别是性能的高低会直接影响数据读取和分析的速度。

jiyincexu-04.png

Bigetra(大兆)的高性能存储平台,专门为基因测序场景实现了定向优化:

  • 横向扩展:可支持海量基因数据存储,最高可达100PB以上;

  • 在线无缝扩容能力:按需扩容,扩容同时不影响既有业务的使用;

  • 高性能:支持多任务并发读写;

  • 海量文件管理检索:支持针对基因数据元数据检索,便于从海量数据中定位查找客户所需基因数据;

  • 既有存储资源整合:支持纳管就有存储系统,保护客户既有IT投资;

  • 多级数据保护机制:确保关键数据极高安全性;

  • 高效内部数据调度接口:优化大型数据文件快速调度和分享;

jiyincexu-05.png

Bigtera(大兆)只做“安心”存储

基因测序最核心的资产就是过程中产生的庞大数据量,所以随着基因测序的通量越来越大,行业产出的数据也越来越多,相对而言对存储、计算平台的能力也提出更高要求。如何传输,保存和管理海量的基因数据是一个非常棘手的问题。

Bigtera(大兆)作为专注于软件定义存储领域多年的企业级存储服务厂商,为该方案中提供了以下几个核心存储特性:

  • 基于目录的配额管理以及QoS管理能力:

用户可以在容量和性能两个维度,动态调整存储资源的容量配给和QoS。QoS通过大兆内嵌的流控引擎,可为用户目录提供吞吐量约束管理,从而为更有效地分配和使用存储资源提供支撑,确保了每个测序任务或每个测序研究员均可以获得合理有效的存储资源。

  • 灵活的数据服务策略:

在基因测序领域,原始数据量非常巨大且异常珍贵。Bigtera(大兆)提供的纠删码技术,在确保足够的数据安全前提下,大幅提升系统的有效容量,最高可达90%以上。

  • 高性价比的数据存储方案:

Bigtera(大兆)针对在基因测序过程中产生的大量中间结果以及最终结果,根据其对性能与安全性的不同要求,提供不同存储方案,使性能和空间的提升可翻数倍。而特有的零拷贝技术,为测序过程中对于原始数据的拷贝使用提供了极高效的方法。测序任务几乎可以瞬时获取其需要的原始数据资源而无需等待冗长的数据拷贝时间,进一步缩短测序时间,为测序研究和测序服务提供了更优的成本效益。

精准医疗计划已列入国家“十三五”科技发展重大专项,并上升为国家战略。希望可以通过努力,为科学研究提供强大的技术保障,辅助精准医疗。

Bigtera(大兆)作为生态系统底层平台的搭建者,秉承着开放、融合、共济的心态,希望可以整合最为优质的资源,为行业上下游的从业者,包括分析团队、科研团队等,提供一个安全、经济、易用、高效的分析服务与支持。

超融合
试用