这是全球首个比较完整的2019新型冠状病毒(2019-nCoV)信息库。此前,2019-nCoV 序列数据分散在全球不同数据库中,未形成完整、统一访问的数据集,这 给科研人员检索、预览和获取数据带来诸多不便。
整合全球资源
为促进2019-nCoV数据共享应用并及时向全球公众提供病毒的相关信息,国家生物信息中心(CNCB)/国家基因组科学数据中心(NGDC)建立了2019新型冠状病毒信息库(2019nCoVR,https://bigd.big.ac.cn/ncov)。
据NGDC 发布的PDF文件显示,基于 CNCB/NGDC 的 GWH 数据平台,2019新型冠状病毒信息库整合了来自德国全球流感病毒数据库、美国国家生物技术信息中心、深圳(国家)基因库、国家微生物科学数据中心及CNCB/NGDC等机构公开发布的2019-nCoV核苷酸和蛋白质序列数据、元信息、学术文献、新闻动态、科普文章等信息,并开展了不同冠状病毒株的基因组序列变异分析并提供可视化展示。
同时,2019nCoVR无缝对接CNCB/NGDC的相关数据库,提供新测序病毒株系的基因组原始测序数据、组装后序列的在线汇交、管理与共享、国际数据库同步发布等数据服务,为加速开展病毒的分类溯源、变异演化、快速检测、药物研发以及新型肺炎的精准预防与治疗等研究提供重要基础。
截止到 2020 年 2 月 5 日,已审编收录冠状病毒科的核苷酸序 列 7,566 条和蛋白质序列 29,039 条,以及相应的元数据信息。基于标准化的信息整合与发布, 2019nCoVR 提供多方位信息检索、条件查询、批量下载等功能,用户亦可在 FTP 网站公开访问和下载数据 (ftp://download.big.ac.cn/Genome/Viruses/Coronaviridae/)。
截止发稿前,记者看到,相关页面上详细地记录了病毒株(148)、病毒序列(155)、数据递交单位(59)、样本采集单位(63)、采样地点(28)等信息。
其中,“采样地点”一栏显示,病例样本大部分来自中国的内地、中国香港、中国台湾,以及澳大利亚、菲律宾、韩国等地。样本提交单位有武汉同济医院、同济医科大学、华中科技大学等相关单位。
中国科学院北京基因组研究所研究员、国家基因组科学数据中心主任鲍一明此前在接受中青报采访时表示,科研人员利用这一资源库,开展了新型冠状病毒基因组变异分析,获取了该病毒株之间、该病毒株与SARS冠状病毒以及与类SARS冠状病毒蝙蝠株之间的变异程度、变异区域、变异碱基的详细信息。经分析,2019新型冠状病毒与2003年爆发的SARS病毒基因组序列相似度为80%,与2017年2月从国内的蝙蝠中采集到的相关基因组序列相似性最高,达88%。相应地,科学家可就此初步判断该病毒源头宿主很可能是蝙蝠。也为追溯病毒来源、追踪病毒株变异路径、防控新型冠状病毒引发的疫情、治疗病毒性肺炎提供重要的数据基础与决策支持。
关于NGDC
据悉,国家基因组科学数据中心(NGDC)于2019年6月经科技部、财政部通知公布,由中国科学院北京基因组研究所作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。
2019年8月,《2020-2025年国家基因组科学数据中心建设运行实施方案》通过专家组论证通过。专家组认为建设国家基因组科学数据中心是解决我国基因组科学数据存储和利用的迫切需求,对国计民生具有深远的意义。
“中国已成为基因组数据产出大国,但未能形成国家级公共数据资源。”鲍一明表示。面向国家大数据战略发展需求,NGDC针对我国基因组学数据“存管用”的实际需求以及“数据孤岛”、“数据主权”的重大问题,围绕人、动物、植物、微生物等基因组数据,重点开展数据库体系及数据资源建设,开展数据服务、系统运维、技术研发、数据挖掘等系列工作,建成有国际影响力的基因组科学数据中心,促进科学数据开放共享,保障科学数据安全可控,支撑国家科技创新和经济社会发展。 中心目前拥有90余人的工作团队,具备5000个以上CPU计算核心及总容量超过8PB数据存储资源,已经开发形成一系列的多组学数据库系统。
中心主要致力于以下三方面的工作:围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。
国家基因组科学数据中心发布了基因组变异与表型关联、微生物分类与基因组资源、表观组关联分析、特色物种多维组学信息资源等8个新开发数据库,系统更新了原始测序数据归档库GSA、基因组归档数据库GWH、基因组变异数据库GVM、非编码RNA等15个资源库,并对云分析等4个网络服务工具进行了更新优化。
国家基因组科学数据中心免费向国内外用户提供方便快捷的多组学数据汇交和存储服务,目前,已汇交来自269个单位720个用户递交的超过1.4PB的组学数据,相关数据发表于144种国内外期刊的237篇文章。GSA已被国际著名出版商Elsevier收录为指定的基因数据归档库。此外,通过跨库检索形式,中心还整合了13家国内合作科研机构的25个专业特色数据库,丰富了数据资源类型。
据悉,未来,国家基因组科学数据中心将继续围绕基因组科学研究前沿及数据的存管用需求,逐步完善中心组织管理架构与运行机制,强化队伍建设,培养复合型数据人才;建立数据共享、质量控制、安全管理等标准与规范,利用云计算、人工智能、机器学习等先进技术,提升数据储存、管理、挖掘与共享能力;发展数据加密、解密、分级管理、受控访问等数据安全关键技术,建立人类遗传资源数据管理体系,确保国家重要生物资源数据本地化存储、管理与共享利用。