/ 中存储网

NoSQL选型及HBase案例详解

2014-09-22 21:52:51 来源:中存储网

接下来,中国科学院信息工程研究所副研究员王树鹏为我们分享了“新型NoSQL大数据管理系统(BDMS)开发和使用交流”。王树鹏介绍说他接触的项目多数是非互联网的应用,比如安全、交通行业。这些行业目前也面临着大数据的考验,但是当前很多流行的NoSQL数据库对于他们来说并不适用,所以他们自主研发了一个NoSQL数据库管理系统。

设计目标

系统具有高可扩展性:可通过增加节点线性

支持复杂数据类型统一存储管理:结构化数据、半结构化数据及非结构化数据;文本数据、多媒体数据;针对多种类型业务数据进行统一组织管理和处理

支持多样化的访问类型,访问接口标准化:检索、统计分析、关联处理及深入挖掘;需要对多种业务数据进行关联综合分析;提供标准的DDL、DML操作语法,支持JDBC、ODBC等操作接口;对数据检索、统计、分析处理的实时性要求很高;检索要求秒级响应;跨域检索访问

上图是整个系统的框架,其中数据库管理平台的结构如下:

其中,可以通过管理引擎实现跨越数据管理。对外可以提供相应的DDL接口、DML的接口以及开发接口。

  系统主要特色

Share-Nothing的分布式存储和计算架构

异构多源数据的组织管理:实现了结构化数据、非结构化文本及非结构化多媒体的统一存储管理

支持异构数据的统一SQL查询:支持对于结构化数据、非结构化文本的检索和分析,该检索和分析操作都可以通过SQL进行实现

丰富的数据访问和处理模式

 高效的检索机制

异构多副本存储和恢复机制

跨域数据管理和检索:支持跨域部署,可以在多个物理地点建立多个数据中心,在此之上可以支持数据在数据中心之间进行移动,并且可以支持对于位于不同地域的数据进行全局检索和访问

  应用场景

海量结构化记录管理

处理海量小文档管理和处理

面向异构数据的智能搜索和挖掘系统

  成功案例

王树鹏介绍说这个系统已经有了成功的应用案例,是国家某部委大数据管理项目。这个系统的主要需求是:

大量信息记录,每天产生约40亿条(约4TB);

数据保留备份副本,记录数据保留半年;

可对数据进行精确、模糊查询及统计,结果秒级响应;

可批量导入结构化、非结构化数据;

最终达到的实施效果是:

采用分布式存储架构(3个元数据节点+115个存储节点);

数据规模超过5000亿 ,查询响应时间为秒级;

数据保留2个副本,保证数据安全;

系统可用容量约2PB。