大数据数据处理平台 Big data Data Processing platform(ETL)

ETL 大数据数据处理平台,是利用开源大数据生态系统,包括Hadoop、Oracle、MongoDB、Hive、MapReduce、Kafka、Hbase、Storm等,将数据从各种业务系统的多种数据库来源中抽取(extract)、转换(transform)、加载(load)后,最终按照预先定义好的数据模型,将数据加载到数据仓库的企业级大数据数据处理平台。

ETL 大数据数据处理平台,将数据抽取、转换和维护过程进行简化和自动化,能够快速便捷的完成涵盖各种数据结构的转换、过滤、清洗工作,同时支持Windows和Linux等运行环境,全程可视化操作及完善的监控体系,为业务人员、运维人员、开发人员从数据集成设计、调度运维、功能扩展及支持提供了完善的支撑。


特点与优势

1)面向企业级服务架构的SOA数据处理平台

2)丰富的数据源支撑与元数据管理,支持多种主流异构数据源的输入与输出,支撑对任意数据源以及各种应用软件包的完全连接

3)高性能数据处理能力, 提供弹性的线程级和分布式并行处理力能

4)方便的DI开发设计和测试,提供可视化的开发和测试环境,易于用户操作和理解

5)先进的大数据批处理能力,提供了与现今各类典型的大数据处理平台和NoSQL数据库的交互处理功能

6)记录级数据容错机制,分级日志显示功能,实现对每条实时流数据的正确性保障,保障了数据的一致性和正确性

7)无限可升级性和扩展能力,先进的插件技术,实现了对新数据源和新处理步骤无限的扩展能力

核心功能

可视化任务设计器:平台提供任务流程的可视化设计

预置丰富的组件为整个流程设计工作提供全方位的支撑

  • 1)支持结构化/半结构化/非结构化多种数据源接入
  • 2)支持结构化数据和半结构化数据的多种数据格式输出

任务调度:平台内置工作流建模工具和调度引擎,用户可自由定义任务的触发条件及执行路径,控制多任务的协同运行,支持多任务的并发运行和定时运行,并支持可视化WEB监控和通过HTTP、FTP协议文件传输功能。

并行处理与云计算动态集群支撑功能

  • 1)弹性的并行处理功能
  • 2)云计算的动态集群技术

插件扩展功能:平台提供强大的开放式环境,它不仅支持Data Vault、Palo等整合产品,还支持SAS等合作厂商的产品。基于插件架构,平台支撑大量的第三方和用户自定义插件。此外,还支持用户自定义Java 类,允许企业重复使用自行开发的Java程序代码,并同步处理所有数据,而不受到数据量的限制。

大数据处理功能
平台提供了与各类典型的大数据批处理和NoSQL数据库的交互处理能力。如支持与Hadoop平台、HBase、Hive、MongoDB等的交互处理功能。通过平台,可以很方便的完成大数据处理中结构化、半结构化和非结构化数据的抽取,转换功能。

统一用户权限管理与认证服务功能
独立的认证与用户权限的分配管理体系实现用户权限,数据使用权限的综合管理与分配,同时可与其他外部系统进行权限管理的对接,包括但不限于以下系统:创意大数据业务模型平台(M+)、创意企业级大数据平台(D+)。