icon各类数据管理技术差异越来越大,全面、准确的实时数据获取困难 icon

随着数据技术的不断发展,针对某些具体场景的特性在不断被增强,使得各类数据技术的差异性进一步扩大,但被纳入其中的数据本身不应该因技术栈不同而阻碍其价值释放。 交易系统、账务系统、管理系统、分析系统、主数据、数据仓库与大数据平台采用的数据库管理技术都不尽相同,数据交换困难重重 数据价值不断凸显,业务创新需要数据支撑,但大量数据没有纳入主数据管理系统,数据仓库与大数据平台又无法满足时效性要求 数据时效性要求越来越高,批量数据交换无法满足需求,但针对不同数据库的增量数据实时采集需要大量的技术储备与研发成本 增量识别字段等方式无法获取准确完整的增量数据,经常为实时数据应用造成障碍,也提升了实时数据的使用成本 不同数据库管理技术在实例、库、模式、表等数据对象上,字段类型、精度、标度等语义模式上都有区别 对上游的结构变化感知与应对都需要针对不同数据库技术区别对待 传输过程中的一致性、冲突、特定类型的数据处理也需要区别对待。

icon如何快速响应实时数据需求,把握机会快速建立竞争优势 icon
业务需要更高的敏捷性来应对外部环境的变化,这需要整个数字化组织可以体系化的进行多速、敏捷的业务场景支撑,以及对突发业务活动有更多的可见性,以确保可以利用新出现的机会并快速建立竞争优势。 端到端实时数据链路的构建,往往是以月为单位交付的,甚至更多;新的数据需求需要大量的代码开发,交付周期也是以周为单位计算的;数十种数据库技术,多家供应商,十几个支持电话,感觉自己也是是集成商; 实时数据处理技术栈门槛较高,人员流失率较高,刚刚用顺手的供应商总是换人;数据组的要求无法通过DBA的审核,应用研发对系统运维要求怨声载道;资源使用与研发人员水平紧密相关,无法准确评估,遇到关键业务需求时捉襟见肘。
icon应用场景icon
市场竞争和用户行为的巨大变化
用户交互时间越来越短,算法精度要求越来越高 流量维度越来越多,不再局限于线上。必须适配场景来争夺注意力已经没有确定的价值锚点,企业必须不断加快自身进化速度。
转变运营模式要求多速IT的支撑
以客户为中心的独立产品运营模式,企业逐渐成为公共服务平台各个运营部门对数据的时效性、准确性、全面性要求都不相同 对作为基础公共服务的数据平台来说,不变的是对需求的快速响应。
数据需求响应从研发向配置转变
数据支撑与应用开发、系统运维的协调问题必须解决 在保障数据资源可控的前提下,为数据应用提供更多的自主性与敏捷性系统资源管理与系统的部署扩展必须灵活方便且平滑稳定。
icon实时数据链路兼具业务运营与管理支撑要求,稳定性与容错性问题重重 icon

从客户行为分析到非交易类的触客业务到事件营销再到风控评分,实时数据链路逐渐成为业务运营的重要支撑,但作为打通各业务系统数据通道的中间层,受到的上下游的各类制约,对稳定性的影响尤其严重。 上下游节点的业务连续性和服务级别均高于实时数据链路,实时数据链路需要遵循上下游节点的认证、加密、权限、日志等管理机制; 上游数据对象结构变化与数据对象的处理机制对实时数据链路影响巨大,例如结构变化采用rename方式; 实时数据流量不仅仅需要参考业务交易量,与上游系统的数据处理方式有很大的关系,经常出现一个语句百万行增量的情况; 随着企业多中心及多云战略的执行,部署在不同网域或云环境的系统配置,网络连通性乃至专线供应商与带宽都对稳定性有影响; 对计划、非计划的网络不可用,上下游系统维护,物理删除等非规操作及偶发的错误数据及主键冲突数据没有相应的容错性策略配置; 出现系统故障时,无法保证各个组件的高可用,系统恢复困难,特别是实时数据链路的数据完整性与数据一致性很难恢复。

icon典型场景:企业级实时数据管理平台 icon

通过多种实时数据技术,支持广泛的数据节点类型,协助客户构建以业务目标为导向的数据链路,按需快速定制、部署、执行数据任务,以支持从传统数据处理到实时数据应用的各类场景。

iconDataPipeline产品整体架构图 icon
icon基于日志的实时增量数据获取技术保证实时数据全面、准确 icon

采用基于日志的增量数据获取技术(Log-based change data capture),为主数据管理、数据仓库、大数据平台提供实时、准确的数据变化,从而使得客户可以根据最新数据进行运营管理与决策制定。 Oracle,通过自有增量数据采集代理读取数据库日志获取准确的增量数据,支持ASM非宿主机部署,同时支持LogMiner; IBM DB2,支持通过集成 IBM InfoSphere Data Replication 解析日志获取准确的增量数据,自动化创建订阅,状态控制协调一致; MySQL,通过Binlog方式获取准确的增量数据,支持5.x,8.x多版本,不支持只读库; Microsoft SQL Server,支持CT模式获取增量数据,CDC模式; PostgreSQL,支持通过wal2json解析日志获取准确的增量数据。

icon配置式链路定义,无代码任务构建提升实时数据敏捷性 icon

在数据节点、数据链路、融合任务及系统资源四个基本逻辑概念中,用户只需要通过二至三项简单配置就可以定义出可以执行的融合任务,系统提供基于最佳实践的默认选项,实时数据需求的研发交付时间从2周减少为5分钟。

icon配置式链路定义,无代码任务构建提升实时数据敏捷性 icon

为应对复杂的实时数据运行时场景需求,系统提供限制配置与策略配置两大类十余种高级配置。用户可以通过这些配置对下游概念进行限制与管理,亦可以通过这些配置来统一调整下游概念的执行范围与策略应用范围。 基础配置,每个逻辑概念所必须的、最基本的配置项,构成逻辑概念除名称描述以外最基本的属性信息。基础配置在不同逻辑概念中是不同的。 限制配置,数据融合任务在执行过程中,针对不同逻辑对象在不同层次上的限制条件,融合任务执行过程中必须遵循的规则。限制配置在相关的逻辑概念中会遵循依赖关系而互相影响。 策略配置,数据融合任务在执行过程中,出现不同的运行事件及状态变化时的应对策略与管理规则。在相关的逻辑概念中需要遵循,也可以在不违反策略的前提下制定自身的个性化策略。

icon数据链路--结构变化策略 icon

结构变化策略是当数据源数据结构发生变化时,系统将为您执行的策略,能够有效避免由于数据源结构变化使任务暂停带来的影响。 结构变化策略需要对数据目的地有更改表结构(alter table)、删除表(drop table)权限,如无该类型权限,遇到数据源结构变化的情况, 执行结构变化策略的任务将报错暂停; 现版本支持结构变化策略的数据目的地有:MySQL、MS SQL Sever、Oracle、PostgreSQL。 由于PostgreSQL 数据源 wal2json 读取模式无法感知数据源删除表,因此日志增量读取阶段不支持数据源删除表结构变化策略。其全量或 JDBC 增量支持数据源删除表结构变化策略。

icon数据链路--数据加载策略 icon
全增量模式
即将数据源的全部增量数据依次写入数据目的地, 可以保证数据全局一致性。 精简增量模式,即在一个写入批次内,将同一主键的增量数据的最后一次变化同步至目的地,可以保证数据最终一致性。该模式需要数据源增量数据获取开启日志补全。 数据加载方式在将数据写入数据目的地的过程中,可以通过配置数据加载方式来变更数据目的地写入时提交的 SQL语句类型,以变更数据加载方式。 当前版本支持的数据加载方式有:Insert、 Update、Delete、Ignore(忽略)、Merge (Upsert)。
icon数据链路--缓存策略 icon
icon任务执行配置 icon
icon预警策略 icon
icon分布式引擎、组件级高可用保障实时链路稳定高容错 icon

企业级实时数据平台所有组件均支持高可用,容器化部署,平滑、灵活的动态扩缩容,允许将不同的计算任务重分布到不同的机器上去,而不妨碍其它部分的运行。

icon分布式引擎、组件级高可用保障实时链路稳定高容错 icon

融合引擎采用分布式架构,容器化部署。可以保证系统业务连续性要求。在分布式集群的基础上,采用系统资源组的形式隔离不同任务的运行环境,保障重要任务的稳定有序运行。

 

 

icon中国民生银行实时数据管道项目 icon
总体目标 经营管理部门对大量的经营指标和客户视图等信息的获取、反欺诈和反洗钱等重点领域的决策分析,都对数据管理提出了从批量升级到实时、准实时的要求。为解决上述重难点问题,民生银行大数据管理部于2017年启动实时数据体系建设,以有效支撑监管、风控、营销、经营分析等应用场景。 随着数据应用的深入,行内业务部门不断提出更综合的实时数据加工需求,新需求的加工复杂度持续升高、使用场景持续扩展、交付效率持续加快、运营质量要求持续提升。为提升实时数据支撑能力,民生银行开始从“平台、数据、应用”三个方面进行实时数据体系建设。 面临的挑战 加工复杂度持续升高,开发测试难度大; 交付效率持续加快,投产风险高; 运营要求持续提升,运营难度高; 使用场景持续扩展,管理要求高; 人员易流失,招聘难度大;
项目成果
企业级实时数据管道为实时数据体系打下坚实基础; 客户行为等实时数据的标准化补全分发; 实时账户变动与指标变化为实时头寸计算提供依据; 实时数据加载到查询缓存数据库作为业务实时查询使用; 为历史数据查询提供主数据系统数据和数据仓库数据。
icon山东城商行联盟数据库准实时数据采集项目 icon
总体目标 通过实时数据融合系统将打造统一的库表数据采集平台,利用可视化图形配置界面在极短时间内完成数据节点的接入、数据链路的规划与设计、实时数据管道的构建、数据任务管理、可视化运维等一站式的数据融合平台,有效地减少实时数据同步过程中的开发和运维成本,并提高开发的工作效率。该数据融合系统将实现复杂异构数据源和目的地的高效联通,大数据量高并发的数据同步,可视化实时监测保障数据任务稳定运行,并为灵活多样的数据消费需求提供强有力的技术支撑。 项目成果 多源异构,DB2,Oracle,MySQL等多种数据库进行近实时的数据采集功能,并对数据源建立高效的管理功能,实现对数据源、目的地的数据连接统一管理管理,通过界面进行数据源与目的地注册,删除数据源,同时根据需求不断迭代支持新的数据库。
实时采集,利用解析数据库归档日志的方式,实现秒级的数据变更捕获,将解析的变更记录传送到数据目的地中,包括日志中提取数据变更的增、删、改等DML操作记录,以及新增表、删除表、添加字段、删除字段等自动同步到目的地中 。 标准管理,统一的可视化管理页面,提供平台级别的数据管理功能,包括产品权限、数据时效管理和安全管控等方面功能,为数据工程师、运维人员提供直观的数据任务地图,随时可以洞悉数据的最新动态,极大提升运维工作效率和效益。
icon广发证券实时数据融合平台 icon
 
面临挑战 更高效的数据分析支撑诉求:广发证券希望实现核心柜台系统到数据分析平台“交易、登记托管、产品销售”等的实时数据融合,打通Oracle、MySQL、PostgreSQL、Kafka等数据库管理技术,为更高效的数据分析做支撑。 原有工具无法满足需求:客户原有的数据采集工具管理能力与性能不足,不支持采集备库。 解决方案 多元异构,高可用:DataPipeline适配了广发证券多类型及多版本的数据库管理技术,及异构数据之间丰富、自动化、准确的语义映射构建。同时,所有平台组件全面实现了高可用,融合引擎采用分布式架构,用户可灵活进行组件节点的部署,保证系统业务连续性要求。 可管理性较之前有明显提升:根据客户分层管理的需求,将系统内资源抽象为节点、链路、任务,每一层都可以进行独立的管理和授权。同时,平台提供用户管理、单点登录、系统操作日志等企业级管理能力,确保符合企业的整体管理要求。
项目成果
提升服务与运营能力,主动决策:帮助客户实现各系统的打通与关联,助力其业务链条中的所有信息实时汇总到数据平台进行各维度分析,有效支撑多元化的产品服务方案和高效运营管理,实现主动决策,从而为市场提供全面的个性化服务。 降低管理成本,提升效率:实时数据的采集、加工均以配置的方式实现,友好的操作界面,可快速搭建数据链路,一改过去项目制交付的弊端,提高了团队的工作效率,加快了实时数据价值的释放。
icon财通证券集团数据交换平台 icon
总体目标 利用流程,结构,技术的力量,建设一个符合金融行业数据流转稳定要求的,操作简单,运维压力低,自定义能力强且对业务系统与业务人员更友好的系统; 兼容主流的数据存储系统;表结构变化自适应;源的高度可拓展性; 提供高效的API开放能力,便于进行企业级能力组合,构建高效能力组件; 用统一的系统平台来实现并管理数据流转;分发模型:一次读取数据并将数据分发的不同的存储介质;读写分离:流量控制,复杂网络访问; 高度弹性扩缩容能力;组件高可用;极强的高并发性能;运维部署便捷。 面临的挑战与期望 解决数据跨网传输难题; 任务自动触发,减少人工干预; 过程可监控,问题及时预警,保障下游用数不受影响; 适配安全隔离网络架构,自动完成跨网的数据采集、中转、处理; 识别清算数据表的日期变化,自动触发数据同步任务; 针对无主键数据,可灵活设置过滤规则,同步指定的增量数据。
项目成果
实现公司含核心系统在内50+业务系统的数据交换; 涉及数据源超过120+; 超过5000条同步链路; 每日前交换数据量超过70亿; 平台交换总量超过8000亿条; 每天支持40+业务系统运行所需的周边系统数据提供。
icon招商证券实时数据融合平台 icon
面临挑战 高质量投资研究数据诉求:为满足资管客户智能投研与量化分析过程中对于高质量投资研究数据的需求,招商证券自主搭建了投研数据集,包含了目前全市场主流的结构化数据资讯源,以及海量的各类非结构化数据。因此,客户需要一款平台型实时数据管理产品,实现资讯的高效推送,为量化机构客户投资研究提供可靠专业的各类研究数据。 原有的数据同步工具无法满足需求:客户需要打通Oracle、星环TDH、MySQL、OceanBase等数据库管理技术,实现资讯数据标准库及应用系统资讯数据中间库之间数据的实时与批量同步。客户原有的数据同步工具无法满足OceanBase等国产化数据库的支持。 解决方案 多元异构,国产兼容性出色:DataPipeline适配了招商证券Oracle、星环TDH、MySQL、OceanBase在内的多种数据库管理技术。同时,DataPipeline已与GaussDB、腾讯云TDSQL等国产主流数据库厂商,华为云、腾讯云、阿里云等头部云厂商,华为鲲鹏、海光、麒麟软件等基础软硬件主力厂商达成合作,可为客户后续国产化替代工作打下良好基础。 企业级管理,丰富策略:DataPipeline采用“数据节点注册、数据链路配置、数据任务构建、系统资源分配”的分层管理模式,分层管理降本增效.同时,平台提供限制配置与策略配置两大类十余种高级配置,包括灵活的数据对象映射关系,数据融合任务的研发交付时间大大减少。
 
项目成果
支撑全面的极速行情服务,实现以客户为中心:实时敏捷的数据支撑以客户为中心的数据智能,帮助机构客户在行情数据瞬息万变,盈利的机会转瞬即逝的证券市场,精准快速获取信息,把握买卖机会。 降低管理成本,提升效率:快速搭建数据同步管道,极大减轻了运维压力。
icon山西证券数据库实时数据同步平台 icon
总体目标 为了实现数据赋能创新业务,确保做出及时、准确的业务决策,需实时打通公司交易数据、客户数据、风险数据、行为数据、产品数据等内部数据以及市场数据、工商数据、舆情舆论等外部数据。山西证券需要融合估值平台、业务投资系统、柜台系统、资讯系统、CRM系统等核心业务系统到实时计算平台及大数据业务系统的数十亿条数据的整合。 面临的挑战 数据源繁多,实时采集压力大:需要实现将总部核心 Oracle 11G 数据库实时同步到深圳大数据中心的大数据平台中(Oracle 11G、Kafka 2.10.0)中;实现业务系统之间数据实时采集至大数据中心,MySQL 5.6、MySQL 8.0 实时同步到 Kafka 2.10.0 中; 运维压力大,管理风险高:需要实现源端增量同步过程中的自定义 DML 操作能力;数据同步过程中实时监控管理;数据不一致修复,方便运维管理。
项目成果
降低人力成本:DataPipeline 实时数据融合帮助客户实现 Oracle、MYSQL 及 Kafka 之间高效地进行数据交互,提升数据质量及一致性。降低客户手动开发成本,得以将精力投入到数据价值的挖掘和释放上去; 提升数据时效性:DataPipeline 帮助客户实现秒级数据传输,提高业务端取数的实时性和丰富性,满足业务端实时报表、实时大屏、实时资讯等业务需求; 快速开发配置和上线部署:DataPipeline 简单易用,极大地加速了实时数据同步需求的开发配置和上线部署。
icon国盛证券实时数据融合平台 icon
总体目标 在互联网金融的大背景影响下,国盛证券使用的数据库种类越来越多、对数据时效性的要求也越来越高,期待基于数据基础平台建立以客户为中心的数据智能从而创造更大的价值。客户需要替换掉某款友商产品,获得高性能、高稳定性、具备企业级管理能力的平台型产品。 解决方案 多元异构,高可用。DataPipeline完成从证券系统、资讯系统、柜台系统等到数仓的实时数据融合,打通Oracle、MySQL、HBase、Hive、Kafka等数据库管理技术,为其更高效的数据分析做支撑。 所有平台组件全面实现了高可用,用户可以根据对可用性的要求,灵活进行组件节点的部署,避免单点故障;  可管理性较之前有明显提升。根据客户分层管理的需求,将系统内资源抽象为节点、链路、任务,每一层都可以进行独立的管理和授权。用户可以在链路上定义字段类型映射、限速、告警等策略,并应用到任务层面,从而实现层级化的精细管理。与此同时,DataPipeline内部的所有重要事件、告警信息都能够推送到用户定义的邮箱、文件路径或Webhook中,从而与企业既有的运维监控体系无缝集成。
项目成果
组织价值提升。实时敏捷的数据支撑以客户为中心的数据智能,可使得企业能够像互联网公司有一个敏捷的组织响应客户的服务、提供更好的产品,能够给传统企业带来一些模式创新、组织能力的变革,从而提升商业价值; 敏捷运维,降低数据同步成本。通过同步任务的管理和告警的机制及图形化界面,客户更为直观地完成了日常任务监控,极大节省了运维时间,提升数据管理效率、高效释放数据价值。
icon公司简介icon
DataPipeline 是一家中国的中间件厂商,公司秉持「连接一切数据、应用 和设备」的使命,致力于成为「中国的世界级数据中间件厂商」。 DataPipeline 通过自主研发的一系列实时数据技术协助用户构建以业务目 标为导向的数据链路,实现企业级实时数据管理目标。产品支持广泛的数据节点类型,按需快速定制、部署、执行数据任务,产品广泛应用实时数据采集、 数据订阅与分发、多云数据传输等场景。 DataPipeline 主要客户是金融、通信、能源、零售及互联网等业务水平与 信息化水平较高的客户。基于 DataPipeline 数据中间件产品构建的实时数据管 理平台已经在包括中国石油(4)、
中国人寿(32)、中国电信(126)、民生银行(224)、吉利集团(239)、法国威立雅(413)、龙湖集团(456)、星巴克(478)等多家世界500强企业和国内多家银行、保险、券商、制造等中国500强企业上线。 DataPipeline 团队成员来自中科院、Oracle、IBM、谷歌、亚马逊等国内外知名企业,并拥有数十年国内外大数据创新实践经验。DataPipeline 总部位于北京,在上海、深圳设有分公司,在全国多个区域设有办事处和服务机构。 截止目前,DataPipeline 已经获得金沙江、百度、经纬和峰瑞5轮轮融资。

 

icon公司资质荣誉 icon

完全自主知识产权产品,深度参与国家标准制定,广泛建立信创生态合作关系。

icon重点领域信息化领先客户的广泛应用 icon

深耕企业服务,公司从成立以来把业务重点放在服务业务发展水平高,信息化建设水平高的客户方面。

产品推荐 查看更多>>
    爱数先进制造业非结构化数据管理系统

    爱数先进制造业非结构化数据管理系统,打造智能制造+互联网的智能制造企业,实现产品个性化、设计协同化、供应敏捷化、制造柔性化、服务主动化、决策智能化。实现数据合理的分级分类管理,帮助企业实现数据资产化和数据知识化,有效提升跨组织跨部门的团队协作。

    实现数据共享

    加强业务协作

    促进业务创新

    提升建设效率

    上讯信息敏捷数据脱敏系统SDM

    敏捷数据管理平台软件(ADM)是上海上讯信息技术股份有限公司(以下简称“上讯信息”)自主研发的,主要面向金融、运营商、政府、能源、医疗等行业打造的全生命周期数据安全管理软件产品,用于数据备份、备份数据恢复验证、测试数据交付和静态数据脱敏等应用场景,可为企业上、中、下游数据的高效使用和安全管控提供一套整体解决方案。

    支持多种敏感数据源

    敏感数据自动识别

    数据关联关系保持

    具备丰富脱敏算法

    DataPipeline批流一体数据融合平台

    DataPipeline批流一体数据融合平台采用基于日志的增量数据获取技术(Log-based change data capture),为主数据管理、数据仓库、大数据平台提供实时、准确的数据变化,从而使得客户可以根据最新数据进行运营管理与决策制定。

    无代码、配置式数据管道

    分布式引擎、组件级高

    实时数据管理

    增量数据获取技术