jbo竞博【行业资讯】数据采集&流批一体计算工具 bboss v682 发布
发布时间:2011-02-17 18:11:54

  bboss-datatran 由 bboss 开源的数据采集同步 ETL 工具,提供数据采集、数据清洗转换处理入库以及流批一体化数据指标统计计算处理功能。

  FTP 输出插件改进:增加生成文件异常上传 FTP 机制,默认同步发送。数据量比较多,同时切割文件的情况下,启用异步发送文件jbo竞博,会显著提升数据采集同步性能

  数据采集重大功能扩展:增加指标计算输出插件,提供流批一体指标统计计算功能,支持两种模式的指标计算:

  1) 在采集和处理数据时,同时对数据进行大数据指标统计聚合计算,最终将加工后的数据和指标计算结果进行持久化处理

  3) 一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标 key,支持有限基数 key 和无限基数 key 指标计算

  5)支持准实时指标统计计算和离线)可以从不同的数据输入来源获取需要统计的指标数据jbo竞博,亦可以将指标计算结果保存到各种不同的目标数据源

  增量数据采集,默认基于 sqlite 数据库管理增量采集状态,可以配置到其他关系数据库管理增量采集状态,jbo竞博jbo竞博提供对多种不同数据来源增量采集机制:

  2) 基于时间字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse、HBase 等行业资讯,jbo竞博基于时间增量还可以设置一个截止时间偏移量,比如采集到当前时间前十秒的增量数据,避免漏数据

  3) 基于文件内容位置偏移量:文本文件、日志文件基于采集位置偏移量做增量

  4) 基于 ftp 文件增量采集:基于文件级别,下载采集完的文件就不会再采集