跳到主要内容
版本:4.1

数据导入工具

简介

如下场景,您选用该工具导入历史数据会比较合适

场景 1:

当您的公司购买了 GrowingIO 的产品,在实施初期,有大量的历史数据需要一次性导入进来,与实时采集数据做分析。由于前端界面创建的单个导入任务,对导入文件大小和数据量有限制,您按照分天、分周或分月(服务器标准配置下,建议的导入数据时间跨度的最大值)将历史数据拆分成多个文件,手动创建任务导入,费时费力。

场景 2

您公司购买 GrowingIO 产品一段时间后,公司有每日增量的数据需要定时批量导入,比如内部系统计算的用户属性值,需要导入到 GrowingIO 中。这种情况下,导入的数据量虽然不大,预计在千万行以内,但需要每日定时导入,如果人工操作肯定不合适。

在如上两个场景下,将需要分批或定时导入的操作,交给工具去执行,是更高效的。

功能边界或约束

  • 多事件的历史数据导入,推荐使用Json 数据导入
  • 导入性能更强的方式,推荐使用Json 数据导入
  • 支持导入用户行为和用户属性数据,不支持导入维度表数据

文本、Mysql 和 Hive 等类型数据,辅助工具需要做本地转换,对导入性能会有损耗。建议您提前转成 Json 格式,使用 Json 数据导入的方式高效完成导入任务。

功能说明

下载辅助工具

辅助工具的安装和配置

选择合适的导入方式

历史数据导入工具支持导入用户行为数据和用户属性数据,固定数据格式,可选择的工具类型如下

指定数据源

导入数据前,需要先指定所属的数据源 ID。数据源的创建位置见:数据源管理

  • 创建"用户属性数据"的数据源,操作方式:新建数据源 > 历史数据导入 > 用户属性数据
  • 创建"用户行为数据"的数据源,操作方式:新建数据源 > 历史数据导入 > 用户行为数据

创建后,在数据源管理列表页面查看相应的数据源 ID:

任务查看

历史数据导入工具的命令执行成功后,系统为其生成一个调度任务。任务执行的进度见:数据导入管理