如下场景,您选用该工具导入历史数据会比较合适
场景1:
当您的公司购买了GrowingIO的产品,在实施初期,有大量的历史数据需要一次性导入进来,与实时采集数据做分析。由于前端界面创建的单个导入任务,对导入文件大小和数据量有限制,您按照分天、分周或分月(服务器标准配置下,建议的导入数据时间跨度的最大值)将历史数据拆分成多个文件,手动创建任务导入,费时费力。
场景2:
您公司购买GrowingIO产品一段时间后,公司有每日增量的数据需要定时批量导入,比如内部系统计算的用户属性值,需要导入到GrowingIO中。这种情况下,导入的数据量虽然不大,预计在千万行以内,但需要每日定时导入,如果人工操作肯定不合适。
在如上两个场景下,将需要分批或定时导入的操作,交给工具去执行,是更高效的。
文本、Mysql和Hive等类型数据,辅助工具需要做本地转换,对导入性能会有损耗。建议您提前转成Json格式,使用Json数据导入的方式高效完成导入任务。
历史数据导入工具支持导入用户行为数据和用户属性数据,固定数据格式,可选择的工具类型如下
导入数据前,需要先指定所属的数据源ID。数据源的创建位置见:数据源管理
创建"用户属性数据"的数据源,操作方式:新建数据源 > 历史数据导入 > 用户属性数据
创建"用户行为数据"的数据源,操作方式:新建数据源 > 历史数据导入 > 用户行为数据
创建后,在数据源管理列表页面查看相应的数据源ID:
历史数据导入工具的命令执行成功后,系统为其生成一个调度任务。任务执行的进度见:数据导入管理