导入Hive类型的数据,支持:
用户属性数据导入
用户行为数据导入
python3 format_importer.py -m user_variables \-ds <数据源ID> \-f <文件格式> \-db_host <数据库连接地址> \-db_user <数据库连接用户> \-db_password <数据库连接密码> \[-db_port<数据库连接端口号] \-sql <查询语句>
ds:必选参数,数据源ID在前端获得,操作详见附录
f:必选参数,导入数据格式,填写:hive
db_host:必选参数,数据库连接地址
db_user:必选参数,数据库连接用户名
db_password:必选参数,数据库连接密码
db_port:可选参数,数据库连接端口,默认10000
sql:必选参数,查询语句,输出列须包含userId字段,其他字段须已在用户属性中定义
例如,数据库中用户表为db.user,需要导入的字段及部分行数据如下:
userid | gender | age | viplevel |
123 | 男 | 19 | 初级 |
234 | 女 | 38 | 中级 |
345 | 男 | 22 | 高级 |
假设待导入的字段gender、age和viplevel已在用户属性中创建,则sql参数可编写为如下:
select userid as userId,gender as gender,age as age,viplevel as viplevelfrom db.user
脚本执行成功,用户属性数据导入后,系统将立即进行相关指标的计算,在前端可以查看计算进度
python3 format_importer.py -m events \-ds <数据源ID> \-f <文件格式> \-db_host <数据库连接地址> \-db_user <数据库连接用户> \-db_password <数据库连接密码> \[-db_port<数据库连接端口号] \-sql <查询语句> \-s <数据起始日期> \-e <数据结束日期>
ds:必选参数,数据源ID在前端获得,操作详见附录
f:必选参数,导入数据格式,填写:hive
db_host:必选参数,数据库连接地址
db_user:必选参数,数据库连接用户名
db_password:必选参数,数据库连接密码
db_port:可选参数,数据库连接端口,默认10000
sql:必选参数,查询语句。输出列须包含userId、event和timestamp字段,其中event为埋点事件名,timestamp为事件发生的时间戳,单位是毫秒。其他字段须已在用户属性中定义
s:必选参数,导入用户行为数据的起始日期,格式:YYYY-MM-DD
e:必选参数,导入用户行为数据的结束日期,格式:YYYY-MM-DD
例如,数据库中用户表为db.event,需要导入的用户行为数据如下:
userid | event | event_time | prod_id | price | color |
123 | ViewProd | 2020-01-01 01:01:01 | 1 | 19.0 | 红 |
234 | ViewProd | 2020-01-02 02:02:02 | 2 | 38.1 | 绿 |
345 | ViewProd | 2020-01-03 03:03:03 | 3 | 22.2 | 蓝 |
假设对应的行为事件属性名prod_id、price和color已在事件属性中创建,则sql参数可编写为如下:
select userid as userId,event as event,unix_timestamp(event_time)*1000 as timestamp,prod_id as prod_id,price as price,color as colorfrom db.event
脚本执行成功,用户行为数据导入后,系统将立即进行相关指标的计算,在前端可以查看计算进度
辅助工具下载
前端创建数据源,进入数据源管理页面:
创建 用户属性数据 导入数据源,操作方式:新建数据源 > 历史数据导入 > 用户属性数据
创建 用户行为数据 导入数据源,操作方式:新建数据源 > 历史数据导入 > 用户行为数据
创建后,在数据源管理列表页面查看相应的数据源ID: