跳到主要内容
版本:4.0

Hive数据导入

简介

导入Hive类型的数据,支持:

  • 用户属性数据导入
  • 用户行为数据导入

使用前,请先阅读数据导入工具的内容介绍。

功能说明

用户属性数据导入

python3 format_importer.py -m user_variables \
-ds <数据源ID> \
-f <文件格式> \
-db_host <数据库连接地址> \
-db_user <数据库连接用户> \
-db_password <数据库连接密码> \
[-db_port<数据库连接端口号] \
-sql <查询语句>

ds:必选参数,数据源ID在前端获得,操作详见附录

f:必选参数,导入数据格式,填写:hive

db_host:必选参数,数据库连接地址

db_user:必选参数,数据库连接用户名

db_password:必选参数,数据库连接密码

db_port:可选参数,数据库连接端口,默认10000

sql:必选参数,查询语句,输出列须包含userId字段,其他字段须已在用户属性中定义

例如,数据库中用户表为db.user,需要导入的字段及部分行数据如下:

useridgenderageviplevel
12319初级
23438中级
34522高级

假设待导入的字段gender、age和viplevel已在用户属性中创建,则sql参数可编写为如下:

select userid as userId,gender as gender,age as age,viplevel as viplevel 

from db.user

用户行为数据导入

python3 format_importer.py -m events \
-ds <数据源ID> \
-f <文件格式> \
-db_host <数据库连接地址> \
-db_user <数据库连接用户> \
-db_password <数据库连接密码> \
[-db_port<数据库连接端口号] \
-sql <查询语句> \
-s <数据起始日期> \
-e <数据结束日期>

ds:必选参数,数据源ID在前端获得,操作详见附录

f:必选参数,导入数据格式,填写:hive

db_host:必选参数,数据库连接地址

db_user:必选参数,数据库连接用户名

db_password:必选参数,数据库连接密码

db_port:可选参数,数据库连接端口,默认10000

sql:必选参数,查询语句。输出列须包含userId、event和timestamp字段,其中event为埋点事件名,timestamp为事件发生的时间戳,单位是毫秒。其他字段须已在用户属性中定义

s:必选参数,导入用户行为数据的起始日期,格式:YYYY-MM-DD

e:必选参数,导入用户行为数据的结束日期,格式:YYYY-MM-DD

例如,数据库中用户表为db.event,需要导入的用户行为数据如下:

userideventevent_timeprod_idpricecolor
123ViewProd2020-01-01 01:01:01119.0
234ViewProd2020-01-02 02:02:02238.1绿
345ViewProd2020-01-03 03:03:03322.2

假设对应的行为事件属性名prod_id、price和color已在事件属性中创建,则sql参数可编写为如下:

select userid as userId,
event as event,
unix_timestamp(event_time)*1000 as timestamp,
prod_id as prod_id,
price as price,
color as color
from db.event