阿里云DataWorks数据准备

在数据准备阶段,您需要通过数据Demo包生成模拟真实环境的数据,以便后续数据开发使用。

前提条件

  • 创建华北2(北京)区域的表格存储实例,同时记录实例名称实例访问地址。单击表格存储控制台中的实例名称,即可获得实例访问地址。对于跨区域的访问,建议您使用公网地址。详细操作请参见环境准备。公网地址公网地址
  • 使用主账号登录安全信息管理控制台,获取并记录您的AccessKey ID和AccessKey Secret信息。


    说明 AccessKey ID和AccessKey Secret是您访问阿里云API的密钥,具有该账户完全的权限,请您妥善保管。

操作步骤

  1. 下载数据Demo包

    数据Demo包下载地址如下,本例中使用环境为Windows7 64位:

    • Mac下载地址
    • Linux下载地址
    • Windows7 64位下载地址
  2. 配置Demo环境

    完成下载后,解压下载包,编辑conf文件夹内的app.conf文件。配置环境配置环境

    app.conf文件内容示例如下。

    endpoint = "https://workshop-bj-001.cn-beijing.ots.aliyuncs.com"
    instanceName = "workshop-bj-001"
    accessKeyId = "LTAIF24u7g******"
    accessKeySecret = "CcwFeF3sWTPy0wsKULMw34Px******"
    usercount = "200"
    daysCount = "7"

    其中,需要配置的参数如下:

    • endpoint:表格存储实例的访问网络地址,建议您使用公网地址。
    • instanceName:表格存储实例的名称。
    • accessKeyIdaccessKeySecret:访问阿里云API的密钥。
  3. 启动Demo准备测试数据
    1. 启动Windows CMD命令行工具,进入您解压缩Demo包的路径,执行如下语句查看Demo包命令用法。
      workshop_demo.exe -h

      启动Windows CMD命令行工具,进入您解压缩Demo包的路径,执行如下语句查看Demo包命令用法。该命令会列出该demo的相关命令,如下。

      workshop_demo.exe -h  列出该demo的相关命令:
      * prepare: 准备测试数据,创建数据表,根据conf中的用户数量,为用户生成一周的行为日志数据。
      * raw ${userid} ${date} ${Top条数}: 查询指定用户的日志明细。
      * new/day_active/month_active/day_pv/month_pv:在结果表中查询上述几种类型的报表数据(新增:new,日活:day_active,月活:month_active,日PV:day_pv,月PV:month_pv)。
    2. 执行如下命令生成准备数据。
      workshop_demo.exe prepare

      结果如下。准备数据准备数据

    在此过程中,Demo包会自动帮助您在表格存储中创建表,结构如下:

    • 原始日志数据表:user_trace_log
      列名 类型 说明
      md5 STRING 用户uid的md5值undefined前8位,表格存储主键。
      uid STRING 用户uid,表格存储主键。
      ts BIGINT 用户操作时间戳,表格存储主键。
      ip STRING IP地址。
      status BIGINT 服务器返回状态码。
      bytes BIGINT 返回给客户端的字节数。
      device STRING 终端型号。
      system STRING 系统版本:ios xxx/android xxx。
      customize_event STRING 自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览。
      use_time BIGINT APP单次使用时长,当事件为退出、后台、切换用户时有该项。
      customize_event_content STRING 用户关注的内容信息。
    • 分析结果表: analysis_result
      列名 类型 说明
      metric STRING 报表的类型:’new’、’day_active’、’month_active’、’day_pv’、’month_pv’,表格存储主键。
      ds STRING 时间yyyy-mm-ddyyyy-mm,表格存储主键。
      num BIGINT 对应的数据值。
  4. 数据验证
    • 用户明细查询

      通过如下语句查询指定用户在某一日期指定条数的明细数据。表格数据的日期对应于您创建表格的时间。

      raw ${userid} ${date} ${Top条数}

      其中,${userid}为用户ID,${date}为指定日期,${Top条数}为指定查询条数。例如您创建数据时间为2019年6月15日,则可以使用workshop_demo.exe raw 00010 "2019-06-15" 20查看20条用户明细数据。用户明细用户明细


      说明 由于表格存储是SchemaFree结构,表的属性列不需要预先定义。Customize_Event中不同的事件对应了不同的内容,因此Demo中将事件、内容进行对齐显示。

    • 报表结果查询

      您可以使用workshop_demo.exe day_active命令查看日活数据。日活数据日活数据

原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/34149.html

发表评论

登录后才能评论