阿里云Data Lake Analytics建表向导

本文介绍如何通过建表向导创建OSS schema和表,快速分析OSS数据。

步骤一:开通OSS数据源

如果您没有在DLA中开通OSS数据源,请参照以下步骤开通OSS数据源。

  1. 登录Data Lake Analytics管理控制台。

  2. 单击左侧导航栏的Schema管理,然后单击创建Schema。

  3. 在创建Schema页面的常用页签下,选择对象存储服务中的使用向导创建。若账号还未开通OSS数据源,请按照系统提示开通OSS数据源。

步骤二:创建Schema

DLA提供两种创建OSS Schema的方法:通过向导模式创建OSS Schema和通过SQL创建OSS Schema。本示例介绍如何通过向导模式创建OSS Schema。

通过SQL创建OSS Schema,请参见通过SQL创建OSS Schema。

  1. 登录Data Lake Analytics管理控制台。

  2. 单击左侧导航栏的Schema管理,然后单击创建Schema。

  3. 在创建Schema页面的常用页签下,选择对象存储服务中的使用向导创建。

  4. 在创建Schema页面,按照页面提示进行参数配置。

    创建Schema

    • Bucket:系统将自动拉取与DLA同地域的OSS Bucket,您只需根据业务需求选择一个Bucket。

      选择好Bucket后,系统自动列出该Bucket下所有的Object和文件,系统同时支持模糊搜索Object。单击某个Object将其添加到右侧的数据位置处。

    • 数据位置:文件在OSS中的存储目录,以/结尾。

      配置Schema

  5. 完成上述参数配置后,单击下一步。

  6. 在创建Schema页面预览生成的创建Schema SQL语句,您可以根据需要修改SQL。

  7. 确认SQL无误后,单击执行,在弹出的执行确认窗口单击确认创建Schema。

步骤三:创建表

DLA提供两种创建OSS表的方法:通过向导模式创建OSS表和通过SQL创建OSS表。本示例介绍如何通过向导模式创建OSS表。

  1. 登录Data Lake Analytics管理控制台。

  2. 单击左侧导航栏的Schema管理,在Schema管理列表中单击目标Schema右侧的创建新表。

    选择Schema

  3. 在快速建表页面,根据系统提示进行参数配置。

    如果文件夹下还有子文件夹,单击文件夹将显示子文件夹,左边的数据位置也会随着文件夹的改变而改变。单击箭头图标返回上层文件夹。

    创建表

    参数 说明
    表名 设置OSS的表名。
    数据位置 系统根据您所选的文件夹的位置,自动设置数据位置。
    文件类型 支持JSON和Text两种类型。
    压缩格式 选择默认无压缩。
    目录扫描模式 配置表所在目录下的资源扫描方式。

    • 递归遍历:扫描所有文件及子目录。
    • 不递归遍历:扫描所有文件,不包含任何目录。
    行分隔符 文件类型为Text时,设置数据的行分隔符。行分隔符支持回车符和换行符两种。
    跳过行数 设置每个数据文件在读取时,从第一行开始跳过的行数。
    列分隔符 文件类型为Text时,设置数据的列分隔符。列隔符支持英文逗号(,)和竖线(|),也可自定义列分隔符。
    列识别深度
    仅包含文件 配置要扫描哪些文件。

    • 特定文件:输入扫描文件的文件名,只扫描某个特定文件
    • 某类文件:使用通配符,设置扫描某类文件,例如.json表示扫描所有JSON文件。
  4. 完成上述参数配置,单击下一步。

  5. 在编辑列页面,单击下一步。

    编辑列

  6. 在阅览页面,确认Creare Table无误后,单击执行。在弹出的执行确认窗口,再次单击确认,系统开始执行Creare Table SQL。

下一步

执行SQL

原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/33750.html

发表评论

登录后才能评论