阿里云机器学习PAI源/目标

目录

  • 读数据表

  • 写数据表

  • Mysql数据同步

  • OSS数据同步

读数据表

读取Maxcompute的表数据组件,默认读取本工程下的数据。若读取其他工程的表数据且拥有该工程的操作权限,只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data。

  • 读MaxCompute表的输入框:当输入表名后,会自动读取表的结构数据,可单击字段信息查看。
    阿里云机器学习PAI源/目标

    注意:MaxCompute表字段修改后,如果增加或删除某个字段,在算法平台中是无法感知的,需要用户重新设置一下MaxCompute源,重新加载这个表信息。

  • 分区功能介绍。
    阿里云机器学习PAI源/目标
    • 若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。
    • 不勾选分区框或勾选后不输入分区参数均默认为输入全表。
    • 若输入表是非分区表,分区框不可勾选。
    • PAI的读数据组件包含读取分区表的功能,在日期定义上与大数据开发套件略有不同。
    • PAI在读取分区表时需要指定dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期前一天。

写数据表

写入MaxCompute表的数据组件,同样支持写入其他工程的表数据。
写入表数据不支持分区操作。
阿里云机器学习PAI源/目标

Mysql数据同步

功能说明

同步Mysql数据到MaxCompute项目。
阿里云机器学习PAI源/目标

参数说明

参数名称 参数描述 取值范围 默认值/行为
实例名称 必填,RDS的实例名称 不涉及 不涉及
数据库 必填,RDS数据库名称 不涉及 不涉及
数据表 必填,欲同步的数据表 不涉及 不涉及
用户名 必填,RDS数据库的用户名 不涉及 不涉及
密码 必填,RDS数据库密码 不涉及 不涉及
同步的字段 选填,默认同步该数据库所有字段 不涉及 所有字段
允许脏数据阈值 选填,数据错误数,默认0容忍数据错误 不涉及 0
同步数据宽带 选填,数据同步带宽 单位 MB/s 1

注意:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者DataX。

如何获取组件参数

  1. 使用主账号登录阿里云官网,切换到RDS控制台,如下图所示,获取RDS的实例名称。
    阿里云机器学习PAI源/目标

  2. 添加白名单。由于RDS对访问的IP有限制,需要单击实例链接,选择数据安全性,添加白名单。其中 0.0.0.0/0 表示运行任意IP访问。
    阿里云机器学习PAI源/目标

  3. 单击实例链接,可以查看实例的详细信息,比如账号信息(如果没有账号,可以新建一个账号)、数据库信息等。
    阿里云机器学习PAI源/目标

  4. 在左侧的菜单栏中选择数据库连接,单击登录数据库。
    阿里云机器学习PAI源/目标
    阿里云机器学习PAI源/目标

  5. 登录后可以查看数据库database,数据库下对应的table和schema。
    image

OSS数据同步

阿里云机器学习PAI源/目标

功能说明

同步OSS的文本到MaxCompute数据源。

说明:CDP服务不提供命令行执行语句。

参数说明

参数名称 参数描述 取值范围 默认值/行为
OSSendpoint 必填,OSS存储服务所在的 Endpoint oss-cn-xxxx.aliyuncs.com oss-cn-shanghai.aliyuncs.com
OSSaccessId 必填,OSS服务的 AccessId 不涉及 不涉及
OSSaccessKey 必填,OSS服务的 AccessKey 不涉及 不涉及
bucket 必填,OSS服务的 Bucket 不涉及 不涉及
object 必填,欲同步的 OSS object 不涉及 不涉及
OSScolumn映射 必填,同步的字段映射格式是 index:name,表示OSS第index列同步到Maxcompute字段名为name的字段中,字段类型默认string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length 不涉及 不涉及
OSS文本分隔符 必填,OSS object 的文本分隔符(列分隔符) 逗号 ,
OSS文本压缩格式 选填,OSS 文本压缩格式 gzip,zip,bzip2
OSS文本编码 选填,OSS 文本的编码 utf-8 utf-8
同步数据带宽 选填,数据同步带宽 单位 MB/s 1
允许脏数据阈值 选填,数据错误数,默认0容忍数据错误 不涉及 0

注意:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者DataX。

如何获取组件参数

  1. 使用主账号登录阿里云官网,切换到OSS控制台。单击界面右侧的Access key,获取 AccessId 和 AccessKey,如下图所示。
    阿里云机器学习PAI源/目标

  2. 在OSS控制台,可以在左侧列表中搜索用户拥有的 Bucket,如果没有可以参考创建OSS存储空间创建 Bucket。

  3. 单击 Bucket 实例链接,进入概览页面,可以获取该 OSS Bucket 所在的 Endpoint。
    阿里云机器学习PAI源/目标

  4. 单击文件管理可以获取 Bucket,Object 等信息。
    阿里云机器学习PAI源/目标

原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/34209.html

发表评论

登录后才能评论