目录
-
读数据表
-
写数据表
-
Mysql数据同步
-
OSS数据同步
读数据表
读取Maxcompute的表数据组件,默认读取本工程下的数据。若读取其他工程的表数据且拥有该工程的操作权限,只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data。
-
读MaxCompute表的输入框:当输入表名后,会自动读取表的结构数据,可单击字段信息查看。
注意:MaxCompute表字段修改后,如果增加或删除某个字段,在算法平台中是无法感知的,需要用户重新设置一下MaxCompute源,重新加载这个表信息。
- 分区功能介绍。
- 若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。
- 不勾选分区框或勾选后不输入分区参数均默认为输入全表。
- 若输入表是非分区表,分区框不可勾选。
- PAI的读数据组件包含读取分区表的功能,在日期定义上与大数据开发套件略有不同。
- PAI在读取分区表时需要指定dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期前一天。
写数据表
写入MaxCompute表的数据组件,同样支持写入其他工程的表数据。
写入表数据不支持分区操作。
Mysql数据同步
功能说明
同步Mysql数据到MaxCompute项目。
参数说明
参数名称 | 参数描述 | 取值范围 | 默认值/行为 |
---|---|---|---|
实例名称 | 必填,RDS的实例名称 | 不涉及 | 不涉及 |
数据库 | 必填,RDS数据库名称 | 不涉及 | 不涉及 |
数据表 | 必填,欲同步的数据表 | 不涉及 | 不涉及 |
用户名 | 必填,RDS数据库的用户名 | 不涉及 | 不涉及 |
密码 | 必填,RDS数据库密码 | 不涉及 | 不涉及 |
同步的字段 | 选填,默认同步该数据库所有字段 | 不涉及 | 所有字段 |
允许脏数据阈值 | 选填,数据错误数,默认0容忍数据错误 | 不涉及 | 0 |
同步数据宽带 | 选填,数据同步带宽 | 单位 MB/s | 1 |
注意:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者DataX。
如何获取组件参数
-
使用主账号登录阿里云官网,切换到RDS控制台,如下图所示,获取RDS的实例名称。
-
添加白名单。由于RDS对访问的IP有限制,需要单击实例链接,选择数据安全性,添加白名单。其中 0.0.0.0/0 表示运行任意IP访问。
-
单击实例链接,可以查看实例的详细信息,比如账号信息(如果没有账号,可以新建一个账号)、数据库信息等。
-
在左侧的菜单栏中选择数据库连接,单击登录数据库。
-
登录后可以查看数据库database,数据库下对应的table和schema。
OSS数据同步
功能说明
同步OSS的文本到MaxCompute数据源。
说明:CDP服务不提供命令行执行语句。
参数说明
参数名称 | 参数描述 | 取值范围 | 默认值/行为 |
---|---|---|---|
OSSendpoint | 必填,OSS存储服务所在的 Endpoint | oss-cn-xxxx.aliyuncs.com | oss-cn-shanghai.aliyuncs.com |
OSSaccessId | 必填,OSS服务的 AccessId | 不涉及 | 不涉及 |
OSSaccessKey | 必填,OSS服务的 AccessKey | 不涉及 | 不涉及 |
bucket | 必填,OSS服务的 Bucket | 不涉及 | 不涉及 |
object | 必填,欲同步的 OSS object | 不涉及 | 不涉及 |
OSScolumn映射 | 必填,同步的字段映射格式是 index:name,表示OSS第index列同步到Maxcompute字段名为name的字段中,字段类型默认string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length | 不涉及 | 不涉及 |
OSS文本分隔符 | 必填,OSS object 的文本分隔符(列分隔符) | 逗号 | , |
OSS文本压缩格式 | 选填,OSS 文本压缩格式 | gzip,zip,bzip2 | 无 |
OSS文本编码 | 选填,OSS 文本的编码 | utf-8 | utf-8 |
同步数据带宽 | 选填,数据同步带宽 | 单位 MB/s | 1 |
允许脏数据阈值 | 选填,数据错误数,默认0容忍数据错误 | 不涉及 | 0 |
注意:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者DataX。
如何获取组件参数
-
使用主账号登录阿里云官网,切换到OSS控制台。单击界面右侧的Access key,获取 AccessId 和 AccessKey,如下图所示。
-
在OSS控制台,可以在左侧列表中搜索用户拥有的 Bucket,如果没有可以参考创建OSS存储空间创建 Bucket。
-
单击 Bucket 实例链接,进入概览页面,可以获取该 OSS Bucket 所在的 Endpoint。
-
单击文件管理可以获取 Bucket,Object 等信息。
原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/34209.html