本文介绍如何配置Spark类型的作业。
前提条件
已创建好项目,详情请参见项目管理。
操作步骤
- 通过主账号登录阿里云 E-MapReduce 控制台。
- 单击上方的数据开发页签。
- 在项目列表页面,单击对应项目所在行的作业编辑。
- 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业。
说明 您还可以通过在文件夹上单击右键,进行创建子文件夹、重命名文件夹和删除文件夹操作。 - 输入作业名称,作业描述,选择Spark作业类型。
表示创建的作业是一个Spark作业。这种类型的作业,其运行实际是通过以下的方式提交的Spark作业。
spark-submit [options] --class [MainClass] xxx.jar args
- 单击确定。
- 在作业内容中,填写提交该作业需要提供的命令行参数。
只需要填写spark-submit之后的参数即可。
以下分别示例如何填写创建Spark作业和pyspark作业的参数。
- 创建Spark作业 。
新建一个Spark WordCount作业。
- 作业名称: Wordcount。
- 类型:选择Spark。
- 应用参数:
- 在命令行下完整的提交命令是:
spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
- 在E-MapReduce 作业的作业内容输入框中只需要填写:
--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
注意 jar包保存在OSS 中,引用这个jar包的方式是 ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以单击下方的插入OSS 路径,文件前缀选择OSSREF,从文件路径中进行浏览和选择,系统会自动补齐OSS上Spark脚本的路径。
- 在命令行下完整的提交命令是:
- 创建pyspark作业。
E-MapReduce除了支持Scala或者Java类型作业外,还支持python类型Spark作业。以下新建一个python脚本的Spark Kmeans作业。
- 作业名称:Python-Kmeans。
- 类型:Spark。
- 应用参数:
--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
- 支持Python脚本资源的引用,同样使用ossref协议。
- pyspark目前不支持在线安装Python工具包。
- 创建Spark作业 。
- 单击保存,作业配置即定义完成。
原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/33437.html
相关推荐
-
入门性能测试PTS,部署你的业务应用场景
性能测试 PTS(Performance Testing Service)具备强大的分布式压测能力,应用十分广泛。 适用于多业务场景 不论您处于哪个行业,在以下业务场景(但不限于)…
-
阿里云数据管理DMS创建触发器
本页面主要介绍DMS创建触发器的功能和操作。 前提条件 用户已获取权限登录到DMS控制台。 操作步骤 选择用户要登录的数据库,单击登录到数据库按钮进行登录。 触发器、函数、存储过程…
-
阿里云短信服务添加国内短信模板
添加签名后,必须添加短信模板并通过审核才能发送短信。 前提条件 已开通短信服务。 当前登录账号已实名认证。 已添加签名并通过审核。 背景信息 短信签名和短信模板必须审核后才能使用。…
-
阿里云物联网平台NTP服务
物联网平台提供NTP服务,解决嵌入式设备资源受限,系统不包含NTP服务,端上没有精确时间戳的问题。 原理介绍 物联网平台借鉴NTP协议原理,将云端作为NTP服务器。设备端发送一个特…
-
阿里云Web 应用防火墙创建AccessKey
访问密钥AccessKey(AK)相当于登录密码,只是使用场景不同。AccessKey用于程序方式调用云服务API,而登录密码用于登录控制台。如果您不需要调用API,那么就不需要创…
-
阿里云安全中心AK和账密防泄漏最佳实践
API凭证(即阿里云AccessKey)是用户访问内部资源最重要的身份凭证。用户调用API时的通信加密和身份认证会使用API凭证(即基于非对称密钥算法的鉴权密钥对)。API凭证是云…
-
阿里云微消息队列 MQTT 版新零售电子价签解决方案(MQTT)
新零售电子价签解决方案由阿里云微消息队列 MQTT 版推出,通过 MQTT 以实现商场超市、公共场所电子标签、多媒体屏幕的数据更新管理。本文将以电子价签为例详细描述该解决方案的系统…
-
阿里云DataWorks工作空间配置
您可以在工作空间配置页面,对当前工作空间的属性进行管理和配置。 进入工作空间配置 登录DataWorks控制台。 进入工作空间配置页面。 您可以通过以下两种方式进入工作空间配置: …
-
阿里云智能接入网关解绑云企业网
当云连接网中添加的网关设备不需要和云企业网实例中的网络资源(VPC和VBR)互通时,您可以随时将云连接网和云企业网解绑。 操作步骤 登录智能接入网关管理控制台。 在左侧导航栏,单击…
-
阿里云邮件推送名词解释
主账户 开通邮件推送服务时使用的阿里云账号。 发信域名 发信域名是邮件发送时的“身份证”,即邮件地址的后缀,每个主账户必须有发信域名。邮件服务商通常是按照不同的域名来进行邮件量和发…