疯狂Spark之Spark资源调度和任务调度(六)

2026-01-14 • 职场之路 • 作者：小编

资源调度源码分析资源请求简单图

资源调度Master路径：

路径：/core/src/main/scala//deploy/Master/

提交应用程序，submit的路径：

路径：/core/src/main/scala//deploy/

总结：

Executor在集群中分散启动，有利于task计算的数据本地化。

默认情况下（提交任务的时候没有设置--executor-cores选项），每一个Worker为当前的Application启动一个Executor,这个Executor会使用这个Worker的所有的cores和1G内存。

如果想在Worker上启动多个Executor，提交Application的时候要加--executor-cores这个选项。

默认情况下没有设置--total-executor-cores,一个Application会使用Spark集群中所有的cores。

结论演示

使用Spark-submit提交任务演示。也可以使用spark-shell

默认情况每个worker为当前的Application启动一个Executor，这个Executor使用集群中所有的cores和1G内存。

./spark-submit--masterspark://node01:7077--./lib/

运行结果

2.在workr上启动多个Executor,设置--executor-cores参数指定每个executor使用的core数量。

./spark-submit--masterspark://node01:7077--./lib/

运行结果

3.内存不足的情况下启动core的情况。Spark启动是不仅看core配置参数，也要看配置的core的内存是否够用。

./spark-submit--masterspark://node01:7077--./lib/

4.--total-executor-cores集群中共使用多少cores

注意：一个进程不能让集群多个节点共同启动。

./spark-submit--masterspark://node01:7077--exec./lib/

任务调度源码分析Action算子开始分析

任务调度可以从一个Action类算子开始。因为Action类算子会触发一个job的执行。

划分stage,以taskSet形式提交任务

DAGScheduler类中getMessingParentStages()方法是切割job划分stage。可以结合以下这张图来分析：

二次排序

在项目中添加一个文件

排序前文件中内容

编写代码

{defmain(args:Array[String]):Unit={valsconf=newSparkConf().setAppName("SecondSort").setMaster("local")valsc=newSparkContext(sconf)vallines=("")valpairs={x=(newSecondSortKey(("")(0).toInt,("")(1).toInt),x)}valsortedPairs=(false)//valsortedPairs=(_._1,false)(_._2).foreach{println}()}}classSecondSortKey(valfirst:Int,valsecond:Int)extsOrdered[SecondSortKey]withSerializable{defcompare(that:SecondSortKey):Int={if(==0)}}

运行效果

topN和分组取topNtopN

需求：获取成绩单中，成绩排在前五的学生信息

在项目中添加一个文件，在文件中以K,V（K表示成绩，V表示姓名）对的形式添加数据，如下图：

编写代码

{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("TopN").setMaster("local")valsc=newSparkContext(conf)vallines=("")vallineList=(x=((",")(0),x))valsortRdd=(false)valresultRDD=(x=x._2)for((5)){println(a)}()}}

运行结果

分组取topN

需求：给每个班级的学生成绩排序

在项目中添加一个文件，在文件中编写K,V（K表示班级，V表示成绩）格式的数据，如下图

编写代码

{SparkContext,SparkConf}objectSparkGroupTopN{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("GroupTopN").setMaster("local")valsc=newSparkContext(conf)vallines=("")vallineList=(x=(("\t")(0),("\t")(1))).groupByKey()valtopList=(x={vart=List[Int]()for(a-x._2){t=t.::()}println(x._1){x=-x}.take(3)}){println}}}

运行结果

免责声明：本文章如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

上一篇：太仓：“归庄阿姨”20年为老人义务服务

下一篇：新县卡房乡举行厚东学校揭牌暨奖学金发放仪式

2025-07-09 阜阳这些单位招聘27人！快转给需要的朋友
2025-11-17 2024年漳州青年人才交流联谊活动举办
2025-03-03 英科新创报告期内高溢价入股一亏损公司，募资补流合理性待商榷
2025-12-13 曾志坚、霍枫、章天鸿、王凤宽、龙禹名被查，尚建、刘超、李安元被“双开”
2025-12-05 全程中文！剑桥大学嘉治商学院原院长在北大汇丰毕业典礼上讲了什么？
2025-08-13 广东华铠实业有限公司
2025-09-28 精准才能克服“阳性焦虑”
2025-11-11 学费10万起！北京10所天价幼儿园汇总，家长挤破头拼“起跑线”
2024-11-19 2020年中考语文记叙文阅读高分秘籍专题01 人物类记叙文（一）
2025-03-12 迈为科技取得规正机构专利，对目标物四周进行规正定位

职通未来

疯狂Spark之Spark资源调度和任务调度(六)

友情链接

疯狂Spark之Spark资源调度和任务调度(六)

相关文章

友情链接