Flink1.7.2 Dataset 并行计算源码分析

  • 时间:
  • 浏览:1
  • 来源:大发5分11选5_大发5分11选5官网

循环读取分片信息,读到的数据是按行的

更新当前任务情況从 DEPLOYINGRUNNING

把JobGraph 转换为ExecutionGrapth

分配Slot给Execution

ExecutionGraph会拆分成ExecutionJobVertex执行,按(DataSourceTask,BatchTask,DataSinkTask) 进行拆分

加载你这些Task的jar文件

ExecutionGraph会拆分成ExecutionJobVertex执行,按(DataSourceTask,BatchTask,DataSinkTask) 进行拆分

默认的作业调度模式 LAZY_FROM_SOURCES,

更新当前Job的情況,即更新ExecutionGraph的情況,从CREATED更新到RUNNING

构建任务运行环境

构建部署对象

默认作业调度模式为:LAZY_FROM_SOURCES,只启动Source任务,下游任务是当上游任务刚刚刚刚现在开始给他发送数据时才刚刚刚刚现在开始

ScheduleMode scheduleMode = ScheduleMode.LAZY_FROM_SOURCES;

Transformation chain

调用DataSourceTask.invoke(),会根据具体的任务,调用具体任务的函数

得到文件位置信息

ExecutionJobVertex (执行流程:CREATED -> DEPLOYING ),转成对应的Task(执行流程:CREATED -->DEPLOYING --> RUNNING)

构建Task,Task 默认的情況为CREATED