Logo
    立即注册
    数说方舟
    产品文档
    数据批处理作业
    最近更新时间:2023-01-12 09:59:57

    新建作业

    step1:点击右上角新建作业,选择批处理作业

    step2:选择工作空间内数据源,目前可支持mysql/oracle/es/hive/presto等数据源。选择数据源后,系统进入配置界面

    编辑作业输入

    在批处理作业系统编辑界面中,系统允许选择对应的数据源(单击),进入数据源筛选器。

    数据源筛选器包括以下功能:

    1.配置数据源过滤条件,仅满足条件的数据会进入批处理作业。需要注意的是,和算子前置条件和过滤算子不同,数据源筛选器的过滤会影响整个批处理作业所有的阶段(读取、处理、输出),并且影响资源的分配。合理使用此功能能有效减少任务性能问题,加快处理速度

    2.更多设置当中,支持对数据进行按比例、按数量筛抽样功能。此抽样为伪随机抽样,由于系统是分布式系统,会出现数据略有波动的情况。

    模板保存、授权、使用

    完成批处理作业配置后,可以点击保存为模板,多次复用,目前系统支持保存的模板内容为处理算子内容,(即除输入/输出)外算子。批处理配置的模板类型共有三种。

    个人模板:仅可在本账号下可见,可根据系统帐号给他人授权。

    项目模板:仅本工作空间内可用

    系统模板:本系统环境下公共可用

    当用户需要对模板进行删除、授权操作时,可通过右上角个人管理进行。包括对模板的删除、授权。

    模板在使用的时候,支持两种模式,追加和覆盖,追加是指在用户当前批处理作业的最后面增加对应的处理算子,替换是指把当前的批处理作业配置直接全部替换成模板内容。(此操作不可逆,需要慎重)

    试运行

    在用户实际输出之前,可以根据试运行结果验证数据是否正确,点击试运行的时候,可以输入试运行的数据量(默认100)

    试运行结果支持对自定义脚本、高级码表算子功能的调试。

    试运行的时间默认为5分钟,作业运行时长超过5分钟的场合,可以选择继续等待延长试运行时间。

    编辑作业调度配置

    当用户保存提交作业的时候,可以配置作业的调度信息,目前系统支持一次性任务和周期行任务。

    一次性任务

    一次性任务是指只需要执行一次的作业,相关参数如下:

    通知模式:完成后通知(默认)、作业失败时通知、不通知额外通知邮箱:系统会默认通知任务提交人,如任务完成邮件需要抄送其他人,可使用此功能添加更多邮件。多个邮箱之间请用英文逗号分割

    资源集token:允许用户填入平台的资源token从而改变作业执行的队列。

    离线算法token:调用某些算法服务算子必填项,用户算法平台用量计费

    长文本字段截断:针对长文本类型字段,输出的时候根据一定的字符长度截断,默认不截断(如果部分文本过长容易导致OOM或者数据倾斜,一般建议设置20000)

    并发倍数:控制任务分区数

    跳过数据源锁:当目前作业使用的数据源有其他数据ETL作业在执行时,是否允许同步执行提交的作业 任务超时警告的分钟数:设置后此作业超过某个时间后,邮件通知对应的提交人和抄送人

    file


    周期性任务

    周期性任务是指当满足对应的时间、频率的情况下会自动重复发起的任务,相关配置参数如下:

    生效范围:任务单次触发的时间将会在此范围内。

    触发频率:任务多长时间触发一次。例如:每1日表示每天触发一次。

    触发时刻:任务每次触发的具体时间点。

    回溯范围:每次回溯多长时间的数据。例如:

    • 前2日至前1日,表示回溯前天(任务触发日期-2日)早上00:00:00至昨天(任务触发日期-1日)晚上23:59:59的数据
    • 前2日至前0日,表示回溯前天(任务触发日期-2日)早上00:00:00至任务触发时刻(任务触发日期-0日)的数据
    • 前2小时至前0小时,表示回溯往前推2个小时(任务触发时刻-2小时)的数据
    • 前5分钟至前0分钟,表示回溯往前推5分钟(任务触发时刻-5分钟)的数据

    时间字段:回溯数据时,以该字段为筛选条件获取数据,即该字段的值满足“回溯范围”时被获取。

    file

    作业运行时间

    作业运行时即提交一次任务,时间包含启动时间和运行时间,根据数据量和集群负载情况的不同而变化。一般来说,30~60分钟内启动的任务可认为是正常状态。

    微信扫描二维码在线咨询