您好!欢迎来到爱源码

爱源码

热门搜索: 抖音快手短视频下载   

ETL调度系统与常用工具的比较:azkaban、oozie、taskctl {影视源码}

  • 时间:2022-11-03 11:24 编辑: 来源: 阅读:286
  • 扫一扫,手机访问
摘要:ETL调度系统与常用工具的比较:azkaban、oozie、taskctl {影视源码}
最近遇到很多正在研究ETL及其工具的合作伙伴向我们抱怨:他们都在用Kettle,出发点显然是一样的,但是为什么别人做ETL做得那么快那么好,却不断掉坑?其实像Kettle这样的开源工具已经覆盖了日常工作中需要的大部分功能,企业的基本需求直接部署一套就能搞定。 今天我们就对其中一个炙手可热的“app”——调度工具做一个简单的评测对比,帮助你快速解锁开源工具ETL的新姿态。 为什么需要一个排班系统?先说识字。 我们都知道大数据的计算、分析和求解,一般由几个任务单元组成(Hive、Sparksql、Spark、Shell等。),每个任务单元完成一个具体的数据求解逻辑。 很多任务单元往往有很强的依赖性,上游任务只有执行成功才能执行。 比如上游任务在结束后得到A结果,下游任务需要结合A结果产生B结果。因此,下游任务的开始必须在上游任务成功运行并得到结果之后。 为了保证数据求解结果的准确性,需要要求这些任务按照上下游的关系有序高效地执行。 一个基本的解决方案是,估算出解决每个任务所需的时间,根据顺序计算出每个任务的起止时间,通过定时运行任务来保持整个系统的稳定运行。 一个完整的数据分析任务至少要执行一次,这种调度方式完全可以满足数据量少、简单依赖的低频数据求解过程中的需求。 然而,在企业级场景中,每天需要执行更多的任务。如果有大量的任务,那么计算任务的开始时间将花费大量的时间。此外,如果上游任务执行时间超过原预计时间或者操作员运行异常,上述解决方案将完全无法应对,还会造成人力物力的反复损耗。因此,一个完整高效的工作流调度系统将在企业数据开发过程中发挥至关重要的作用。 调度工具与OozieOozie:大象训练器(调度mapreduce)相比较 Oozie是基于工作流引擎的开源框架,需要部署到java servlet上才能运行,主要用于定时调度,多任务按照执行的逻辑顺序进行调度。 它具有以下特点:1 .统一调度常见的mr任务启动、hdfs操作、shell调度、hive操作等。在hadoop系统中;2.让复杂的依赖、时间触发、事件触发用xml语言表达,开发效率会提高(这个不一定,我讨厌xml,我觉得效率不高……);3.一组任务用一个DAG表示,用图形表示,过程清晰;4.支持多种任务调度,可以完成大部分hadoop任务;5.程序定义支持EL常量和函数,表达丰富;6.Oozie规定工作完成后发邮件通知;7.阿兹卡班使用网络操作 Oozie支持Web、RestApi和Java API操作;AzkabanAzkaban是Linkedin的开源批处理工作流任务调度器。 用于在工作流中以特定顺序运行一组作业和流程。 Azkaban定义了KV文件格式来建立任务之间的依赖关系,并提供了一个易于使用的web客户端界面来维护和跟踪您的工作流程。 它具有以下特点:1 .Web客户端界面2。轻松上传工作流3。容易设置任务之间的关系4。计划工作流5。认证/授权(授权作品)6。能够终止和重启工作流7。模块化可插拔插件机制8。项目工作区9。工作流和任务的日志和审计taskctl是一个全功能的自动作业调度技术管理工具。 通过TASKCTL,这些作业可以通过各种参数快速组织、有效管理和控制。 在业内,这种技术一般被称为作业调度,其技术本质是作业运行管理的自动控制。 基于成都tasker的产品taskctl,为个人、企业主、独立数据应用开发者部署一站式大数据工具平台和社区。 基础包永远免费!通过taskctl,个人和企业可以整合开发自己的多源业务系统数据,而不必过于关注大数据底层存储和计算引擎的复杂安装、繁琐配置和日常运维,形成数据资产,并在自己的运营场景中赋能,从而轻松在云端搭建自己的数据中间站。 Taskctl调度功能如下:1 .完成20多个数据源的自适应调度:Mysql、Oracle、Hive、HBase、Redis、MongoDB、ODPS、Postgresql、ElasticSearch、WebService、GBase等。2.模块化、可插拔的插件机制:屏蔽各种应用平台的技术差异,适应统一的执行、挂起和状态日志查询访问接口;3.支持可视化工作流配置:支持图形拖动和自动最小交叉排版,清晰展现作业节点间的串并关系;不同类型的作业图标自行设置,可以快速定位正在执行作业的节点;4.支持任务报警:邮件、短信、微信、钉钉等多渠道订阅。、平台消息、流程消息、作业消息的多级推送。 5.人工干预多样化:正常排班、自由排班、虚拟排班。 中断、强制通过、禁用通过、预设断点、忽略条件等。;6.支持作业优先级配置:平台级、流程级、作业级并行控制,资源权重设置。 动态设置作业优先级,设置顶部。 7.支持工作流和工作流组装:支持调度元信息架构各层次组织,如:工程工作流(可嵌套)模块(可嵌套)job 8。支持工作流测试运行:支持流程开发完整系统,如编码编译调试版本发布运行一整套完整的生命周期管理。 9.错误任务快速定位:提供对“正在执行,异常”状态的作业节点的自动跟踪定位。 总结Apache Oozie是一个重量级的任务调度系统,功能比较全面,但是部署和配置会比较麻烦,从crontab到Oozie肯定会比较难上手。 Azkaban是介于Oozie和Crontab之间的工具,但安全性不如Oozie。同时,如果失败,阿兹卡班将失去所有工作流,oozie可以继续运行。 与以上两种工具相比,taskctl可以处理配置和部署的复杂问题,并且易于扩展。同时,Task CTL在工作流中还具有更多便于开发和运维的其他功能。 当然,taskctl不仅是一个全功能的工作流调度工具,还是一个一站式的大数据平台,涵盖了以下功能。无论是简单的ETL工作,还是复杂的数据中间站构建工作,都可以用taskctl来完成。 基础版永远免费!无论遇到什么问题,都可以找客服。这是一个比开源产品体验好100倍的工具。你确定不想试一试吗?公告:以上部分内容来源于网络参考:湾区人工智能、数蓝科技、gyzhang_csdn、科技D生活整理:https://blog.csdn.net/Dtwave_/article/details/103184116?慕白链接:


  • 全部评论(0)
资讯详情页最新发布上方横幅
最新发布的资讯信息
【技术支持|常见问题】1556原创ng8文章搜索页面不齐(2024-05-01 14:43)
【技术支持|常见问题】1502企业站群-多域名跳转-多模板切换(2024-04-09 12:19)
【技术支持|常见问题】1126完美滑屏版视频只能显示10个(2024-03-29 13:37)
【技术支持|常见问题】响应式自适应代码(2024-03-24 14:23)
【技术支持|常见问题】1126完美滑屏版百度未授权使用地图api怎么办(2024-03-15 07:21)
【技术支持|常见问题】如何集成阿里通信短信接口(2024-02-19 21:48)
【技术支持|常见问题】算命网微信支付宝产品名称年份在哪修改?风水姻缘合婚配对_公司起名占卜八字算命算财运查吉凶源码(2024-01-07 12:27)
【域名/主机/服务器|】帝国CMS安装(2023-08-20 11:31)
【技术支持|常见问题】通过HTTPs测试Mozilla DNS {免费源码}(2022-11-04 10:37)
【技术支持|常见问题】别告诉我你没看过邰方这两则有思想的创意广告! (2022-11-04 10:37)

联系我们
Q Q:375457086
Q Q:526665408
电话:0755-84666665
微信:15999668636
联系客服
企业客服1 企业客服2 联系客服
86-755-84666665
手机版
手机版
扫一扫进手机版
返回顶部