搜索

IBM Platform LSF产品功能解析之一

gecimao 发表于 2019-05-01 16:46 | 查看: | 回复:

  从LSF客户端,或者是一个运行bsub命令的服务器上提交一份作业,当提交这份作业时,如果不指定哪个队列,这份作业就会被提交到系统默认的队列中,作业在队列中等待安排,这些作业处于等待状态。

  后台的主进程mbatchd将处理队列中的作业,在一个预定的时间间隔里将这些作业按设定的计划,传递给主调度进程mbschd。

  主调度进程mbschd评估这份工作时,根据作业的优先权制定调度决策、调度机制和可利用资源。主调度进程选择最佳的主机,在哪里作业可以运行,并将它的决策返回给后台主进程mbatchd。主负载信息管理进程(LIM)收集资源信息,主LIM与mbatchd主进程交流这些信息,反过来mbatchd主进程使用之前交流信息支持调度决定。

  Mbatchd主进程一收到Mbschd发过来的决定,立即分配作业到主机。

  从属批处理进程(sbatchd),从Mbatchd主进程接到要求,为这份作业创建一个子Sbatchd和一个执行环境,通过使用一个远程执行服务器开始这个作业。

  当一个作业完成时,如果这个作业没有任何问题,它处于一个完成状态。如果有错误作业无法完成,这份作业处于退出状态。Sbatchd传达作业信息,包括错误提示和给Mbatchd的输出信息。

  Mbatchd通过邮件给提交主机反馈作业输出信息、作业错误、提示信息、作业信息。

  IBM Platform LSF平台的基础结构是为关键性的组件提供故障容错而设计的,有助于从一个故障中恢复过来,具体工作调度如下:

  如果一个主程序不能再用,另一个候补主程序接管任务。在主程序和候补主程序必须通过工作目录共享来协同工作。

  当节点或者节点组不能工作,不可获得时,只有在其上运行的作业受到影响(重新拍发,失败退出,会根据提交时的设置来反应)。

  或者在作业提交时定义了checkpoint,这样当作业重新运行时会从断点处继续运行。

  LSF为这些组件提供了故障容错,一个LSF集群可以在部分网络故障时将工作网络隔离运行。容错取决于系统日志记录档,这个记录档在系统中记录了每一步操作。

  不可否认,IBM Platform LSF平台使用内部的用户管理机制,也为第三方安全机构的整合提供了安全插件,例如轻量级目录访问协议(LDAP)、开放的安全系统认证(Kerberos)、活动目录(Active Directory)。

  对于IBM Platform LSF 平台集群的安全性,有两个步骤要求:首先,检查用户的密码是否有效,然后检查用户的权限。在IBM Platform LSF平台上,可以创建一个自定义的可执行文件(eauth),可以为用户、主机和后台程序提供外围的身份认证。

  在IBM Platform LSF平台的客户终端和服务器之间的认证数据流中,这些机制提供了一个安全的转移数据,通过创建自己的自定义可执行文件,可以设定集群的安全要求。

  IBM Platform LSF 平台提供了多集群支持,不同的集群在不同的位置上,可以通过单一的Platform LSF来进行管理。这个方法使负载管理和集群管理变得容易,也使得基础构架获得高度可扩展性,多集群使得用户可获得更多的资源,提高生产率、资源利用率和性能。

  作为强大的工作负载管理平台,IBM Platform LSF用于要求苛刻的分布式HPC环境,它提供智能的策略驱动的调度功能,支持利用所有计算基础架构资源并确保最优的应用程序性能。

  专业,只为更好 联想商用PC助推企业数字化转型 ——联想商用PC品牌主张及新品发布

  要闻回顾:“先天优势不如后天培养” Docker安全面面观_WatchStor焦点周刊_No.384

  本网站依据国家相关规定准备了相应的稿酬,但由于客观原因无法支付。如您是这篇文章或图片的著作权人或其他权利人,请与本网站联系。本网站在确认您的身份后将予以支付。

本文链接:http://olivierlutaud.net/diaoduzuoye/283.html
随机为您推荐歌词
推荐文章

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部