1. 原力区首页
  2. Filecoin
  3. Filecoin生态

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

焜耀科技为提出更好的存储解决服务,率先提出标准化,本篇是高性能、安全、稳定的硬件设备篇。

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

本文由焜耀科技原作

 

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

运维客户重要四大点,来源:焜耀科技,2020-12-28

《“7*24小时、可靠、规范”的运维服务标准(上)》之后,我们开始对运维标准作业、升级及维护展开分享,其中重点是:硬件配置的二次审核、复查,基本集群作业部署、监控搭建,以及后续版本升级和维护,以下是分享内容。

 

三、运维标准化作业 

1)方案校对

运维人员接收到集群部署方案,进行校对:

  • 性能校对:通过配比方案中的服务器配置与实际线上使用的服务器性能进行对比,判断线上服务器是否能达到方案中的要求;
  • 参数校对:判断部署参数是否合理,主要包含:部署方案是否过于复杂或者还有需要改进的地方、部署方案是否标准化、部署逻辑相符;
  • 优化反馈:如部署方案存在问题或者疑问,与测试部门进行沟通,进一步优化集群部署方案;
  • 如确认集群部署方案符合标准化运维,则进行下一阶段的部署。

2)服务器初始化、硬件、网络复查

主要步骤如下:

  • 防火墙检查:检查防火墙配置,包含双机冗余组、双机心跳、主备机倒换、防火墙策略配置是否合规、snmp、ssh、https、登录口令等;
  • 交换机检查:检查交换机配置,通过不断的进行配置的优化,降低网络运维后期发生人为故障的可能性,提升网络的质量;
  • 集群环境初始化:集群运行环境检查、初始化及调试;
  • 参数调试:检查系统配置参数,调优系统各项参数,优化提高系统性能;
  • 检查反馈:对客户的网络和硬件运行情况给出详细的优化建议和检查结果汇报。

方案校对和服务器初始化工作主要是再次核实硬件配置能否符合运维要求,从而正式展开运维作业。

3)数据录入

数据录入主要包含服务器信息、软件运行参数、集群矿工号、钱包地址、挂载目录信息等。将以上信息录入运维CMDB资产管理数据库中,用于后续的部署、维护等一系列工作。

4)集群部署

焜耀科技已经实现全栈自动化作业功能,运维人员只需要提前将集群的信息录入到CMDB中,然后在WorkFlow中输入集群的Key,并提交集群部署任务,即可实现自动化集群部署任务。自动化部署高效地缩短了集群的启动时间,从而使得集群的算力能实现快速增长。

5)监控搭建

焜耀运维用到的监控主要分为硬件监控、软件监控和业务监控,目的是实现运维人员和客户对集群和收益的可视化监控,从而能快速解决生产运行环境的各类问题。

 “监控是焜耀运维的眼睛,保障及时发现并处理任何突发状况”

硬件监控

  • 硬件监控:主要负责监控交换机、防火墙、服务器的运行状况,比如各类配件参数指标、硬盘故障、网络传输性能等;
  • 自动警报:当监控的硬件各项指标数据处于“红色”状态,系统会自动向工作群发送简讯告警,帮助运维工程师及时发现并解决问题;针对出现问题较多的故障磁盘问题,其会定时对磁盘进行生命周期检测。

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

硬件监控各硬件情况,来源:焜耀科技,2021-01-05

 软件监控

  • 节点监控:高度监控、连接数监控、消息积压数监控;
  • 程序监控:任务未运行状态监控、任务错误状态监控、时空证明和复制证明状态监控;
  • 日志分析:每日运行程序日志做自动化分析,收集Error信息,并自动传送给开发工程师以做后续优化。

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

软件监控,来源:焜耀科技,2020-12-25

业务监控

  • 算力监控:集群每日算力增涨监控、集群总算力监控、昨日今日同一时间算力增涨监控;
  • 关键数值监控:主要监控集群的孤块情况、每日孤块数量的趋势、幸运值统计、出块权监控等;
  • 收益监控:监控链上数据,保证数据的实时性和可读性,便于客户能实时同步到当前集群的收益状况。
  • 余额监控:针对反应的客户集群的钱包余额问题,设置自动化短信通知提醒;
  • 其他监控:BaseFee过高导致消息无法上链等问题。

 

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

孤块统计,来源:焜耀科技,2020-12-25

 6)稳定期观察

集群部署阶段完成后,先确认各个组件工作状态是否正常,主要是保障该运维作业是否稳定,例如:各个组件之间的网络连接是否正常、数据库网络连接是否正常、组件高度是否同步、私钥是否正常导入、从定风珠或者数据库上任务是否报错、集群消息是否正常广播上链、算力是否上涨等关键性指标。

 

四、版本升级及维护 

1)版本升级

a、确认升级方案

  • 运维部门评估测试部门通过新版本组件升级的方案合理后,开始展开对此次升级的风险评估,并制定完整的回滚方案;
  • 标准升级前运维人员先对测试网集群进行升级,主要反馈如下:升级完成后观察运行是否正常、新功能或优化效果是否达到预期;
  • 最终确认无误后,把升级方案分配各个集群到运维人员使用自动化的方式进行部署。

b、标准升级流程

升级线上集群时,各个集群运维人员通过自动化升级替换线上环境的软件包,等待进程的工作线程结束后,自动重启组件,实现集群组件的热更新。

c、校准升级结果

鉴于实际网络与测试网存在一定的差异,升级完成后,运维人员观察集群所有组件运行是否符合正常,判断方向:复制证明及时空证明阶段正常、新版本功能是否达到预期表现,否则进一步校准升级结果。

 

2)软、硬件维护

a、判断问题

日常集群产量方面,运维部门可以通过监控软件上的信息进行排查:各个集群的各个阶段的任务数、预期任务数、积压任务数、错误扇区的统计等精确定位到每一组机柜的运行情况。

b、评估故障影响以及流程

了解故障现象,分析故障原因和故障方向;快速恢复业务,减少损失;判断故障造成的大致损失,并上报告知客户;事后分析故障原因,是否为各个集群存在的通病,如是则及时产出优化方案,并防止在其他集群再次发生。

c、按照标准故障手册恢复

日常运维中遇到的故障,会自动化记录到标准故障手册。运维人员遇到类似问题,严格按照文档进行操作解决问题。操作高风险的命令或者操作时,由多名运维人员共同审查执行,避免人为失误。在故障恢复的过程中,遇到非常规的报错或者问题,及时上报处理。

 “焜耀定制化方案源于丰富的实践经验”

焜耀科技已积累成熟的多样化集群定制化方案,满足不同需求的客户群体。近日已推出6天快速交付1到2PiB集群的方案,备受市场欢迎。

假如您有想进一步了解收费服务细则,可期待下篇关于焜耀科技之收费标准化。

/End.

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

声明:本文系焜耀科技原创稿件,版权属焜耀科技所有,未经授权不得转载,违者将依法追究责任。

焜耀科技——“7*24小时、可靠、规范”的运维服务标准(下)

原创文章,作者:焜耀科技,如若转载,请注明出处:https://ipfser.org/2020/12/24/yunweibiaozhunxia/

提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

发表评论

登录后才能评论

联系我们

在线咨询:点击这里给我发消息

邮件:ipfsforce@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code