evo视讯官网

      服务器 2025-11-04

      KunTai R722产生Nandflash写入量超过门限告警

      一、现网描述

      1.1 环境描述

      设备型号:KunTai R722

      硬件配置:9460-8i RAID卡


      二、故障描述

      2.1故障现象

      客户现场服务器产生告警

      告警描述:The data written to the NAND flash in last 15 days exceeds 12G.


      三、问题分析

      3.1排查思路

      1.收集日志,根据告警提示查看查看/dump_info/AppDump/BMC/nandflash_info.txt文件

      image.png

      2. 告警提示Nandflash写入量超过12G,而实际只有2.279G,因此该告警为误告警

      3.2 原因分析


      1.iBMC版本为以下特定版本

      鲲鹏服务器:V622、V624、V625版本

      “Total data written in 15 days”这一项实际上小于12G,则确认是误告警。

      “Total data written in 15 days”这一项实际上超过12G,则确认是真实告警,非误告警。

      特定版本的iBMC计算Nandflash写入量时,15天的写入量会不断累增,而不是按照15天计算写入量。例如每天写入量为0.2G,经过12G / 0.2G = 60天后(中间iBMC没有进行过复位),累增的写入量将达到门限12G,导致产生误告警。

       


      四、问题解决

      4.1解决办法

      1.如果确认是误告警,则升级到以下版本解决问题。

      鲲鹏服务器:升级到V626及以上版本

      2.如果确认是真实告警,则需要分析Nandflash写入量过多的原因,再分析问题解决方法。

      临时规避措施:

      如果确认是误告警,可以顺利获得复位iBMC清零写入量的方式消除告警。

      注意:复位iBMC消除告警后,再过一段时间,仍会再次产生误告警,需要定期复位iBMC避免再次产生误告警。