镜像站磁盘故障-问题跟踪

由于磁盘出现故障,镜像站将降级运行

由于镜像站存储阵列中的一块磁盘失效,更换磁盘需时。在硬盘得到更换前,为保证镜像站的数据安全,镜像站将降级运行:

  • Ubuntu,Debian,CentOS镜像的同步频率降为1天一次
  • Anaconda,pypi镜像的同步频率降为1.5天一次
  • 先前同步频率为1.5天一次的镜像,同步频率降为3天一次
  • 先前同步频率为2天一次的镜像,同步频率降为4天一次

给大家带来的不便,敬请见谅。

https://mirrors.sustech.edu.cn/news/2020/11/mirrors-downgrade-notice.html

11月20日出现的磁盘故障与数据恢复报告

在11月20日15:00-23:30,镜像站的经历了一次磁盘故障。

14:30左右,负责维护的同学注意到镜像站的 /data/backup 分区出现了异常的读写缓慢,找不到数据等问题。

在尝试重启后,机器回报了 Failed to start LVM event activation on device 8:16 的错误。报错如下图所示。

LVM恢复

尝试根据 Couldn't find device with uuid - Recover LVM Metadata Linux 进行了LVM修复。然而,修复之后,尽管能够看到LVM分区中的Volume,我们仍然无法挂载 /dev/vg_data/vm-100-disk-mirrors /data/backup/ 分区。挂载时出现的错误如下图:

ext4恢复

随后尝试使用fsck修复分区:

https://linux.die.net/man/8/fsck.ext4

经过两次修复后,磁盘可以挂载,但磁盘上的所有仅存的数据都出现在了 lost+and+found 中。

了解到没有办法系统性的从 lost+and+found 中恢复数据,我们仅通过 find | less 找出了一些配置文件(如SUSTech Send的配置文件),并将恢复出的数据打包存储于其他服务器上。

重建ext4分区

恢复服务数据

数据损失

丢失了SUSTech Send的全部临时文件(不包含配置)与CRA-ShareLaTex 11月18日至11月20日的数据。

TODO

定期备份数据

更换文件系统

TODO:

  • 直通存储后,需清理宿主机中相应的 LVM 配置

潜在影响:

不清理可能会影响宿主机重启

故障磁盘已完成更换,镜像站将在磁盘重建完成后,恢复既有的同步频率。

----------------------------------------------------------------------------
DG Arr Row EID:Slot DID Type  State BT      Size PDC  PI SED DS3  FSpace TR 
----------------------------------------------------------------------------
 0 -   -   -        -   RAID6 Pdgd  N  72.768 TB dsbl N  N   dflt N      N  
 0 0   -   -        -   RAID6 Dgrd  N  72.768 TB dsbl N  N   dflt N      N  
 0 0   0   64:42    26  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   1   64:43    27  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   2   64:44    25  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   3   64:45    24  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   4   64:46    22  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   5   64:47    23  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   6   64:48    20  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   7   64:49    21  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   8   64:50    19  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   9   64:51    38  DRIVE Rbld  Y   7.276 TB dsbl N  N   dflt -      N  
 0 0   10  64:52    17  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 0 0   11  64:53    16  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 -   -   -        -   RAID6 Optl  N  72.768 TB dsbl N  N   dflt N      N  
 1 0   -   -        -   RAID6 Optl  N  72.768 TB dsbl N  N   dflt N      N  
 1 0   0   64:54    14  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   1   64:55    12  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   2   64:56    15  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   3   64:57    13  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   4   64:58    11  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   5   64:59    10  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   6   64:60    9   DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   7   64:61    8   DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   8   64:62    35  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   9   64:63    33  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   10  64:64    34  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
 1 0   11  64:65    32  DRIVE Onln  N   7.276 TB dsbl N  N   dflt -      N  
----------------------------------------------------------------------------