[Mise à Niveau]: Debian 10->11 Le sujet est résolu

Demande d'aide : c'est ici.
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

genpashiro a écrit : 22 janv. 2022, 16:38

Code : Tout sélectionner

md1 : active raid1 sdc5[3](F) sdd5[2]
      976379712 blocks super 1.2 [2/1] [_U]
J'ai enfin un vrai RAID à présent.
Pas encore. md1 est toujours dégradé car sdc5 est en échec. Il faudrait regarder dans les logs du noyau pour voir pourquoi.
genpashiro a écrit : 22 janv. 2022, 16:38 Le grub semble donc être remis d'équerre a priori ?
Il semble bien. C'est peut-être la reconstruction de md0 qui a supprimé les messages d'erreur de grub-install.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Je voulais dire dans sa structure, sa conception, on est bien (enfin) sur un volume RAID.

A priori, et d'après mon autre sujet ici (viewtopic.php?t=2324) le /dev/sdc en a un coup dans l'aile comme on dit :

Code : Tout sélectionner

cat /var/log/kern.log | grep sdc1
Jan 20 21:12:10 matrix kernel: [   19.627379]  sdc: sdc1 sdc2 < sdc5 >
Jan 20 21:12:10 matrix kernel: [   19.981971] md: kicking non-fresh sdc1 from array!
Jan 22 16:40:14 matrix kernel: [156923.909250] Buffer I/O error on dev sdc1, logical block 62192, async page read
Jan 22 16:40:14 matrix kernel: [156923.910085] Buffer I/O error on dev sdc1, logical block 62192, async page read
Jan 22 16:40:14 matrix kernel: [156924.032743] md/raid1:md0: sdc1: rescheduling sector 497152
Jan 22 16:40:14 matrix kernel: [156924.062329] md/raid1:md0: Disk failure on sdc1, disabling device.

Code : Tout sélectionner

cat /var/log/kern.log | grep sdc5
Jan 20 21:12:10 matrix kernel: [   19.627379]  sdc: sdc1 sdc2 < sdc5 >
Jan 20 21:12:10 matrix kernel: [   19.987026] md: kicking non-fresh sdc5 from array!
Jan 22 15:56:24 matrix kernel: [154293.665663] md/raid1:md1: Disk failure on sdc5, disabling device.
Jan 22 15:56:24 matrix kernel: [154293.665995] md/raid1:md1: sdc5: rescheduling sector 8035488
Jan 22 15:56:24 matrix kernel: [154293.666211] md/raid1:md1: sdc5: rescheduling sector 8035504
Jan 22 15:56:24 matrix kernel: [154293.666450] md/raid1:md1: sdc5: rescheduling sector 8035528
Jan 22 16:40:14 matrix kernel: [156923.911362] Buffer I/O error on dev sdc5, logical block 244127728, async page read
Jan 22 16:40:14 matrix kernel: [156923.912463] Buffer I/O error on dev sdc5, logical block 244127728, async page read
le /dev/sdc1 est aussi en échec maintenant

Code : Tout sélectionner

cat /proc/mdstat                 
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 sdc1[2](F) sdd1[1]
      248640 blocks super 1.2 [2/1] [_U]
      
md1 : active raid1 sdc5[3](F) sdd5[2]
      976379712 blocks super 1.2 [2/1] [_U]
Du coup, il est conseillé fortement de le remplacer ?
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

D'ailleurs, pourquoi

Code : Tout sélectionner

blkid 
/dev/sdd1: UUID="9ff36b7e-0140-2f40-ff95-c22e29c06d0c" UUID_SUB="4f48d804-f127-1cfa-27ae-942c852c632a" LABEL="matrix:0" TYPE="linux_raid_member" PARTUUID="0002704b-01"
/dev/sdd5: UUID="da0001eb-7144-c010-08b0-918a31d63cea" UUID_SUB="7a7dc06f-1394-17f1-3bc1-8123a9611d3a" LABEL="matrix:1" TYPE="linux_raid_member" PARTUUID="0002704b-05"
/dev/md1: UUID="wULXny-v9Dl-GFlF-OPRp-Gl3k-SA9a-2BVPLL" TYPE="LVM2_member"
/dev/md0: UUID="ae665ec8-e25d-4ae0-8ce1-57d1069bcede" BLOCK_SIZE="1024" TYPE="ext3"
/dev/mapper/lvmgrp-lvmgrp_root: UUID="c1921e2f-75fd-4131-a9b3-533da082121d" BLOCK_SIZE="4096" TYPE="ext4"
/dev/mapper/lvmgrp-lvmgrp_home: UUID="037c0d4d-74de-486d-b416-42bd56b86c7f" BLOCK_SIZE="4096" TYPE="ext4"
/dev/mapper/lvmgrp-lvmgrp_swap: UUID="fdbd8abc-e179-41ef-aee1-ddc31fc1ac48" TYPE="swap"
/dev/mapper/lvmgrp-lvmgrp_var: UUID="2b073fba-dc91-4508-9dbe-975ad2ff6535" BLOCK_SIZE="4096" TYPE="ext4"
/dev/sda1: UUID="HzABOp-flSV-VOv2-srUP-Se6S-ORH7-a2CAdk" TYPE="LVM2_member" PARTUUID="88d5b421-01"
/dev/sde1: UUID="YY2RIK-W4LX-lSaR-t05O-eX1n-IZLs-0S2AWf" TYPE="LVM2_member" PARTUUID="7bca6561-01"
/dev/mapper/vgddext-lvddext: UUID="73387a57-b8a7-4d9f-873b-f94895a27514" BLOCK_SIZE="4096" TYPE="ext4"
ne liste pas /dev/sdc ?

De même avec cette commande, je vois moins d"information sur le sdc

Code : Tout sélectionner

lshw -C disk                      
  *-disk                    
       description: SCSI Disk
       produit: EXT
       fabriquant: sobetter
       identifiant matériel: 0.0.0
       information bus: scsi@6:0.0.0
       nom logique: /dev/sda
       version: 0204
       numéro de série: S31PJ9DF109656
       taille: 698GiB (750GB)
       fonctionnalités: partitioned partitioned:dos
       configuration: ansiversion=6 logicalsectorsize=512 sectorsize=4096 signature=88d5b421
  *-disk
       description: SCSI Disk
       produit: My Passport 0748
       fabriquant: WD
       identifiant matériel: 0.0.0
       information bus: scsi@8:0.0.0
       nom logique: /dev/sde
       version: 1015
       numéro de série: WXC1A72P2869
       taille: 931GiB (1TB)
       fonctionnalités: partitioned partitioned:dos
       configuration: ansiversion=6 logicalsectorsize=512 sectorsize=512 signature=7bca6561
  *-disk:0
       description: SCSI Disk
       identifiant matériel: 0
       information bus: scsi@2:0.0.0
       nom logique: /dev/sdc
       taille: 931GiB (1TB)
       configuration: logicalsectorsize=512 sectorsize=4096
  *-disk:1
       description: ATA Disk
       produit: ST1000DM003-1CH1
       identifiant matériel: 1
       information bus: scsi@3:0.0.0
       nom logique: /dev/sdd
       version: CC47
       numéro de série: Z1D7K8Y4
       taille: 931GiB (1TB)
       fonctionnalités: partitioned partitioned:dos
       configuration: ansiversion=5 logicalsectorsize=512 sectorsize=4096 signature=0002704b
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

genpashiro a écrit : 22 janv. 2022, 20:58 Je voulais dire dans sa structure, sa conception, on est bien (enfin) sur un volume RAID.
C'était déjà le cas auparavant. Au lieu de contenir un disque actif et un disque manquant, il contient maintenant un disque actif et un disque en échec (et donc toujours un disque manquant).
genpashiro a écrit : 22 janv. 2022, 20:58 /dev/sdc en a un coup dans l'aile
Ou bien il y a un problème de liaison (port, connecteur, câble). Il faudrait regarder les premiers messages d'erreur ATA dans les logs du noyau après le démarrage.
genpashiro a écrit : 22 janv. 2022, 21:02 D'ailleurs, pourquoi blkid ne liste pas /dev/sdc ?
De même avec cette commande (lshw), je vois moins d"information sur le sdc
Probablement parce que le disque ne répond plus. Le problème de communication peut soit être la cause, soit la conséquence du disque qui a planté suite à d'autres erreurs. J'ai déjà vu des disques en mauvais état qui finissaient par ne plus répondre du tout après une série d'erreurs de lecture/écriture, jusqu'à la mise sous tension suivante.
genpashiro a écrit : 22 janv. 2022, 21:02 /dev/sdc1 est aussi en échec maintenant
Logique si le disque ne répond plus du tout.
genpashiro a écrit : 22 janv. 2022, 20:58 Du coup, il est conseillé fortement de le remplacer ?
Je n'en sais rien. Sauf erreur je ne me rappelle pas avoir vu le rapport SMART complet (smartctl -a) de ce disque.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Je vais éteindre ce pc et vérifier les branchements car smartclt -a retourne ceci :

Code : Tout sélectionner

sudo smartctl -a /dev/sdc
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-10-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

Short INQUIRY response, skip product id
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Je viens de redémarrer la machine, déjà GRUB fonctionnel c'est déjà un soulagement.

Ensuite, à présent le disque /dev/sdc est bien reconnu et plus d'erreurs remontés....je ne comprends pas trop là le pourquoi :unknw:

Code : Tout sélectionner

cat /proc/mdstat 
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 sdc1[1]
      248640 blocks super 1.2 [2/1] [_U]
      
md1 : active raid1 sdc5[2]
      976379712 blocks super 1.2 [2/1] [_U]

Code : Tout sélectionner

blkid 
/dev/sda1: UUID="HzABOp-flSV-VOv2-srUP-Se6S-ORH7-a2CAdk" TYPE="LVM2_member" PARTUUID="88d5b421-01"
/dev/sdb1: UUID="9ff36b7e-0140-2f40-ff95-c22e29c06d0c" UUID_SUB="c87d8a38-75b8-8fba-54be-b74860412da8" LABEL="matrix:0" TYPE="linux_raid_member" PARTUUID="000c3447-01"
/dev/sdb5: UUID="da0001eb-7144-c010-08b0-918a31d63cea" UUID_SUB="3dabb169-8eca-7481-9897-8f4e3888b862" LABEL="matrix:1" TYPE="linux_raid_member" PARTUUID="000c3447-05"
/dev/sdc1: UUID="9ff36b7e-0140-2f40-ff95-c22e29c06d0c" UUID_SUB="4f48d804-f127-1cfa-27ae-942c852c632a" LABEL="matrix:0" TYPE="linux_raid_member" PARTUUID="0002704b-01"
/dev/sdc5: UUID="da0001eb-7144-c010-08b0-918a31d63cea" UUID_SUB="7a7dc06f-1394-17f1-3bc1-8123a9611d3a" LABEL="matrix:1" TYPE="linux_raid_member" PARTUUID="0002704b-05"
/dev/md1: UUID="wULXny-v9Dl-GFlF-OPRp-Gl3k-SA9a-2BVPLL" TYPE="LVM2_member"
/dev/md0: UUID="ae665ec8-e25d-4ae0-8ce1-57d1069bcede" BLOCK_SIZE="1024" TYPE="ext3"
/dev/mapper/lvmgrp-lvmgrp_root: UUID="c1921e2f-75fd-4131-a9b3-533da082121d" BLOCK_SIZE="4096" TYPE="ext4"
/dev/mapper/lvmgrp-lvmgrp_home: UUID="037c0d4d-74de-486d-b416-42bd56b86c7f" BLOCK_SIZE="4096" TYPE="ext4"
/dev/mapper/lvmgrp-lvmgrp_swap: UUID="fdbd8abc-e179-41ef-aee1-ddc31fc1ac48" TYPE="swap"
/dev/mapper/lvmgrp-lvmgrp_var: UUID="2b073fba-dc91-4508-9dbe-975ad2ff6535" BLOCK_SIZE="4096" TYPE="ext4"
/dev/sdd1: UUID="YY2RIK-W4LX-lSaR-t05O-eX1n-IZLs-0S2AWf" TYPE="LVM2_member" PARTUUID="7bca6561-01"
/dev/mapper/vgddext-lvddext: UUID="73387a57-b8a7-4d9f-873b-f94895a27514" BLOCK_SIZE="4096" TYPE="ext4"
lshw -C disk

Code : Tout sélectionner

*-disk:0
       description: ATA Disk
       produit: ST1000DM003-1CH1
       identifiant matériel: 0
       information bus: scsi@1:0.0.0
       nom logique: /dev/sdb
       version: CC56
       numéro de série: Z1D51QJ8
       taille: 931GiB (1TB)
       fonctionnalités: partitioned partitioned:dos
       configuration: ansiversion=5 logicalsectorsize=512 sectorsize=4096 signature=000c3447
  *-disk:1
       description: ATA Disk
       produit: ST1000DM003-1CH1
       identifiant matériel: 1
       information bus: scsi@3:0.0.0
       nom logique: /dev/sdc
       version: CC47
       numéro de série: Z1D7K8Y4
       taille: 931GiB (1TB)
       fonctionnalités: partitioned partitioned:dos
       configuration: ansiversion=5 logicalsectorsize=512 sectorsize=4096 signature=0002704b

Code : Tout sélectionner

smartctl -a /dev/sdc
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-11-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST1000DM003-1CH162
Serial Number:    Z1D7K8Y4
LU WWN Device Id: 5 000c50 0652def0a
Firmware Version: CC47
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jan 23 21:04:14 2022 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  584) seconds.
Offline data collection
capabilities: 			 (0x73) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 106) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x3085)	SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   099   006    Pre-fail  Always       -       56384680
  3 Spin_Up_Time            0x0003   098   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       512
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   089   060   030    Pre-fail  Always       -       5138109335
  9 Power_On_Hours          0x0032   031   031   000    Old_age   Always       -       60970
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       513
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0 0 0
189 High_Fly_Writes         0x003a   072   072   000    Old_age   Always       -       28
190 Airflow_Temperature_Cel 0x0022   063   051   045    Old_age   Always       -       37 (Min/Max 30/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       400
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       382185
194 Temperature_Celsius     0x0022   037   049   000    Old_age   Always       -       37 (0 15 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       55454h+57m+36.688s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       227983715320
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       308809721423

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     60873         -
# 2  Short offline       Interrupted (host reset)      10%     60739         -
# 3  Short offline       Interrupted (host reset)      10%     60724         -
# 4  Short offline       Completed without error       00%      4030         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Code : Tout sélectionner

cat /var/log/kern.log | grep ata
Jan 23 20:55:55 matrix kernel: [    0.000000] BIOS-e820: [mem 0x0000000095b32000-0x0000000095b3cfff] ACPI data
Jan 23 20:55:55 matrix kernel: [    0.161528] Memory: 2570344K/3746632K available (12295K kernel code, 2545K rwdata, 7568K rodata, 2412K init, 3680K bss, 210468K reserved, 0K cma-reserved)
Jan 23 20:55:55 matrix kernel: [    3.216030] Write protecting the kernel read-only data: 22528k
Jan 23 20:55:55 matrix kernel: [    3.218149] Freeing unused kernel image (text/rodata gap) memory: 2040K
Jan 23 20:55:55 matrix kernel: [    3.218805] Freeing unused kernel image (rodata/data gap) memory: 624K
Jan 23 20:55:55 matrix kernel: [    3.935828] libata version 3.00 loaded.
Jan 23 20:55:55 matrix kernel: [    4.046762] scsi host0: pata_atiixp
Jan 23 20:55:55 matrix kernel: [    4.060013] scsi host2: pata_atiixp
Jan 23 20:55:55 matrix kernel: [    4.060161] ata1: PATA max UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xf100 irq 14
Jan 23 20:55:55 matrix kernel: [    4.060165] ata2: PATA max UDMA/100 cmd 0x170 ctl 0x376 bmdma 0xf108 irq 15
Jan 23 20:55:55 matrix kernel: [    4.073345] ata3: SATA max UDMA/133 abar m2048@0xfeb4f000 port 0xfeb4f100 irq 27
Jan 23 20:55:55 matrix kernel: [    4.073351] ata4: SATA max UDMA/133 abar m2048@0xfeb4f000 port 0xfeb4f180 irq 27
Jan 23 20:55:55 matrix kernel: [    4.073354] ata5: DUMMY
Jan 23 20:55:55 matrix kernel: [    4.073358] ata6: SATA max UDMA/133 abar m2048@0xfeb4f000 port 0xfeb4f280 irq 27
Jan 23 20:55:55 matrix kernel: [    4.393483] ata6: SATA link down (SStatus 0 SControl 300)
Jan 23 20:55:55 matrix kernel: [    4.551854] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 23 20:55:55 matrix kernel: [    4.551899] ata4: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Jan 23 20:55:55 matrix kernel: [    4.552603] ata3.00: ATA-8: ST1000DM003-1CH162, CC56, max UDMA/100
Jan 23 20:55:55 matrix kernel: [    4.552611] ata3.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 32), AA
Jan 23 20:55:55 matrix kernel: [    4.552734] ata4.00: ATA-9: ST1000DM003-1CH162, CC47, max UDMA/133
Jan 23 20:55:55 matrix kernel: [    4.552757] ata4.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 32), AA
Jan 23 20:55:55 matrix kernel: [    4.553378] ata3.00: configured for UDMA/100
Jan 23 20:55:55 matrix kernel: [    4.574714] ata4.00: configured for UDMA/133
Jan 23 20:55:55 matrix kernel: [    7.884610] EXT4-fs (dm-0): mounted filesystem with ordered data mode. Opts: (null)
Jan 23 20:55:55 matrix kernel: [   13.440754] acpi_cpufreq: overriding BIOS provided _PSD data
Jan 23 20:55:55 matrix kernel: [   15.580919] EXT4-fs (dm-4): mounted filesystem with ordered data mode. Opts: (null)
Jan 23 20:55:55 matrix kernel: [   16.639626] EXT4-fs (md0): mounted filesystem with ordered data mode. Opts: (null)
Jan 23 20:55:55 matrix kernel: [   16.765173] EXT4-fs (dm-1): mounted filesystem with ordered data mode. Opts: (null)
Jan 23 20:55:55 matrix kernel: [   16.961632] EXT4-fs (dm-3): mounted filesystem with ordered data mode. Opts: (null)
Jan 23 20:56:35 matrix kernel: [   64.187263] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jan 23 20:56:35 matrix kernel: [   64.189433] ata3.00: configured for UDMA/100
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

En comparant les identifiants de table de partition, PARTUUID, n° de série... on voit que sdc est devenu sdb et sdd est devenu sdc. C'est assez courant, les noms sd* ne sont pas stables. Et c'est bien sdc (ex-sdd) qui est utilisé par le RAID. C'est donc sdb qu'il faut examiner.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

ah! j'aurais dû le garder en tête, ça n'est pas persistent ces périphériques dans /dev/

pour le smartctl -a

Code : Tout sélectionner

smartctl -a /dev/sdb
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-11-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST1000DM003-1CH162
Serial Number:    Z1D51QJ8
LU WWN Device Id: 5 000c50 063d09238
Firmware Version: CC56
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Jan 23 21:45:22 2022 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (  41)	The self-test routine was interrupted
					by the host with a hard or soft reset.
Total time to complete Offline 
data collection: 		(  584) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 120) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x3085)	SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   098   085   006    Pre-fail  Always       -       72989721
  3 Spin_Up_Time            0x0003   098   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       524
  5 Reallocated_Sector_Ct   0x0033   099   099   010    Pre-fail  Always       -       576
  7 Seek_Error_Rate         0x000f   079   057   030    Pre-fail  Always       -       35053427052
  9 Power_On_Hours          0x0032   031   031   000    Old_age   Always       -       61099
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       524
183 Runtime_Bad_Block       0x0032   098   098   000    Old_age   Always       -       2
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       717
188 Command_Timeout         0x0032   097   001   000    Old_age   Always       -       41 1661 1664
189 High_Fly_Writes         0x003a   094   094   000    Old_age   Always       -       6
190 Airflow_Temperature_Cel 0x0022   066   053   045    Old_age   Always       -       34 (Min/Max 29/36)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       403
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       524
194 Temperature_Celsius     0x0022   034   047   000    Old_age   Always       -       34 (0 15 0 0 0)
197 Current_Pending_Sector  0x0012   001   001   000    Old_age   Always       -       20136
198 Offline_Uncorrectable   0x0010   001   001   000    Old_age   Offline      -       20136
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       61103h+09m+03.716s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       78970847787
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       430116455313

SMART Error Log Version: 1
ATA Error Count: 716 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 716 occurred at disk power-on lifetime: 56647 hours (2360 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      00:02:48.649  READ FPDMA QUEUED
  60 00 08 c8 96 16 45 00      00:02:48.635  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:48.635  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00      00:02:48.634  WRITE FPDMA QUEUED
  ef 10 02 00 00 00 a0 00      00:02:48.634  SET FEATURES [Enable SATA feature]

Error 715 occurred at disk power-on lifetime: 56647 hours (2360 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      00:02:45.134  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:45.111  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:45.110  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00      00:02:45.110  WRITE FPDMA QUEUED
  ef 10 02 00 00 00 a0 00      00:02:45.108  SET FEATURES [Enable SATA feature]

Error 714 occurred at disk power-on lifetime: 56647 hours (2360 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      00:02:41.993  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:40.322  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:40.322  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:40.322  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:40.322  READ FPDMA QUEUED

Error 713 occurred at disk power-on lifetime: 56647 hours (2360 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      00:02:37.225  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:37.225  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:37.225  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:37.225  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:37.225  READ FPDMA QUEUED

Error 712 occurred at disk power-on lifetime: 56647 hours (2360 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 68 bc 4c 41 00      00:02:33.227  READ FPDMA QUEUED
  60 00 20 00 bd 23 43 00      00:02:33.227  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:33.227  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:33.227  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:02:33.227  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      00%     61099         -
# 2  Short offline       Completed: read failure       30%     61000         84654848
# 3  Short offline       Completed: read failure       30%     60852         84654848
# 4  Short offline       Completed without error       00%      4124         -
# 5  Vendor (0x50)       Completed without error       00%         1         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Du coup le RAID ne fonctionne que sur /dev/sdc

Code : Tout sélectionner

cat /var/log/kern.log | grep sdb
Jan 23 20:55:55 matrix kernel: [    4.554592] sd 1:0:0:0: [sdb] 1953525168 512-byte logical blocks: (1.00 TB/932 GiB)
Jan 23 20:55:55 matrix kernel: [    4.554599] sd 1:0:0:0: [sdb] 4096-byte physical blocks
Jan 23 20:55:55 matrix kernel: [    4.554633] sd 1:0:0:0: [sdb] Write Protect is off
Jan 23 20:55:55 matrix kernel: [    4.554639] sd 1:0:0:0: [sdb] Mode Sense: 00 3a 00 00
Jan 23 20:55:55 matrix kernel: [    4.554693] sd 1:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jan 23 20:55:55 matrix kernel: [    4.584898]  sdb: sdb1 sdb2 < sdb5 >
Jan 23 20:55:55 matrix kernel: [    4.604326] sd 1:0:0:0: [sdb] Attached SCSI disk
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

Les données SMART concernant sdb sont sans équivoque : nombreux (20136) secteurs défectueux. A remplacer sans état d'âme.
Ensuite si tu es joueur tu peux essayer de réallouer les secteurs défectueux avec badblocks en écriture, mais même si cela réussit je ne lui ferais plus confiance.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

de toute façon, je ne perdrais rien avec raid en principe. donc autant tenter badblocks ?

d'ailleurs, et je ne l'ai jamais tenté, si je retire /dev/sdb, le système démarrera normalement ? c'est bien pour cela que j'avais mis en raid quand j'ai eu ce pc :)

et pour le remplacement, je me contente uniquement de prendre un DD de 1To, on ne doit pas considérer d'autres critères ?

en tout cas, merci beaucoup pour toute ton aide, c'était très précieux !!
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

genpashiro a écrit : 23 janv. 2022, 22:43 de toute façon, je ne perdrais rien avec raid en principe
Tant que l'autre disque tient. Le principe du RAID, c'est d'avoir de la redondance. Là, tu n'en as plus donc tu es à la merci de la moindre défaillance de l'autre disque.
genpashiro a écrit : 23 janv. 2022, 22:43 si je retire /dev/sdb, le système démarrera normalement ?
Normalement oui puisque GRUB est installé sur l'autre et le RAID peut fonctionner avec un seul disque. Mais sans redondance.
genpashiro a écrit : 23 janv. 2022, 22:43 et pour le remplacement, je me contente uniquement de prendre un DD de 1To, on ne doit pas considérer d'autres critères ?
Au moins la même capacité. La capacité exacte peut varier entre des modèles différents de disques de "1 To", or les partitions RAID à créer doivent être de taille supérieure ou égale aux originales. Néanmoins pour prendre en compte cette dispersion le RAID logiciel de Linux introduit un offset variable avant le début des données qui sert de marge d'ajustement et qu'on peut voir avec

Code : Tout sélectionner

mdadm --examine /dev/sdc5
Pour le modèle, il existe des séries dédiées à l'utilisation en RAID mais je ne connais pas le sujet, je n'ai utilisé que des disques classiques en RAID pour m'amuser.
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4959
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

Salut,

Il y a des instructions sur notre WIki pour remplacer un disque défectueux.
Je les ai déjà suivies, sans problème.

https://wiki.debian-fr.xyz/Raid_logicie ... aintenance
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

merci @PascalHambourg pour ton aide, je laisse ce fil ouvert et y reviendrais au gré de son évolution (badblock, remplacements de disques)

@lol merci pour ce rappel de tutos sur le wiki ! en fait, certains commencent à dater et je me dis qu'ils ne sont plus forcément pertinent car non actualisés avec les dernières versions de Debian
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

Commentaire sur la page du wiki:
Voilà, notre grappe RAID1 est maintenant prête à être utilisée, mais avant sauvegardons notre configuration dans le fichier /etc/mdadm/mdadm.conf :

Code : Tout sélectionner

# mdadm --detail --scan --verbose > /etc/mdadm/mdadm.conf
Cette commande est à renouveler après toutes modifications sur les arrays (ajout de disque, remplacement de disque HS, etc…)
Je déconseille l'option --verbose pour remplir mdadm.conf pour trois raisons :
- Elle n'est pas utile.
- C'est sa présence qui nécessite de mettre à jour mdadm.conf après toute modification d'un ensemble existant.
- Elle empêche de prendre en compte un disque qui n'est pas dans la liste devices= spécifiée. Or on sait que les noms de périphériques /dev/sd* ne sont pas stables et peuvent changer d'un démarrage à l'autre. devices= peut donc provoquer un assemblage partiel en mode dégradé, avec un ou plusieurs disques qui ne seront plus synchronisés et ne pourront plus être membres, jusqu'au jour où il n'y aura plus assez de membres à jour pour assembler l'ensemble.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Sinon, @PascalHambourg tu valides le reste du tuto ?? :) :) :)
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

Je n'ai pas tout lu. Concernant la récupération/reconstruction, ça a l'air bon.
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4959
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

Salut Pascal,
PascalHambourg a écrit : 24 janv. 2022, 11:42 Je déconseille l'option --verbose pour remplir mdadm.conf pour trois raisons :

Merci pour ta remarque, je corrige le Wiki.
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

petit update: j'ai retiré le DD "cassée, le système démarre normalement, je viens de trouver un DD équivalent, même marque/référence pour <50EUR

C'est vraiment bien RAID! à moins de perdre les 2 DD d'un coup sinon on a ainsi un système pérenne, de quoi être plutôt serein ;)
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4959
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : Hors-ligne

genpashiro a écrit : 27 janv. 2022, 21:59C'est vraiment bien RAID! à moins de perdre les 2 DD d'un coup sinon on a ainsi un système pérenne, de quoi être plutôt serein ;)

:good:
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
Avatar de l’utilisateur
vv222
Membre actif
Membre actif
Messages : 852
Inscription : 18 avr. 2016, 20:14
Contact :
Status : Hors-ligne

Autant je comprends l’intérêt du RAID dans le cadre de la haute disponibilité, autant comme système de sauvegarde je trouve qu’il serait difficile de faire pire.
Répondre