Défaillance disque dur [softreset]

Demande d'aide : c'est ici.
Répondre
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Le terminal de mon "pc-serveur" affiche ce message depuis quelques jours :

Code : Tout sélectionner

janv. 07 22:12:13 matrix kernel: ata3: softreset failed (1st FIS failed)
janv. 07 22:12:23 matrix kernel: ata3: softreset failed (1st FIS failed)
janv. 07 22:12:33 matrix kernel: ata3: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
janv. 07 22:12:33 matrix kernel: ata3.00: configured for UDMA/100
est-ce symptomatique d"une panne prochaine d"un des 2 disques durs qui équipent ce pc ?

Code : Tout sélectionner

cat /etc/debian_version 
10.11
Ces 2 DD sont configurés en RAID1 et LVM
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Code : Tout sélectionner

sudo smartctl -H /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-17-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Code : Tout sélectionner

sudo smartctl -H /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-17-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4967
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : En ligne

Salut,

Oui, j'allais te proposer d'installer Smartmontools pour être tranquille.

Par contre il faut qu’il tourne en daemon en envoi des mails en cas de défaillance.
Faire un simple short test est insuffisant... :spiteful:

J'ai sauvé un serveur à noël grâce à Smartmontools (Mail reçu le 24... intervention à distance le 26 pour sauvegarder les fichiers). :smile:
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4967
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : En ligne

Nouvelle alerte par mail de smartmontools hier soir sur un autre disque dur:
The following warning/error was logged by the smartd daemon:

Device: /dev/sdc [SAT], ATA error count increased from 160 to 212

Device info:
TOSHIBA DT01ACA200, S/N:834UZKGKS, WWN:5-000039-ff3d9e783, FW:MX4OABB0, 2.00 TB

Code : Tout sélectionner

# dmesg
...
[127823.505960] ata4.00: status: { DRDY ERR }
[127823.505968] ata4.00: error: { UNC }
[127823.513377] ata4.00: configured for UDMA/133
[127823.513418] sd 3:0:0:0: [sdc] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=3s
[127823.513427] sd 3:0:0:0: [sdc] tag#0 Sense Key : Medium Error [current] 
[127823.513434] sd 3:0:0:0: [sdc] tag#0 Add. Sense: Unrecovered read error - auto reallocate failed
[127823.513442] sd 3:0:0:0: [sdc] tag#0 CDB: Read(10) 28 00 bd b9 d6 a8 00 00 08 00
[127823.513450] blk_update_request: I/O error, dev sdc, sector 3183072936 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[127823.513533] ata4: EH complete
[127827.413890] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[127827.413915] ata4.00: BMDMA stat 0x25
[127827.413929] ata4.00: failed command: READ DMA EXT
[127827.413953] ata4.00: cmd 25/00:08:a8:d6:b9/00:00:bd:00:00/e0 tag 0 dma 4096 in
                         res 51/40:08:a8:d6:b9/40:00:bd:00:00/0d Emask 0x9 (media error)
Pourtant d'après le "device SMART health status" tout va bien...

Code : Tout sélectionner

# smartctl -H /dev/sdc
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-10-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
MicP
Modérateur
Modérateur
Messages : 896
Inscription : 16 avr. 2016, 22:14
Status : Hors-ligne

Bonjour lol

Si c'est sur la même machine que les deux disques se sont mis à montrer des signes de fatigue,
il faudrait peut-être voir du côté de l'alimentation ou/et des cordons s'ils n'ont pas été changés.
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4967
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : En ligne

MicP a écrit : 09 janv. 2022, 10:34 Bonjour lol

Si c'est sur la même machine que les deux disques se sont mis à montrer des signes de fatigue,
il faudrait peut-être voir du côté de l'alimentation ou/et des cordons s'ils n'ont pas été changés.

Merci MicP, :006:
La machine est assez ancienne, tourne 24/24 toute l'année et je pense que les disques avaient le même âge, je pense donc plutôt à une fatigue normale.... ;-)
J'attends 2 disque de 16To pour remplacer tout ça...
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
MicP
Modérateur
Modérateur
Messages : 896
Inscription : 16 avr. 2016, 22:14
Status : Hors-ligne

Quand je pense à mon premier PC XT avec son lecteur de disquettes 5"1/4 et son magnifique écran noir et ambre piloté par une carte graphique Hercule (720x348)
et un an plus tard, c'était la fête : J'ai pu lui installer mon premier disque dur de 20Mo,
alors 16To …
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

@lol peux-tu partager la commande que tu as créée pour recevoir ces alertes stp ?
Avatar de l’utilisateur
lol
Site Admin
Site Admin
Messages : 4967
Inscription : 04 avr. 2016, 12:11
Localisation : Madagascar
Status : En ligne

Salut,
genpashiro a écrit : 09 janv. 2022, 15:36 @lol peux-tu partager la commande que tu as créée pour recevoir ces alertes stp ?

La page du Wiki est toujours d'actualité: Smartmontools
Règles d'usage du forum. Signalez si vous avez posté votre question sur un autre forum. Explications ici
Debian Unstable. Mate/LXQT. Dieu, en créant l'homme, a quelque peu surestimé ses capacités.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

Parfait, let's go !!
PascalHambourg
Contributeur
Contributeur
Messages : 876
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

lol a écrit : 09 janv. 2022, 08:12 Pourtant d'après le "device SMART health status" tout va bien
Il es notoire que l'indicateur de santé global de SMART n'est absolument pas fiable. Il restera bon alors que le disque a des centaines de secteurs défectueux. Il faut examiner les données SMART complètes et notamment les attributs et les logs avec

Code : Tout sélectionner

smartctl -a /dev/sdX
MicP a écrit : 09 janv. 2022, 10:34 il faudrait peut-être voir du côté de l'alimentation ou/et des cordons s'ils n'ont pas été changés.
"UNC(orrectable)" / "media error" = secteur défectueux
Ce n'est donc pas un problème de câblage. En revanche une alimentation insuffisante est une cause possible.
genpashiro a écrit : 07 janv. 2022, 22:27 Le terminal de mon "pc-serveur" affiche ce message depuis quelques jours
A quel moment (démarrage, sortie de veille, n'importe quand) ? A quelle fréquence ?
MicP
Modérateur
Modérateur
Messages : 896
Inscription : 16 avr. 2016, 22:14
Status : Hors-ligne

"UNC(orrectable)" / "media error" = secteur défectueux
Ce n'est donc pas un problème de câblage. En revanche une alimentation insuffisante est une cause possible.
Je suis d'accord, c'est pour ça que je pensais à une panne d'alimentation des disques (sous-tension provoquée par des faux contacts au niveau des connecteurs ou par un cordon défectueux) qui aurait pu provoquer la même panne qu'un bloc d'alimentation défectueux.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

PascalHambourg a écrit : 09 janv. 2022, 20:20
genpashiro a écrit : 07 janv. 2022, 22:27 Le terminal de mon "pc-serveur" affiche ce message depuis quelques jours
A quel moment (démarrage, sortie de veille, n'importe quand) ? A quelle fréquence ?
A tout moment, dès lors que le PC est allumé.

Des lignes et des lignes :

Image
Avatar de l’utilisateur
piratebab
Site Admin
Site Admin
Messages : 4935
Inscription : 24 avr. 2016, 18:41
Localisation : sud ouest
Status : En ligne

A vérifier aussi la température des disques.
genpashiro
Membre
Membre
Messages : 214
Inscription : 25 sept. 2018, 15:07
Localisation : Douai, Nord
Status : Hors-ligne

avec hddtemp :

Code : Tout sélectionner

hddtemp /dev/sdc
/dev/sdc: ST1000DM003-1CH162: 36°C
par contre :

Code : Tout sélectionner

hddtemp /dev/sdb
/dev/sdb: Succès
"Succès"....mais la température n'est pas affichée :unknw:
Répondre