Memtest pro živý systém ?

Pavel Troller patrol na sinus.cz
Úterý Březen 26 19:43:17 CET 2013


Zdravím,
  nikdy nic nevylučuji, ale považuji to za velmi nepravděpodobné:
  1) Servery jsou 2 fyzicky identické (společně objednané a dodané)
  2) Aplikace na nich je identická (ze stejného instal. média)
  3) Cca 2 roky běžely oba servery bez problémů
  4) Bez jakékoliv SW změny začala aplikace na jednom serveru padat, na druhém
stále běží (nynější uptime přes 220 dní, na druhém serveru max. 12 hodin).
Vstupní data mají oba servery "stejná" (stejného typu - load balancing).
  Z výše uvedených důvodů tipuji spíše na to, že v jednom serveru odchází HW
a otestovat paměť mi přišlo jako první na ráně.

Zdraví Pavel

> Předem bych nevylučoval ani chybu v té aplikaci. Zrovna minulý týden
> jsem ladil prográmek v c++ a bylo to podobné - padalo to v destruktoru
> mé třídy, ale pokaždé jinak. Nakonec jsem zjistil, že index pro zápis do
> pole přetéká o 1 velikost pole (klasika). A protože objekty jsou
> alokované dynamicky, mají data kdesi na hromadě a tak se přepíše pokaždé
> něco jiného (a jinak, protože jsou jiná vstupní data).
> Přetékat může cosi i po dlouhém čase a pak se to zdá býti náhodným.
> 
> Mrazík
> 
> Pavel Troller píše v Út 26. 03. 2013 v 15:00 +0100:
> > Zdravím,
> >   na jednom ze serverů začala záhadně padat aplikace. Padne vždy jindy, vždy
> > jinak, naprosto stochasticky. Co backtrace, to originál. Většinou corrupted
> > memory (struktury částečně vynulované případně s nesmysly v pointerech, takže
> > segfault je nabíledni).
> >   Soudím, že by mohla skutečně začít zlobit paměť.
> 
> 
> _______________________________________________
> HW-list mailing list  -  sponsored by www.HW.cz
> Hw-list na list.hw.cz
> http://list.hw.cz/mailman/listinfo/hw-list


Další informace o konferenci Hw-list