Chvala Linuxu - den siesty, rano

Čtvrtek Únor 14 09:47:43 CET 2013

ono je to este trochu inak :-) Softwarovych poistiek a diagnostiky je 
tam obrovske mnozstvo. Stavaju sa aj trivialne incidenty, ktore by mali 
byt osetrene. Nie su lebo 'nejsou lidi'. O urychlovac sa stara ca. 100 
klucovych ludi a nejakych ~500 ludi, ktori vyvijali software/hardware. 
Na rozdiel od telekomunikacneho biznisu my sme si zakaznikmi sami sebe, 
takze strategia bola zvolena skor tak, ze kazdy urobil maximum pre to 
aby jeho system bol funkcny, hotovy, spolahlivy a k dispozicii pre 
start. Postupne so zvysujucimi sa poziadavkami (trvalo to 4 roky) sa 
ukazuju slabe miesta, ktore sa priebezne opravuju/vylepsuju. Vyvoj zacal 
od nuly, myslim si ze ustredne neboli vyvinute v takto kratkom case.
Vela z tych crashov ma pomerne zlozite dovody preco a ako sa to stalo. 
Analyza preco sa to stalo je obycajne velmi zlozita a tak kreativne 
sposoby zlyhania nejakych systemov si proste nevymyslis :-)) Je tazke 
pripravit kontrolne mechanizmy pre zlozite nezname problemy. Strategia 
je namiesto toho velmi spolahlivo monitorovat zakladne parametre, ktore 
maju ochrannu funkciu, rozhodnutie tam trva od 89us do par milisekund. 
Podrobna analyza sa robi offline, lebo rekonstrukcia udalosti niekedy 
dost dlho trva.
b.

On 14/02/2013 06:49, Pavel Troller wrote:
> Zdravim,
>    tak v tomto mne neutvrdil Linux, ale systemy, se kterymi pracuji ja, a to
> klasicke telefonni ustredny.
>    Uvadi se, ze programove vybaveni systemu EWSD (ustredna od Siemense) obsahuje
> zhruba 30% aktivniho software (ktery opravdu telefonuje), zatimco zbylych
> 70% predstavuje tzv. safeguarding - diagnostika, at uz trvale bezici nebo na
> vyzadani, vyhledavani chyb behem chodu systemu, jejich automaticka korekce
> a predchazeni dalsim, neustale kontroly konzistence vsech databazi (na discich
> i v pameti), "propiskavani" hardware (spojovaciho pole a prenosovych cest) pred
> zacatkem kazdeho hovoru atd. Ale kdo zkontroluje safeguarding ? Jde to az tak
> daleko, ze ve stanoveny cas se (samozrejme softwarove) aktivuji specialni
> obvody (nebo programy), ktere simuluji vznik zavady a testuje se, zda
> safeguarding zavadu objevi, zaregistruje a fixne (v tomto pripade automatickym
> prenutim z aktivni jednotky na zalozni).
>    Malicko si rypnu - existuje jista velka, prevelka organizace, ktera provozuje
> jisty nejslozitejsi aparat momentalne na zemi existujici, a ja si nekdy pri
> studiu logu z toho aparatu trham vlasy a rikam si - kdyby tam pouzili alespon
> desetinu z techto safeguarding principu, ktere umi kazda "blba" ustredna,
> nebylo by tolik prostoju zpusobenych zhroucenymi procesory kdesi v tunelu,
> nahle se odmlcujicimi servery z duvodu, ze kdosi ma ze sveho kompu v uzamcene
> kancelari pusteno 30 klientu nejake aplikace a ty ten server pretezuji,
> pripadne zrestartovana jednotka si zapomene pri bootu nastavit realny cas
> a chybnymi timestampy "otravi" polovinu site :-). Ale chapu, ze toho softu je
> tam tolik, ze napsat jeste vice nez jednou tolik "jen" z duvodu safeguardingu
> asi nebylo v lidskych silach...
>    Zdravi Pavel
>