lördag, maj 16, 2009

You say "netværk", I say "nätverk"

När man är inblandad i att driva ett distribuerat system som spänner över hela Norden (minus Island), så upptäcker man snabbt när det uppstår problem på nätet - på ett helt annat sätt än som normal nätanvändare.

Men man upptäcker också vissa - öh - kulturskillnader mellan länderna. Jämför de två nedanstående felrapporterna, till exempel.

Svensk felrapport:
Ticket Number : NORDUNETTICKET-97
Ticket Type : Unscheduled
Ticket Status : Closed
Ticket Summary : MTU problem
Ticket Scope : Routing

Ticket Opened : 20090512 15:12 UTC
Ticket Closed : 20090513 5:05 UTC

Problem Start : 20090512 12:51 UTC
Problem End : 20090512 20:02 UTC

Affected organisations:

* SUNET
----

Description:

* Jive reported that Jumbo frames sent from Onsala Space
Observatory to Jive seems to be discarded. Jumbo frames from
Jive to OSO however are not discarded.
----

Impact:

* It is not possible to send Jumbo frames from Onsala Space
Observatory to Jive on the VLAN number 1901 in the TSS
cloud. Which goes via Hamburg into SURFnet/Netherlight to
JIVE. The name of the path
in question is 5061VL_NLDGL-SEONS(NBD JIVE-Onsala) aka
SN_Asd001A_Hb001A_0005.
NORDUnet service NU-S000006.
----

Update:

* 20090512 15:53 UTC
This ticket has been escalated to the NORDUnet Optical
network department. They are currently investigating the
problem.
----


Final ticket report:

* It愀 verified by JIVE that it is possible to send jumbo
frames again.
----


Dansk felrapport:

Hej folk,

For det meste er jeg glad for Forskningsnettets 7600-routere, men der er
dage...

Vi har haft nogle store problemer på Forskningsnettet de sidste timer.
De er løst nu.




Og så den lange version:

Fra 19.29 begyndte der at komme nogle alarmer ind om netproblemer. I
første omgang så det ud som om Odense lavede et eller andet på deres
net, men der kom hurtigt flere alarmer, og det blev klart, at der var
noget helt galt i Lyngby.

Jeg loggede ind på Ly3 hjemmefra, men kunne næsten ikke få noget
fornuftigt ud af den, så belastet var CPU'en. Jeg kunne dog få ud af
den, at den havde en masse drops og flushes fra input-køen på samtlige
10G-porte - noget vi også så på Ly4 forleden. Nu kan jeg godt se, at det
kan have været symptomer snarere end årsager til problemerne, men da jeg
ikke kunne snakke fornuftigt med routeren valgte jeg at opgradere til
den nyere software, der alligevel lå klar og ventede på dens flash-disk.

Desværre kom den ikke i luften.

Jeg skyndte mig at køre til Lyngby og smide en konsol på, og routeren
hang i rommon (som svarer lidt til når en gammel PC uden keyboard står
og siger "no keyboard detected - press F1 to continue.")

Det viste sig, at selv om IOS'en (det fulde styresystem) på routeren
godt kunne læse CF-kortet, så kunne boot-softwaren ikke. Jeg hentede i
al hast et CF-kort fra nabo-routeren og skulle til at boote fra det, da
Jan mindede mig om, at vi alligevel skulle opgradere et daughterboard på
et af kortene i routere - så for at spare et servicevindue...

Jeg installerede daughterboardet og bootede.

Den nye software kom fint op, men kunne ikke kende et af
indstikskortene. Det var ikke et vigtigt kort. Dets rolle er forlængst
udspillet og det trak kun 2 gigabitforbindelser, som jeg flyttede til et
andet kort. Så var alt kørende.


Mens det hele stod på stod Or1 og Ly4 og snakkede med hinanden over en
backup-forbindelse, som simpelthen ikke har den nødvendige kapacitet, så
det kigger vi lidt mere på. Det betød i praksis at de to stod og hoppede
så meget, at ingenting virkede. Meget skidt.


Yderligere er der et problem med Ly3, at den ikke selv ser ud til at
boote den software den skal. Den skal "hjælpes" fra konsollen. Det vil
vi også se lidt nærmere på, og det kommer til at koste et servicevindue
i den nærmeste fremtid. Det skal vi nok annoncere, når den tid kommer.

Vi beklager de gener denne omgang har medført.

Jag är ärligt talat inte säker på vilken form av felrapport jag föredrar...

Inga kommentarer:

 
MediaCreeper Creeper