Tenestegruppestatusmøte 21. januar 2015

Status- og koordineringsmøte januar. TSD og AD2.

Status og koordinering i Cerebrum tenestegruppe.

Oppmøtte: hanskfje, elisabhs, gardot

Agenda

  1. Plan for å få alle over på ny AD2-synk
  2. TSD, Gard er invitert

Gard: Såg at du er opptatt første halvtimen, men håper det går fint for deg å komme innom etter det?

Referat

Vi bytter om på rekkefølga i agendaen, sidan Gard kom med tidleg.

TSD

Vi har hatt utfordringar med Cerebrum-TSD. Kva gjer vi?

Gard introduserer: Har vore trøbbel med Cerebrum-synk. Har gått ned, og fått lite/sein respons for å få den opp att, og blitt gjort lite for å få den stabil. Korleis går vi fram for å forbedre dette? Kan job_runner fiksast? Ifølge tvl kunne noko gjerast. Vil Zabbix-overvåking løyse det? Det dukka opp feil i midten av desember. Gard hadde feilmeldt dette i midten av desember, men vart ikkje tatt hand om før no i januar.

Elisabeth: Rutina vi introduserte for overvåking fungerte ikkje heilt, var ikkje nok å sjekke at job_runner gjekk. Måtte gå djupt inn i materien for å finne ut at det feiler, sjå gjennom ein god del loggar. Cerebrum drift har gått inn for å komme tidleg inn i Zabbix-prosjektet, men det er ikkje gått på lufta endå, og veit ikkje status. Jobbast med å sette opp Zabbix i TSD-miljøet, men litt tekniske detaljar som gjenstår før dette er komplett.

Det er framleis e-post som er den primære overvåkingskanalen for Cerebrum. Vi veit for lite om Zabbix endå til å vite kva som må endrast for å tilpasse driften dette.

Det viktigaste for TSD er at vi får på plass overvåking av Cerebrum i TSD.

Kanalar

Kva kanalar skal vi bruke? Gard vart bedt om å bruke cerebrum-kontakt@usit.uio.no - treng berre eitt kontaktpunkt å forholde seg til, så ruter Cerebrum-folk det vidare til riktig kanal. Chat/IRC/XMPP er ikkje ønskeleg å bruke for feilmeldingar, sidan det er mindre oppfølging - kan fint brukast undervegs for kommunikasjon. Bruk RT, alt som ikkje er RT, reknast som "prat" og ikkje varsling og bestilling.

Etter at Gard gjekk, vart det diskutert rundt kva Cerebrum drift sine kontaktpunkt er. Er det tsd-core? tsd-utv? TODO: Elisabeth sender e-post til tsd-utv og spør om kva kanalar ho skal bruke for kva. Informerer samtidig også om at all kontakt med Cerebrum skal gå til RT-køa cerebrum-kontakt@usit.uio.no.

Gard : Typiske utv saker er ønsket til tsd-utv@usit.uio.no, mens driftssaker som sync-krasj, småutbedringer og annet bes smått sendt til tsd-drift@usit.uio.no. Det viktigste er at en av disse brukes og ikke kun vanlig epost.

Leveranse og prodsetting

Ønsker å få endringane prodsatt neste fredag formiddag 30. januar. TSD har nedetid torsdag 29. januar, for å få dedikerte HNAS-noder, omkabling, samt ein del oppgraderingar, så vil vere nede heile dagen. Er fredagen ok for Cerebrum? TODO: Elisabeth gir Gard svar på det, etter å ha sjekka med Cerebrum-folk.

Gard : TSD sier på ingen måte av de er fornøyde med leveransen, men at vi er villige til å forsøke å gå i prod med det som er levert. Vi avtaler tidspunkt nærmere, vi vil forsøke i første uken i februar. Et vesentlig utestående pkt er det at nexus-sync var opprinnelig bestilt som direkte, dvs i det man gjør en endring i bofh skulle endringen skje på nexus, men direkte tilbakemelding om noe feilet. Ikke slik som i dag dere endringer samles opp og synces på et senere tidspunkt. Bestilling om endring kommer før neste TSD sprint håper vi på fra TSD.

TSD vart bedt om å vere parat på fredagen, under prodsettinga, til å verifisere at integrasjonane og funksjonaliteten fungerer i TSD-miljøet. Gard skulle ta det opp med relevante TSD-folk.

Hans Kristian advarte om risikoen ved å ikkje ha eit stagingmiljø og full akseptansetest før prodsetting. Det er ikkje sikkert at Cerebrum utvikling kan stå parat til å fikse feil som dukker opp når vi først går i prod - har mange andre kritiske ting som dukker opp, og fristar vi må forholde oss til.

Midlertidig fiks

Diskuterte litt vidare etter at Gard hadde gått: Kan vi gjere noko midlertidig no? Det kan ta tid før Zabbix kjem på plass, og vi veit ikkje kva status er.

TODO: Elisabeth skal ta det opp med drift, for å sjå på noko skripting for å forbedre dette no midlertidig, og så spørre Cerebrum utvikling om bistand om det vert behov for det. Kan til dømes sjå på tilpassing av maillog.py, eller lage eit skript for å greppe viktige loggar.

AD2-synk

Såg på planen som Hans Kristian lagde for å få alle over på AD2-synk.

xiaoliz skal på ferie i fire veker, om fire veker, så er redusert bemanning i den perioden, dvs. ut mars, så det går fint etter planen.

Ønsker at Cerebrum drift set av dei to vekene frå 16. april til 1. mai for prodsetting og oppgradering av AD2-synk for alle instansane. Vi har satt oss vår eigen frist til 1. mai for å få alle over på ny AD2-synk.

Det kan vere fordelar med å sette opp fleire instansar samtidig, sidan det er samme oppsett og det heng friskt i minnet.

Planen er tentativ, det avhenger spesielt av kva som skjer med Forskernett-aktiviteten - kan sjå ut til at dei tre forskernett-sprintane hopper opp før sprinten med AD2-synk og Exchange-integrasjon.

Starten av hausten er kritisk grunna semesterstart, så må prodsettast før dette. Hvis ikkje kan ikkje det gjerast før etter semesterstart.

Legger til i tidsplanen at partnarane kan vere i forkant og sette opp integrasjonen på førehand, dvs. maskina Cerebrum skal koble seg opp mot. Det gjer det meir effektivt ved prodsetting at oppkoblinga er klar - det kan ta tid for instansane å sette opp. Vi legg til i planen at dette gjerast i perioden 1. mars til 1. april. Hans Kristian skal snakke med Thomas i dag, så vil kunne endre seg i dag - han seier i frå.

Rakk ikkje å sjå noko på Exchange-integrasjonen.

Publisert 21. jan. 2015 11:37 - Sist endret 5. feb. 2015 18:11