Följ med oss den 9 november för att lära dig hur du framgångsrikt kan innovera och uppnå effektivitet genom att uppfostra och skala medborgarutvecklare på Low-Code/No-Code Summit. Registrera här.
Personalbrist, distribuerade team som har haft minimalt med samarbete, höginsats ”avbryter arbete” som stör IT-arbetsflöden, stigande tekniska kostnader som föranleder konsolidering.
Denna uppsättning ”kolliderande makroproblem” kräver en förhöjd nivå av incidentrespons,
Som produktutvecklingschef på PagerDuty Sean Scott uttryckte det, organisationer måste gå bortom idén om ”incidentrespons” till en mer omfattande förståelse av ”incidenthantering.”
”Incidentreaktioner brukade bara handla om ”hur snabbt kan vi komma tillbaka” när din digitala verksamhet störs, men idag är det mycket djupare än så, säger han.
Händelse
Toppmöte med låg kod/ingen kod
Lär dig hur man butveckla, skala och styr lågkodsprogram på ett enkelt sätt som skapar framgång för allt den 9 november. Rregistrera dig för ditt gratiskort idag.
Registrera här
Av denna anledning tillkännagav PagerDuty idag förbättringar av PagerDuty Operations Cloud för att hjälpa till att utöka kapaciteten kring incidentarbetsflöden.
”Konsumentens förväntningar är högre än någonsin: sekunders latens kan vara skillnaden mellan att bygga lojalitet och att förlora en kund”, sa Scott. ”Incidenthantering handlar både om att minska risken för det resultatet och att hålla teamen fokuserade på att belöna arbete som strategisk innovation, inte brandbekämpning – och speciellt inte klockan 3 på morgonen”
Större misstag, ökande efterfrågan
Med tanke på att den genomsnittliga kostnaden för ett dataintrång är nu 4,35 miljoner dollarfortsätter den globala marknaden för incident- och nödhantering att växa — enligt en uppskattning kommer den att bli nästan totalt 172 miljarder dollar till 2026.
Enligt KPMGde vanligaste cyberincidentresponsmisstagen inkluderar:
- Oskräddarsydda planer
- Team som inte kan kommunicera med rätt personer på rätt sätt
- Lag som saknar kompetens eller är felstora eller misskötta
- Incidentresponsverktyg som är ”otillräckliga, ohanterade, oprövade eller underutnyttjade”
Dessutom är data som är relevanta för incidenter inte lätt tillgängliga, säger företaget, och incidentresponsteam saknar auktoritet och synlighet. Och användarna är ofta oklara om sin roll i organisationens säkerhetsställning.
Dessutom ”finns det ingen ’underrättelseinformation’ i hotunderrättelserna som tillhandahålls till räddningspersonal”, rapporterar företaget.
Därför är det viktigt att integrera teknik inklusive AIops, automation och verktyg för site reliability engineering (SRE), sa Scott. ”Incidenthantering går in på servicenivåer som kan vara svåra att reda ut”, sa han.
Automatisera svar, standardisera runbooks
Till exempel är en kundvagn långsam, eller det finns ett partiellt avbrott eftersom tjänste-API:er i en specifik region är nere, sa han. Detta kräver en plattform som identifierar operationer som inte fungerar som avsett och, när grundorsaken är riktad, skickas en varning till den bästa personen för att lösa det.
Företag bör granska telemetri (det vill säga hur de övervakar/får in signaler från sina digitala system) och bestämma en tröskel för att larma den bästa jourexperten (som helst kan lösa problemet själva).
Organisationer har ofta många olika processer för olika typer av avbrott, och varje användningsfall kan ha olika ”runbooks” för åtgärdande, sa Scott. Dessa bör granskas och standardiseras så att svarande inte ”jagar efter en checklista på en wiki när en allvarlig incident inträffar”, sa han.
Med automatisk telemetri och diagnostik kan svarsspelningar bli mer sofistikerade (och ytterligare automatiserade). Detta kan potentiellt göra det möjligt för organisationer att åtgärda ett problem innan de behöver larma jourexperter, sa han. Bara de få kritiska ögonblicken kan innebära att man bevarar kunder och sparar pengar.
”När företag ökar sin digitala mognad och förbättrar incidentresponsen, borde de inte tänka på automatisering av detta stora, skrämmande, allt-eller-inget-val,” sa Scott. ”Få team bekväma med det; små automatiseringar kan flytta dig närmare, steg-för-steg, från mänsklig hastighet till maskinhastighet.
PagerDutys nya Incident Workflows-funktion tillåter team att konfigurera svarsarbetsflöden för olika typer av incidenter baserat på olika triggers, såsom förändringar i brådska, status och prioritet. Den ger också en lista över incidentåtgärder.
Till exempel kommer en händelse i digital infrastruktur för ett kritiskt utdrag, transformation, belastning (ETL) jobbmisslyckande. En jourhavare aviseras sedan och går till jobbet för att diagnostisera och åtgärda problemet som klassats med ”måttlig” svårighetsgrad.
Men sedan kommer en andra händelse: En mobilapp är nere för nordvästra regionen. Detta är ”uppenbarligen en mycket större fråga än ETL-frågan, och bör prioriteras som sådan”, sa Scott.
PagerDutys nya Incident Workflows-funktion tillåter team att konfigurera svarsarbetsflöden för olika typer av incidenter baserat på olika triggers, såsom förändringar i brådska, status och prioritet. Den ger också en lista över incidentåtgärder.
Dessutom kan användare automatiskt varna kundsupport och PR-team så att de kan vara mer proaktiva och avleda ytterligare kundfeedback till det mobila teamet. Slack-kanaler och Zoom Bridges kan också skapas automatiskt, och en automatisk diagnostik körs för att samla in information eller telemetri.
En ny PagerDuty-statussida tillåter användare att kommunicera driftuppdateringar i realtid till specifika kundgrupper. Detta kan vara helt automatiserat eller hålla människor i slingan för godkännande, sa Scott. Till exempel kan ett kommunikationsteam godkänna en kund-/intressentvändande innan den offentliggörs, medan interna statussidor automatiskt kan varna organisationen bakom en brandvägg.
Incident Workflows kommer att flyttas till tidig tillgänglighet den 15 november och PagerDuty Status Page flyttas till tidig tillgänglighet 29 november.
Skräddarsydda varningar
Samtidigt låter flexibla tidsfönster för intelligent varningsgruppering användare skräddarsy varningar och minska brus. Dessutom beräknar och rekommenderar PagerDutys maskininlärningsmotor idealiska tidsfönster för en specifik tjänst, sa Scott.
Han rapporterade att ett urval av PagerDutys program för tidig åtkomst visar att team som använder funktionen ser en ökning på 10 till 45 % i genomsnittlig komprimeringsgrad på sina mest bullriga tjänster på veckor.
Flexibla tidsfönster är för närvarande i tidig tillgänglighet och kommer att flyttas till allmän tillgänglighet i slutet av november.
Slutligen, ett nytt anpassat fält om incident-funktion ger mer kontextuell information om problemet och möjligheten att se och komma åt information från vilken yta som helst. Denna tjänst kommer att bli tillgänglig i början av 2023.
Scott sa att företagets befintliga PagerDuty Digital Operations Maturity Curve-modell gör det möjligt för kunder att identifiera var digitala operationer faller (från manuell/reaktiv till proaktiv och prediktiv). Och företaget fortsätter att dela med sig av lärdomar och bästa praxis från sina egna lärdomar om incidentrespons.
”Oavsett hur vi betecknar det, handlar incidenthantering/incidenthantering om att bevara en sömlös kundupplevelse och behålla kundernas förtroende och lojalitet”, säger Scott. ”Detta leder i slutändan till att skydda och öka intäkterna.”