OperationsOperazioni 12 min read12 min di lettura

Service Assurance in 5G:
A Practitioner's GuideService Assurance nel 5G:
Guida Pratica

Service assurance is the discipline of continuously verifying that a live 5G network delivers the performance promised in service-level agreements (SLAs) — and automatically triggering corrective action when it doesn't. In 5G, service assurance is more complex than in previous generations because network slicing, multi-vendor open RAN, and edge compute introduce new failure modes that traditional fault management systems cannot detect.

Il service assurance è la disciplina di verificare continuamente che una rete 5G live fornisca le prestazioni promesse negli accordi di livello di servizio (SLA) — e di attivare automaticamente azioni correttive quando non lo fa. Nel 5G, il service assurance è più complesso rispetto alle generazioni precedenti perché il network slicing, l'Open RAN multi-vendor e l'edge compute introducono nuove modalità di guasto che i sistemi tradizionali di fault management non riescono a rilevare.

What Is Service Assurance?Cos'è il Service Assurance?

Service assurance encompasses everything an operator does to guarantee that end users receive the quality of service they were promised — and to detect and resolve degradations before they become subscriber-visible outages. Traditionally, this involved monitoring network element alarms (fault management) and checking counters from the OSS (Operations Support System). In 5G, the scope has expanded dramatically.

Modern service assurance operates on three levels simultaneously: Infrastructure health (are all network elements operational?), Service-layer quality (are the KPIs for each slice meeting their SLA targets?), and User experience quality (is the end-to-end application quality — video streaming, voice clarity, gaming latency — meeting user expectations?). A failure at any level must be detected, localized, and resolved without waiting for a customer complaint.

Il service assurance comprende tutto ciò che un operatore fa per garantire che gli utenti finali ricevano la qualità del servizio promessa — e per rilevare e risolvere i degradi prima che diventino interruzioni visibili agli abbonati. Tradizionalmente, ciò comportava il monitoraggio degli allarmi degli elementi di rete (fault management) e la verifica dei contatori dall'OSS (Operations Support System). Nel 5G, la portata si è ampliata notevolmente.

Il service assurance moderno opera simultaneamente su tre livelli: Salute dell'infrastruttura (tutti gli elementi di rete sono operativi?), Qualità a livello di servizio (i KPI per ogni slice stanno raggiungendo i target SLA?) e Qualità dell'esperienza utente (la qualità dell'applicazione end-to-end — streaming video, chiarezza vocale, latenza gaming — soddisfa le aspettative degli utenti?). Un guasto a qualsiasi livello deve essere rilevato, localizzato e risolto senza aspettare un reclamo del cliente.

A unified service assurance dashboard shows network KPIs, active alerts, and a live geospatial map of cell performance — all on a single screen.Un dashboard unificato di service assurance mostra i KPI di rete, gli allarmi attivi e una mappa geospaziale live delle prestazioni delle celle — tutto su un unico schermo.

Active vs Passive MonitoringMonitoraggio Attivo vs Passivo

The distinction between active and passive monitoring is fundamental to understanding what any assurance system can and cannot detect:

La distinzione tra monitoraggio attivo e passivo è fondamentale per capire cosa qualsiasi sistema di assurance può e non può rilevare:

Passive (Counters & MDT)Passivo (Contatori e MDT)

Collects counters from live network elements — RAN performance counters, core network KPIs, MDT (Minimization of Drive Tests) measurements from real UEs in the network.

Raccoglie contatori dagli elementi di rete live — contatori di prestazione RAN, KPI della rete core, misurazioni MDT (Minimization of Drive Tests) dagli UE reali in rete.

—Zero impact on user trafficNessun impatto sul traffico utente

—Massive scale (all subscribers)Scala massiva (tutti gli abbonati)

—Dependent on what counters vendors exposeDipendente dai contatori esposti dai vendor

—Cannot test specific scenarios on demandNon può testare scenari specifici su richiesta

Active (Synthetic Testing)Attivo (Test Sintetici)

Injects test traffic into the network from controlled probes at specific locations — measuring exactly what a user would experience at that point.

Inietta traffico di test nella rete da sonde controllate in posizioni specifiche — misurando esattamente ciò che un utente sperimenterebe in quel punto.

—Measures real end-to-end service qualityMisura la qualità reale del servizio end-to-end

—Controllable test scenarios (VoNR, streaming, gaming)Scenari di test controllabili (VoNR, streaming, gaming)

—Requires probe infrastructureRichiede infrastruttura di sonde

—Represents only the probe locationsRappresenta solo le posizioni delle sonde

Best-practice service assurance combines both: passive monitoring for breadth (detecting which cells are degrading across the entire network) and active probes for depth (verifying the exact user experience at priority locations like headquarters, retail stores, or transport hubs). The passive layer triggers the active layer: when a counter anomaly is detected at a cell, synthetic probes in that cell's coverage area run a targeted test to quantify the user-level impact.

Il service assurance best-practice combina entrambi: monitoraggio passivo per l'ampiezza (rilevare quali celle si stanno degradando nell'intera rete) e sonde attive per la profondità (verificare l'esperienza utente esatta nelle posizioni prioritarie come sedi aziendali, negozi al dettaglio o hub di trasporto). Il layer passivo attiva il layer attivo: quando viene rilevata un'anomalia di contatore in una cella, le sonde sintetiche nell'area di copertura di quella cella eseguono un test mirato per quantificare l'impatto a livello utente.

KPIs and KQIs: Measuring What MattersKPI e KQI: Misurare Ciò che Conta

A critical discipline in service assurance is maintaining a clear hierarchy between technical KPIs and the business KQIs (Key Quality Indicators) they are supposed to predict. KPIs are measurable network-layer quantities (RSRP, throughput, packet error rate); KQIs describe user-perceived quality (video stall rate, voice MOS score, page load time).

Una disciplina critica nel service assurance è mantenere una chiara gerarchia tra i KPI tecnici e i KQI (Key Quality Indicators) di business che dovrebbero prevedere. I KPI sono quantità misurabili a livello di rete (RSRP, throughput, tasso di errore dei pacchetti); i KQI descrivono la qualità percepita dall'utente (tasso di stallo video, punteggio MOS voce, tempo di caricamento della pagina).

KQI (User Experience)KQI (Esperienza Utente)	Underlying KPIsKPI Sottostanti	SLA Threshold (example)Soglia SLA (esempio)
Video streaming qualityQualità streaming video	DL throughput, RTT, jitter	Stall rate < 0.5%Tasso di stallo < 0,5%
VoNR call clarityChiarezza chiamata VoNR	Packet loss, jitter, SINR	MOS > 4.0
Gaming latencyLatenza gaming	E2E RTT, packet loss	RTT < 30 ms p95RTT < 30 ms p95
File download speedVelocità download file	DL throughput, TCP goodput	>100 Mbps p50>100 Mbps p50
IoT message deliveryConsegna messaggi IoT	Connection success rate	>99.9% delivery>99,9% consegna

The mapping from KPI to KQI is not always linear. A cell might have excellent median RSRP but high RSRP variance — the 5th-percentile RSRP may be poor enough to cause significant packet loss for edge-of-cell users even while the median looks fine. Effective assurance systems monitor distribution statistics, not just means.

La mappatura da KPI a KQI non è sempre lineare. Una cella potrebbe avere un RSRP mediano eccellente ma un'elevata varianza RSRP — l'RSRP al 5° percentile potrebbe essere abbastanza scarso da causare una perdita significativa di pacchetti per gli utenti al bordo della cella anche mentre la mediana sembra buona. I sistemi di assurance efficaci monitorano le statistiche della distribuzione, non solo le medie.

Closed-Loop AutomationAutomazione a Ciclo Chiuso

Closed-loop automation is the most impactful evolution in modern service assurance: instead of an operator receiving an alert and manually investigating and fixing the problem, the system detects, diagnoses, and remediates automatically — without human intervention. In mature deployments, 60–75% of network anomalies are resolved by the closed-loop system before any engineer is paged.

L'automazione a ciclo chiuso è l'evoluzione più impattante nel service assurance moderno: invece di un operatore che riceve un allarme e indaga e risolve manualmente il problema, il sistema rileva, diagnostica e ripristina automaticamente — senza intervento umano. Nei deployment maturi, il 60–75% delle anomalie di rete viene risolto dal sistema a ciclo chiuso prima che qualsiasi ingegnere venga avvisato.

The closed-loop automation cycle: monitor → detect → analyze → optimize → verify. Each step can be fully automated for well-characterized failure modes.Il ciclo di automazione a ciclo chiuso: monitorare → rilevare → analizzare → ottimizzare → verificare. Ogni fase può essere completamente automatizzata per modalità di guasto ben caratterizzate.

MonitorMonitorare

Continuous collection of RAN counters, probe measurements, and user-plane telemetry. Data is streamed into a real-time analytics engine that maintains time-series statistics per cell, per slice, and per location cluster.Raccolta continua di contatori RAN, misurazioni delle sonde e telemetria del piano utente. I dati vengono inviati in streaming a un motore di analisi in tempo reale che mantiene statistiche in serie temporale per cella, per slice e per cluster di posizione.

DetectRilevare

Statistical anomaly detection algorithms (threshold-based, moving-average deviation, or ML-based) flag metrics that deviate from their expected baseline. A good anomaly engine distinguishes between genuine degradation and normal diurnal variation.Gli algoritmi di rilevamento delle anomalie statistiche (basati su soglia, deviazione dalla media mobile o basati su ML) segnalano le metriche che si discostano dal loro baseline atteso. Un buon motore di anomalie distingue tra un degrado genuino e la normale variazione diurna.

AnalyzeAnalizzare

Root cause analysis (RCA) correlates the anomaly with concurrent events — planned maintenance windows, weather events, neighboring cell changes, software upgrades — and selects the most probable root cause from a pre-trained causal model.L'analisi della causa radice (RCA) correla l'anomalia con eventi concorrenti — finestre di manutenzione pianificate, eventi meteorologici, modifiche alle celle vicine, aggiornamenti software — e seleziona la causa radice più probabile da un modello causale pre-addestrato.

OptimizeOttimizzare

The remediation action is selected from a playbook of validated corrective actions — antenna tilt adjustment, power level change, neighbor list update, handover parameter modification — and executed via the SON (Self-Organizing Network) or RAN management API.L'azione di rimedio viene selezionata da un playbook di azioni correttive validate — regolazione del tilt dell'antenna, modifica del livello di potenza, aggiornamento della neighbor list, modifica dei parametri di handover — ed eseguita tramite il SON (Self-Organizing Network) o l'API di gestione RAN.

VerifyVerificare

A post-remediation measurement cycle (active probe or counter analysis) confirms that the KPI has returned to within its normal range. If not, the system escalates to the next remediation level or opens a human intervention ticket.Un ciclo di misura post-rimedio (sonda attiva o analisi dei contatori) conferma che il KPI è tornato nel suo intervallo normale. In caso contrario, il sistema scala al livello di rimedio successivo o apre un ticket di intervento umano.

Network Slicing AssuranceAssurance del Network Slicing

Network slicing introduces a new assurance challenge: a physical network element serves multiple logical slices simultaneously, and a degradation can affect one slice without affecting others — or a degradation in a shared resource (the physical RAN scheduler, for example) can cascade across all slices at once.

Slice assurance requires monitoring at three levels: per-slice KPI monitoring (is this slice meeting its SLA?), shared resource monitoring (is the physical scheduler saturated?), and cross-slice isolation monitoring (is traffic from one slice leaking into another's resource allocation?). When a per-slice KPI degrades, the first diagnosis question is whether the issue is slice-specific (misconfigured scheduling weights) or infrastructure-wide (cell overload, backhaul congestion).

Il network slicing introduce una nuova sfida per l'assurance: un elemento di rete fisico serve più slice logiche simultaneamente, e un degrado può influenzare una slice senza influenzarne altre — oppure un degrado in una risorsa condivisa (lo scheduler RAN fisico, ad esempio) può propagarsi a tutte le slice contemporaneamente.

L'assurance delle slice richiede il monitoraggio a tre livelli: monitoraggio KPI per slice (questa slice sta raggiungendo il suo SLA?), monitoraggio delle risorse condivise (lo scheduler fisico è saturo?) e monitoraggio dell'isolamento cross-slice (il traffico di una slice sta trapelando nell'allocazione delle risorse di un'altra?). Quando un KPI per slice si degrada, la prima domanda di diagnosi è se il problema è specifico della slice (pesi di scheduling mal configurati) o a livello di infrastruttura (sovraccarico della cella, congestione del backhaul).

Practical tip: Each network slice should have its own set of active probes that periodically run end-to-end service tests using the correct NSSAI (Network Slice Selection Assistance Information). Counter-based passive monitoring alone cannot confirm that a slice's SLA is being met — you need active verification that the slice is actually accessible and delivering the contracted throughput.

Consiglio pratico: Ogni slice di rete dovrebbe avere il proprio set di sonde attive che eseguono periodicamente test di servizio end-to-end usando il corretto NSSAI (Network Slice Selection Assistance Information). Il monitoraggio passivo basato su contatori da solo non può confermare che lo SLA di una slice venga rispettato — è necessaria una verifica attiva che la slice sia effettivamente accessibile e stia fornendo il throughput contrattuale.

AI-Driven Anomaly DetectionRilevamento Anomalie Guidato dall'AI

Rule-based thresholds (alert when RSRP drops below −100 dBm) are insufficient for modern networks: they generate thousands of false positives during normal diurnal variation and miss subtle multi-dimensional anomalies (where individual KPIs look normal but their combination indicates a degraded state). ML-based anomaly detection learns the normal joint distribution of KPIs for each cell and raises an alert only when the combination of values is statistically unusual.

Geospatial context is a critical input to AI-based assurance: an anomaly that affects a cluster of adjacent cells is almost certainly a shared-infrastructure failure (backhaul, power, baseband unit), whereas an anomaly in a single isolated cell points to a radio-path issue (antenna mechanical fault, feeder loss). A system that can overlay anomaly alerts on a map and detect spatial clustering patterns can dramatically reduce mean time to root cause (MTTRC).

Le soglie basate su regole (allarme quando l'RSRP scende sotto −100 dBm) sono insufficienti per le reti moderne: generano migliaia di falsi positivi durante la normale variazione diurna e mancano anomalie multi-dimensionali sottili (dove i singoli KPI sembrano normali ma la loro combinazione indica uno stato degradato). Il rilevamento delle anomalie basato su ML apprende la distribuzione congiunta normale dei KPI per ogni cella e genera un allarme solo quando la combinazione di valori è statisticamente insolita.

Il contesto geospaziale è un input critico per l'assurance basata su AI: un'anomalia che colpisce un cluster di celle adiacenti è quasi certamente un guasto dell'infrastruttura condivisa (backhaul, alimentazione, unità baseband), mentre un'anomalia in una singola cella isolata punta a un problema del percorso radio (guasto meccanico dell'antenna, perdita del feeder). Un sistema in grado di sovrapporre gli allarmi di anomalia su una mappa e rilevare i pattern di clustering spaziale può ridurre drasticamente il tempo medio alla causa radice (MTTRC).

How NEXT GIS Delivers Service AssuranceCome NEXT GIS Implementa il Service Assurance

NEXT GIS streams live network KPI data via WebSocket onto a geospatial map canvas, updating every 30 seconds. Cell-level metrics (RSRP, throughput, PRB utilization, handover success rate) are visualized as color-coded coverage layers. Anomaly alerts are plotted as map events — engineers instantly see not just which KPI degraded, but exactly where, enabling spatial correlation analysis in seconds rather than minutes of log-file analysis.

NEXT GIS invia in streaming i dati KPI di rete live tramite WebSocket su un canvas di mappa geospaziale, aggiornandosi ogni 30 secondi. Le metriche a livello di cella (RSRP, throughput, utilizzo PRB, tasso di successo degli handover) vengono visualizzate come layer di copertura a colori. Gli allarmi di anomalia vengono tracciati come eventi sulla mappa — gli ingegneri vedono immediatamente non solo quale KPI si è degradato, ma esattamente dove, abilitando l'analisi di correlazione spaziale in secondi anziché in minuti di analisi dei file di log.

Live KPI MapMappa KPI Live

30-second refresh of cell-level performance metrics, color-coded by health status.Aggiornamento ogni 30 secondi delle metriche di prestazione a livello di cella, codificate a colori per stato di salute.

Spatial ClusteringClustering Spaziale

Auto-detect whether anomalies are isolated or cluster-shaped — identifying shared failure points.Rileva automaticamente se le anomalie sono isolate o a forma di cluster — identificando i punti di guasto condivisi.

Webhook AlertsAllarmi Webhook

Forward geofenced alerts to your operations center, Slack, or PagerDuty automatically.Inoltra automaticamente gli allarmi geofenciati al tuo centro operativo, Slack o PagerDuty.

Request a demoRichiedi una demo