Smart Lighting – Dataset tráfico real – Laboratorio ciberseguridad del grupo de investigación TIC-154

Progreso

100%

Smart Lighting - Dataset IoT

Tipo contribución/resultado

Dataset público

Descripción

Dataset de tráfico real IoT en un despliegue de Smart Lighting

Presentación

El desarrollo y evaluación de sistemas de detección de intrusos basados en anomalías (AIDS) requiere de conjuntos de datos de entrenamiento adecuados. Este nuevo conjunto de datos disponible para la comunidad científica tiene como objetivo posibilitar su uso en escenarios de tipo IoT Smart Lighting.

Ha sido recopilado en un escenario real correspondiente al despliegue de una solución de iluminación inteligente comercial operando en condiciones normales (véase la figura). Sus principales características son:

– Real: ha sido adquirido a partir de la operación real del sistema e incluye todo el tráfico observado en el servidor de control durante los periodos de adquisición.

– Elevado volumen de datos y lapso de tiempo: incluye más de 150 mil flujos y más de medio millón de registros de telemetría tomados en dos periodos de tiempo separados 4 meses.

El conjunto de datos obtenido puede utilizarse para el entrenamiento y evaluación de sistemas de detección de intrusiones tanto a nivel de red como de aplicación.

Procedimiento

Adquisición del dataset

El dataset Smart Lighting contiene tráfico recogido en 2021 por una empresa con despliegues de sistemas de iluminación inteligente en 30 países y 400 ciudades de todo el mundo. Los datos incorporados corresponden a la captura de los paquetes intercambiados entre las unidades de control de las luminarias (LCU, Smart Light Control Unit) y el servidor de operación y mantenimiento (O&M). En particular, el dataset corresponde a las comunicaciones de un despliegue compuesto por 70 LCU. Por razones de privacidad, los datos originales han sido analizados y parametrizados dando lugar a dos bloques de datos:

– DSl: Informes de tráfico IPFIX (cada 5 min) del tráfico intercambiado entre el servidor y 70 LCUs entre el 30 de junio y el 19 de julio de 2021. El número total de registros IPFIX es de 153 014, siendo COAP (datos telemétricos) y HTTP (comandos a LCU) los protocolos más utilizados.

– DS2: Los registros en la base de datos de series temporales con la información de telemetría enviada por 68 LCU entre el 9 de enero y el 14 de febrero de 2021, y también los registros enviados por 66 LCU entre el 12 y el 19 de julio, lo que supone un total de 549.682 registros

Limpieza y etiquetado

No se ha realizado ningún etiquetado de los datos. Durante el periodo de adquisición, el operador no registró ningún ataque ni comportamiento anómalo, por lo que se asume que todo el tráfico corresponde a tráfico limpio.

Se ha realizado un filtrado de los registros sintácticamente incorrectos, que se deben a errores/problemas con la generación de los informes IPFIX o la extracción de datos de telemetría.

Nótese que, debido a la naturaleza real de los datos, existen diversos artefactos en los mismos. Entre otros, se pueden identificar episodios de ausencia de datos de telemetría y errores en las mediciones.

Dataset - Resultado

Adquisición del dataset

El dataset se proporciona a partir de dos bloques:

– DS1: Flujos IPFIX: Un archivo ipfix.csv, que contiene la información correspondiente a los flujos generados por los LCU (DS1), en formato CSV. Cada registro (línea) contiene la información de un flujo, incluyendo un total de 6 características. Se han identificado tres tipos de flujos en este dataset:

– Flujos HTTP: tráfico de acceso al servidor web

– Flujo COAP: tráfico con los datos de telemetría desde las LCU al servidor de control.

– Desconocidos.

– DS2: Telemetría: Una base de datos de series temporales. Contiene un total de 71 archivos en formato CSV. Cada archivo contiene los registros (líneas) de las mediciones eléctricas de cada uno de los dispositivos LCU. Se han registrado un total de 25 variables para cada LCU.

Todos los archivos tienen formato CSV.

Formato registros en DS2

El contenido de los registros de telemetría se muestra en la siguiente tabla. Nótese que existen 3 líneas para cada LCU, lo que da lugar a que algunas variables presentan tres valores (i=1,2,3).

Variable	Descripción
Pow(j)	Potencia consumida en la línea i
APow(i)	x3 Potencia activa en la línea i
RPow(i)	Potencia reactiva en la línea i
Int(i)	Intensidad en la línea i
Vol(i)	Voltaje en la línea i
PF(i)	Factor de potencia en la línea i
PF	Factor de potencia total
Freq	Frecuencia
Vol	Voltaje total
Pow	Potencia total consumida
APow	Potencia activa total
RPow	Potencia reactiva total
TS	Marca de tiempo
Vol(i)	Voltaje en la línea i

Documentos técnicos / recursos

El dataset está disponible en:

https://gitlab.com/neus_cslab/a-ids-smart-lighting-supplemental-material

Archivo README.md

 README.md

Publicaciones

Lara, Agustín; Estepa, Antonio; Estepa, Rafael; Díaz-Verdejo, Jesús E.; Mayor, Vicente

Anomaly-based Intrusion Detection System for smart lighting Artículo de revista

En: Internet of Things, vol. 28, pp. 101427, 2024, ISSN: 2542-6605.

Resumen | Enlaces | BibTeX

@article{LARA2024101427,

title = {Anomaly-based Intrusion Detection System for smart lighting},

author = {Agustín Lara and Antonio Estepa and Rafael Estepa and Jesús E. Díaz-Verdejo and Vicente Mayor},

url = {https://www.sciencedirect.com/science/article/pii/S2542660524003688},

doi = {https://doi.org/10.1016/j.iot.2024.101427},

issn = {2542-6605},

year  = {2024},

date = {2024-01-01},

urldate = {2024-01-01},

journal = {Internet of Things},

volume = {28},

pages = {101427},

abstract = {Smart Lighting Systems (SLS) are essential to smart cities, offering enhanced energy efficiency and public safety. However, they are susceptible to security threats, potentially leading to safety risks and service disruptions, making the protection of this infrastructure critical. This paper presents an anomaly-based Intrusion Detection System (IDS) designed for a real-world operational SLS. As commercial deployments vary in components, protocols, and functionalities, IDSs must be tailored to the specific characteristics of each deployment to perform effectively. Our anomaly-based IDS has been defined based on the properties of the available data and the types of attacks we aim to detect, offering both explainability and low complexity. The proposed system identifies anomalies in seven features of network traffic and in the telemetry data received at the central control (O&M) server. For the latter, we designed three customized detectors to identify abnormal data points, persistent deviations in street lamp power consumption, and abnormal power value based on the time of day. Validation with real-world data and simulated attacks demonstrates the effectiveness of our approach. Network attacks (e.g., DoS, scanning) were detected by at least one of the seven flow-related anomaly detectors, while simulated data poisoning attacks and operational technology (OT) issues were detected with nearly 90% accuracy. The datasets used in this work are publicly available and may serve as reference for the design of future IDSs. While our detectors were designed specifically for our dataset, the variables examined and vulnerabilities addressed are common in most commercial SLSs.},

keywords = {},

pubstate = {published},

tppubtype = {article}

}

Cerrar

	Dpt. Ingeniería Telemática Entreplanta 2 - Noroeste ETSI (Escuela Técnica Superior de Ingeniería) C/ Camino de los descubrimientos s/n 41092 - Sevilla
	+34 954 48 73 84
	rafaestepa @ us.es
	Mapa

	Dpt. Ingeniería Telemática ETSI (Escuela Técnica Superior de Ingeniería) C/ Camino de los descubrimientos s/n 41092 - Sevilla
	Dpt. Teoría de la Señal, Telemática y Comunicaciones ETS Ing. Informática y Telecomunicaciones C/ Daniel Saucedo Aranda s/n 18071 - Granada