
Smart Lighting - Dataset IoT
Tipo contribución/resultado
Dataset público
Descripción
Dataset de tráfico real IoT en un despliegue de Smart Lighting

Este resultado ha sido parcialmente financiado por MCIN/ AEI/10.13039/501100011033/

Este resultado ha sido parcialmente financiado por FEDER/ Junta de Andalucía
Presentación
El desarrollo y evaluación de sistemas de detección de intrusos basados en anomalías (AIDS) requiere de conjuntos de datos de entrenamiento adecuados. Este nuevo conjunto de datos disponible para la comunidad científica tiene como objetivo posibilitar su uso en escenarios de tipo IoT Smart Lighting.
Ha sido recopilado en un escenario real correspondiente al despliegue de una solución de iluminación inteligente comercial operando en condiciones normales (véase la figura). Sus principales características son:
– Real: ha sido adquirido a partir de la operación real del sistema e incluye todo el tráfico observado en el servidor de control durante los periodos de adquisición.
– Elevado volumen de datos y lapso de tiempo: incluye más de 150 mil flujos y más de medio millón de registros de telemetría tomados en dos periodos de tiempo separados 4 meses.
El conjunto de datos obtenido puede utilizarse para el entrenamiento y evaluación de sistemas de detección de intrusiones tanto a nivel de red como de aplicación.
Procedimiento
El dataset Smart Lighting contiene tráfico recogido en 2021 por una empresa con despliegues de sistemas de iluminación inteligente en 30 países y 400 ciudades de todo el mundo. Los datos incorporados corresponden a la captura de los paquetes intercambiados entre las unidades de control de las luminarias (LCU, Smart Light Control Unit) y el servidor de operación y mantenimiento (O&M). En particular, el dataset corresponde a las comunicaciones de un despliegue compuesto por 70 LCU. Por razones de privacidad, los datos originales han sido analizados y parametrizados dando lugar a dos bloques de datos:
– DSl: Informes de tráfico IPFIX (cada 5 min) del tráfico intercambiado entre el servidor y 70 LCUs entre el 30 de junio y el 19 de julio de 2021. El número total de registros IPFIX es de 153 014, siendo COAP (datos telemétricos) y HTTP (comandos a LCU) los protocolos más utilizados.
– DS2: Los registros en la base de datos de series temporales con la información de telemetría enviada por 68 LCU entre el 9 de enero y el 14 de febrero de 2021, y también los registros enviados por 66 LCU entre el 12 y el 19 de julio, lo que supone un total de 549.682 registros
Limpieza y etiquetadoNo se ha realizado ningún etiquetado de los datos. Durante el periodo de adquisición, el operador no registró ningún ataque ni comportamiento anómalo, por lo que se asume que todo el tráfico corresponde a tráfico limpio.
Se ha realizado un filtrado de los registros sintácticamente incorrectos, que se deben a errores/problemas con la generación de los informes IPFIX o la extracción de datos de telemetría.
Nótese que, debido a la naturaleza real de los datos, existen diversos artefactos en los mismos. Entre otros, se pueden identificar episodios de ausencia de datos de telemetría y errores en las mediciones.
Dataset - Resultado
El dataset se proporciona a partir de dos bloques:
– DS1: Flujos IPFIX: Un archivo ipfix.csv, que contiene la información correspondiente a los flujos generados por los LCU (DS1), en formato CSV. Cada registro (línea) contiene la información de un flujo, incluyendo un total de 6 características. Se han identificado tres tipos de flujos en este dataset:
– Flujos HTTP: tráfico de acceso al servidor web
– Flujo COAP: tráfico con los datos de telemetría desde las LCU al servidor de control.
– Desconocidos.
– DS2: Telemetría: Una base de datos de series temporales. Contiene un total de 71 archivos en formato CSV. Cada archivo contiene los registros (líneas) de las mediciones eléctricas de cada uno de los dispositivos LCU. Se han registrado un total de 25 variables para cada LCU.
Todos los archivos tienen formato CSV.
Formato registros en DS2El contenido de los registros de telemetría se muestra en la siguiente tabla. Nótese que existen 3 líneas para cada LCU, lo que da lugar a que algunas variables presentan tres valores (i=1,2,3).
Variable | Descripción |
---|---|
Pow(j) | Potencia consumida en la línea i |
APow(i) | x3 Potencia activa en la línea i |
RPow(i) | Potencia reactiva en la línea i |
Int(i) | Intensidad en la línea i |
Vol(i) | Voltaje en la línea i |
PF(i) | Factor de potencia en la línea i |
PF | Factor de potencia total |
Freq | Frecuencia |
Vol | Voltaje total |
Pow | Potencia total consumida |
APow | Potencia activa total |
RPow | Potencia reactiva total |
TS | Marca de tiempo |
Vol(i) | Voltaje en la línea i |
Documentos técnicos / recursos
https://gitlab.com/neus_cslab/a-ids-smart-lighting-supplemental-material
- Archivo README.md
Publicaciones
Lara, Agustín; Estepa, Antonio; Estepa, Rafael; Díaz-Verdejo, Jesús E.; Mayor, Vicente
Anomaly-based Intrusion Detection System for smart lighting Artículo de revista
En: Internet of Things, vol. 28, pp. 101427, 2024, ISSN: 2542-6605.
@article{LARA2024101427,
title = {Anomaly-based Intrusion Detection System for smart lighting},
author = {Agustín Lara and Antonio Estepa and Rafael Estepa and Jesús E. Díaz-Verdejo and Vicente Mayor},
url = {https://www.sciencedirect.com/science/article/pii/S2542660524003688},
doi = {https://doi.org/10.1016/j.iot.2024.101427},
issn = {2542-6605},
year = {2024},
date = {2024-01-01},
urldate = {2024-01-01},
journal = {Internet of Things},
volume = {28},
pages = {101427},
abstract = {Smart Lighting Systems (SLS) are essential to smart cities, offering enhanced energy efficiency and public safety. However, they are susceptible to security threats, potentially leading to safety risks and service disruptions, making the protection of this infrastructure critical. This paper presents an anomaly-based Intrusion Detection System (IDS) designed for a real-world operational SLS. As commercial deployments vary in components, protocols, and functionalities, IDSs must be tailored to the specific characteristics of each deployment to perform effectively. Our anomaly-based IDS has been defined based on the properties of the available data and the types of attacks we aim to detect, offering both explainability and low complexity. The proposed system identifies anomalies in seven features of network traffic and in the telemetry data received at the central control (O&M) server. For the latter, we designed three customized detectors to identify abnormal data points, persistent deviations in street lamp power consumption, and abnormal power value based on the time of day. Validation with real-world data and simulated attacks demonstrates the effectiveness of our approach. Network attacks (e.g., DoS, scanning) were detected by at least one of the seven flow-related anomaly detectors, while simulated data poisoning attacks and operational technology (OT) issues were detected with nearly 90% accuracy. The datasets used in this work are publicly available and may serve as reference for the design of future IDSs. While our detectors were designed specifically for our dataset, the variables examined and vulnerabilities addressed are common in most commercial SLSs.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}