Progreso
100%

Smart Lighting - Dataset IoT

Tipo contribución/resultado

Dataset público

Descripción

Dataset de tráfico real IoT en un despliegue de Smart Lighting

Este resultado ha sido parcialmente financiado por MCIN/ AEI/10.13039/501100011033/

Este resultado ha sido parcialmente financiado por FEDER/ Junta de Andalucía

Presentación

El desarrollo y evaluación de sistemas de detección de intrusos basados en anomalías (AIDS) requiere de conjuntos de datos de entrenamiento adecuados. Este nuevo conjunto de datos disponible para la comunidad científica  tiene como objetivo posibilitar su uso en escenarios de tipo IoT Smart Lighting.

Ha sido recopilado en un escenario real correspondiente al despliegue de una solución de iluminación inteligente comercial operando en condiciones normales (véase la figura). Sus principales características son:

Real: ha sido adquirido a partir de la operación real del sistema e incluye todo el tráfico observado en el servidor de control durante los periodos de adquisición.

Elevado volumen de datos y lapso de tiempo: incluye más de 150 mil flujos y más de medio millón de registros de telemetría tomados en dos periodos de tiempo separados 4 meses. 

El conjunto de datos obtenido puede utilizarse para el entrenamiento y evaluación de sistemas de detección de intrusiones tanto a nivel de red como de aplicación.

 

Procedimiento

Adquisición del dataset

El  dataset Smart Lighting contiene tráfico recogido en 2021 por una empresa con despliegues de sistemas de iluminación inteligente en 30 países y 400 ciudades de todo el mundo. Los datos incorporados corresponden a la captura de los paquetes intercambiados entre las unidades de control de las luminarias (LCU, Smart Light Control Unit) y el servidor de operación y mantenimiento (O&M). En particular, el dataset corresponde a las comunicaciones de un despliegue compuesto por 70 LCU. Por razones de privacidad, los datos originales han sido analizados y parametrizados dando lugar a dos bloques de datos:

DSl: Informes de tráfico IPFIX (cada 5 min) del tráfico intercambiado entre el servidor y 70 LCUs entre el 30 de junio y el 19 de julio de 2021. El número total de registros IPFIX es de 153 014, siendo COAP (datos telemétricos) y HTTP (comandos a LCU) los protocolos más utilizados.

DS2: Los registros en la base de datos de series temporales con la información de telemetría enviada por 68 LCU entre el 9 de enero y el 14 de febrero de 2021, y también los registros enviados por 66 LCU entre el 12 y el 19 de julio, lo que supone un total de 549.682 registros

Limpieza y etiquetado

No se ha realizado ningún etiquetado de los datos. Durante el periodo de adquisición, el operador no registró ningún ataque ni comportamiento anómalo, por lo que se asume que todo el tráfico corresponde a tráfico limpio.

Se ha realizado un filtrado de los registros sintácticamente incorrectos, que se deben a errores/problemas con la generación de los informes IPFIX o la extracción de datos de telemetría.

Nótese que, debido a la naturaleza real de los datos, existen diversos artefactos en los mismos. Entre otros, se pueden identificar episodios de ausencia de datos de telemetría y errores en las mediciones.

 

Dataset - Resultado

Adquisición del dataset

El dataset se proporciona a partir de dos bloques:

DS1: Flujos IPFIX: Un archivo ipfix.csv, que contiene la información correspondiente a los flujos generados por los LCU (DS1), en formato CSV. Cada registro (línea) contiene la información de un flujo, incluyendo un total de 6 características. Se han identificado tres tipos de flujos en este dataset:

– Flujos HTTP: tráfico de acceso al servidor web

– Flujo COAP: tráfico con los datos de telemetría desde las LCU al servidor de control.

– Desconocidos.

DS2: Telemetría: Una base de datos de series temporales. Contiene un total de 71 archivos en formato CSV. Cada archivo contiene los registros (líneas) de las mediciones eléctricas de cada uno de los dispositivos LCU. Se han registrado un total de 25 variables para cada LCU.

Todos los archivos tienen formato CSV.

Formato registros en DS2

El contenido de los registros de telemetría se muestra en la siguiente tabla. Nótese que existen 3 líneas para cada LCU, lo que da lugar a que algunas variables presentan tres valores (i=1,2,3).

Variable Descripción
Pow(j) Potencia consumida en la línea i
APow(i) x3 Potencia activa en la línea i
RPow(i) Potencia reactiva en la línea i
Int(i) Intensidad en la línea i
Vol(i) Voltaje en la línea i
PF(i) Factor de potencia en la línea i
PF Factor de potencia total
Freq Frecuencia
Vol Voltaje total
Pow Potencia total consumida
APow Potencia activa total
RPow Potencia reactiva total
TS Marca de tiempo
Vol(i) Voltaje en la línea i

Documentos técnicos / recursos

  •  El dataset está disponible en:
https://gitlab.com/neus_cslab/a-ids-smart-lighting-supplemental-material
  • Archivo README.md

Publicaciones

Lara, Agustín; Estepa, Antonio; Estepa, Rafael; Díaz-Verdejo, Jesús E.; Mayor, Vicente

Anomaly-based Intrusion Detection System for smart lighting Artículo de revista

En: Internet of Things, vol. 28, pp. 101427, 2024, ISSN: 2542-6605.

Resumen | Enlaces | BibTeX