Seguridad en web
Los servicios web han experimentado una gran expansión en los últimos años, tanto por el desarrollo de servicios cada
vez más complejos y avanzados como por la fácil accesibilidad a los mismos mediante el uso de navegadores. Consecuentemente, los servidores web se han convertido en una de las dianas favoritas de los ciberataques. Entre otros
escenarios, los servidores comprometidos se utilizan habitualmente para la distribución de malware, para realizar phishing o como puerta de acceso a la red de una empresa.
Esta es una de las líneas principales de investigación del grupo, que se apoya, fundamentalmente, en la línea de investigación en detección de intrusiones. Nuesto objetivo es el desarrollo de sistemas que permitan proteger los servidores web a partir de la identificación de amenazas y ataques. Esta línea se complementa con la de seguridad en IoT ya que muchos de los servicios subyacentes en IoT operan o pueden operar a través de servicios basados en web.
Hemos realizado contribuciones especialmente en la detección de ataques basados en peticiones HTTP, tanto a partir de la detección basada en firmas como en anomalías. También en sistemas híbridos que combinen varias tecnologías de detección y en cuestiones relacionadas con la evaluación adecuada de las capacidades de protección proporcionadas por los sistemas desarrollados. Para ello hemos adquirido y etiquetado varios datasets de tráfico HTTP real para su uso con fines de investigación.

Líneas de trabajo
Adquisición y etiquetado de tráfico HTTP en escenarios reales
Análisis de vulnerabilidades en servicios web
Análisis de trazas de servidores web
Metodologías de evaluación de sistemas de detección para web
Generación automática de firmas para el servicio HTTP
Generación de datasets de ataques HTTP
Técnicas / métodos
-
Modelado de Markov
-
Análisis de cadenas
-
Aprendizaje automático
-
Análisis de series temporales
Comparación de patrones
Correlación de eventos
Resultados relevantes
Prototipo de sistema de generación automática de firmas para HTTP
- Varios datasets de peticiones HTTP reales etiquetadas (ground-truth)
- Inspectorlog: detección de ataques basada en firmas sobre trazas HTTP
Publicaciones destacadas
Díaz-Verdejo, Jesús E.; Estepa Alonso, Rafael; Estepa Alonso, Antonio; Muñoz-Calle, F. J.; Madinabeitia, German
Building a large, realistic and labeled HTTP URI dataset for anomaly-based intrusion detection systems: Biblio-US17 Artículo de revista En preparación
En: Cybersecurity, En preparación, ISSN: 2523-3246.
@article{Biblio24,
title = {Building a large, realistic and labeled HTTP URI dataset for anomaly-based intrusion detection systems: Biblio-US17 },
author = {Jesús E. {Díaz-Verdejo} and {Estepa Alonso}, Rafael and {Estepa Alonso}, Antonio and F. J. Muñoz-Calle and German
Madinabeitia},
doi = {https://doi.org/10.1186/s42400‑024‑00336‑3},
issn = {2523-3246},
year = {2024},
date = {2024-12-11},
urldate = {2024-12-11},
journal = {Cybersecurity},
abstract = {This paper introduces Biblio-US17, a labeled dataset collected over 6 months from the log files of a popular public website at the University of Seville. It contains 47 million records, each including the method, uniform resource identifier (URI) and associated response code and size of every request received by the web server. Records have been classified as either normal or attack using a comprehensive semi-automated process, which involved signature-based detection, assisted inspection of URIs vocabulary, and substantial expert manual supervision. Unlike comparable datasets, this one offers a genuine real-world perspective on the normal operation of an active website, along with an unbiased proportion of actual attacks (i.e., non-synthetic). This makes it ideal for evaluating and comparing anomalybased approaches in a realistic environment. Its extensive size and duration also make it valuable for addressing challenges like data shift and insufficient training. This paper describes the collection and labeling processes, dataset structure, and most relevant properties. We also include an example of an application for assessing the performance of a simple anomaly detector. Biblio-US17, now available to the scientific community, can also be used to model the URIs used by current web servers.},
keywords = {},
pubstate = {forthcoming},
tppubtype = {article}
}
Díaz-Verdejo, Jesús E.; Estepa Alonso, Rafael; Estepa Alonso, Antonio; Madinabeitia, German
A critical review of the techniques used for anomaly detection of HTTP-based attacks: taxonomy, limitations and open challenges Artículo de revista
En: Computers and Security, vol. 124, pp. 102997, 2023, ISSN: 01674048.
@article{Diaz-Verdejo2023,
title = {A critical review of the techniques used for anomaly detection of HTTP-based attacks: taxonomy, limitations and open challenges},
author = {Jesús E. Díaz-Verdejo and {Estepa Alonso}, Rafael and {Estepa Alonso}, Antonio and German Madinabeitia},
doi = {10.1016/j.cose.2022.102997},
issn = {01674048},
year = {2023},
date = {2023-01-01},
urldate = {2023-01-01},
journal = {Computers and Security},
volume = {124},
pages = {102997},
abstract = {Intrusion Detection Systems (IDSs) and Web Application Firewalls (WAFs) offer a crucial layer of defense that allows organizations to detect cyberattacks on their web servers. Academic research overwhelmingly suggests using anomaly detection techniques to improve the performance of these defensive systems. However, analyzing and comparing the wide range of solutions in the scientific literature is challenging since they are typically presented as isolated (unrelated) contributions, and their results cannot be generalized. We believe that this impairs the industry's adoption of academic results and the advancement of research in this field. This paper aims to shed light on the literature on anomaly-based detection of attacks that use HTTP request messages. We define a novel framework for anomaly detection based on six data processing steps grouped into two sequential phases: preprocessing and classification. Based on this framework, we provide a taxonomy and critical review of the techniques surveyed, emphasizing their limitations and applicability. Future approaches should take advantage of the syntax and semantics of the Uniform Resource Locator (URL), be scalable, and address their obsolescence. These aspects are frequently overlooked in the literature and pose a significant challenge in the current era of web services. For better comparability, authors should use adequate public datasets, follow a thorough methodology, and use appropriate metrics that fully show the pros and cons of the approach.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Díaz-Verdejo, J. E.; Muñoz-Calle, F. J.; Estepa Alonso, A.; Estepa Alonso, R.; Madinabeitia, G.
On the Detection Capabilities of Signature-Based Intrusion Detection Systems in the Context of Web Attacks Artículo de revista
En: Applied Sciences, vol. 12, no 2, pp. 852, 2022, ISSN: 20763417.
@article{Diaz-Verdejo2022,
title = {On the Detection Capabilities of Signature-Based Intrusion Detection Systems in the Context of Web Attacks},
author = {J. E. Díaz-Verdejo and F. J. Muñoz-Calle and {Estepa Alonso}, A. and {Estepa Alonso}, R. and G. Madinabeitia},
url = {https://www.mdpi.com/2076-3417/12/2/852/htm https://www.mdpi.com/2076-3417/12/2/852},
doi = {10.3390/app12020852},
issn = {20763417},
year = {2022},
date = {2022-01-01},
urldate = {2022-01-01},
journal = {Applied Sciences},
volume = {12},
number = {2},
pages = {852},
publisher = {Multidisciplinary Digital Publishing Institute},
abstract = {Signature-based Intrusion Detection Systems (SIDS) play a crucial role within the arsenal of security components of most organizations. They can find traces of known attacks in the network traffic or host events for which patterns or signatures have been pre-established. SIDS include standard packages of detection rulesets, but only those rules suited to the operational environment should be activated for optimal performance. However, some organizations might skip this tuning process and instead activate default off-the-shelf rulesets without understanding its implications and trade-offs. In this work, we help gain insight into the consequences of using predefined rulesets in the performance of SIDS. We experimentally explore the performance of three SIDS in the context of web attacks. In particular, we gauge the detection rate obtained with predefined subsets of rules for Snort, ModSecurity and Nemesida using seven attack datasets. We also determine the precision and rate of alert generated by each detector in a real-life case using a large trace from a public webserver. Results show that the maximum detection rate achieved by the SIDS under test is insufficient to protect systems effectively and is lower than expected for known attacks. Our results also indicate that the choice of predefined settings activated on each detector strongly influences its detection capability and false alarm rate. Snort and ModSecurity scored either a very poor detection rate (activating the less-sensitive predefined ruleset) or a very poor precision (activating the full ruleset). We also found that using various SIDS for a cooperative decision can improve the precision or the detection rate, but not both. Consequently, it is necessary to reflect upon the role of these open-source SIDS with default configurations as core elements for protection in the context of web attacks. Finally, we provide an efficient method for systematically determining which rules deactivate from a ruleset to significantly reduce the false alarm rate for a target operational environment. We tested our approach using Snort’s ruleset in our real-life trace, increasing the precision from 0.015 to 1 in less than 16 h of work.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Díaz-Verdejo, Jesús E.; Estepa, Antonio; Estepa, Rafael; Madinabeitia, German; Muñoz-Calle, Fco Javier
A methodology for conducting efficient sanitization of HTTP training datasets Artículo de revista
En: Future Generation Computer Systems, vol. 109, pp. 67–82, 2020, ISSN: 0167739X.
@article{Diaz-Verdejo2020,
title = {A methodology for conducting efficient sanitization of HTTP training datasets},
author = {Jesús E. Díaz-Verdejo and Antonio Estepa and Rafael Estepa and German Madinabeitia and Fco Javier Muñoz-Calle},
url = {https://linkinghub.elsevier.com/retrieve/pii/S0167739X19322629},
doi = {10.1016/j.future.2020.03.033},
issn = {0167739X},
year = {2020},
date = {2020-08-01},
urldate = {2020-08-01},
journal = {Future Generation Computer Systems},
volume = {109},
pages = {67--82},
publisher = {Elsevier B.V.},
abstract = {The performance of anomaly-based intrusion detection systems depends on the quality of the datasets used to form normal activity profiles. Suitable datasets should include high volumes of real-life data free from attack instances. On account of this requirement, obtaining quality datasets from collected data requires a process of data sanitization that may be prohibitive if done manually, or uncertain if fully automated. In this work, we propose a sanitization approach for obtaining datasets from HTTP traces suited for training, testing, or validating anomaly-based attack detectors. Our methodology has two sequential phases. In the first phase, we clean known attacks from data using a pattern-based approach that relies on tools that detect URI-based known attacks. In the second phase, we complement the result of the first phase by conducting assisted manual labeling systematically and efficiently, setting the focus of expert examination not on the raw data (which would be millions of URIs), but on the set of words that compose the URIs. This dramatically downsizes the volume of data that requires expert discernment, making manual sanitization of large datasets feasible. We have applied our method to sanitize a trace that includes 45 million requests received by the library web server of the University of Seville. We were able to generate clean datasets in less than 84 h with only 33 h of manual supervision. We have also applied our method to some public benchmark datasets, confirming that attacks unnoticed by signature-based detectors can be discovered in a reduced time span.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Garcia-Teodoro, P.; Diaz-Verdejo, J. E.; Tapiador, J. E.; Salazar-Hernandez, R.
Automatic generation of HTTP intrusion signatures by selective identification of anomalies Artículo de revista
En: Computers and Security, vol. 55, pp. 159–174, 2015, ISSN: 01674048.
@article{Garcia-Teodoro2015,
title = {Automatic generation of HTTP intrusion signatures by selective identification of anomalies},
author = {P. Garcia-Teodoro and J. E. Diaz-Verdejo and J. E. Tapiador and R. Salazar-Hernandez},
doi = {10.1016/j.cose.2015.09.007},
issn = {01674048},
year = {2015},
date = {2015-01-01},
journal = {Computers and Security},
volume = {55},
pages = {159--174},
abstract = {In this paper, we introduce a novel methodology to automatically generate HTTP intrusion signatures for Network Intrusion Detection Systems (NIDS). Our approach relies on the use of a service-specific, semantic-aware anomaly detection scheme that combines stochastic learning with a model structure based on the protocol specification. Each incoming payload for the target service is tagged with an anomaly score obtained from probabilistically matching it against the corresponding learned model of normal usage. For those payloads whose anomaly score exceeds a given threshold, a more detailed analysis is performed to extract the portions that contribute the most to the anomaly score. Such portions are then used to build up candidate intrusion signatures, using a merging process that combines them with already existing patterns in order to keep the signature database as simple as possible by avoiding redundancies. We report results obtained with a specific implementation of our proposal for web traffic. During our evaluation, we used a well-known signature-based NIDS that sits behind the anomaly detection system and is fed with the signatures automatically generated by the latter. Our results indicate that functioning in such a way translates into an improvement of the often tedious signature generation process. Furthermore, a visual inspection of the signatures reveals that the generation procedure is quite reliable, mimicking (and, in some cases, even improving) attack patterns manually generated by security analysts. This results in an increase of the overall detection performance of the composite signature- plus anomaly-based system.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Proyectos destacados
A-TIC-224-UGR20 – Modelado de Ataques y Detección de Incidentes de Ciberseguridad (MADINCI)
Entidad financiadora: Universidad de Granada – Junta de Andalucía – Proyectos I+D+i del Programa Operativo FEDER 2020
Entidad/es participantes: Univ. Granada y Univ. Sevilla – N. invest.: 6
Periodo: 01/01/2022 a 30/06/2023
@online{madinci,
title = {Modelado de Ataques y Detección de Incidentes de Ciberseguridad (MADINCI)},
url = {/neus-cslab/madinci},
year = {2022},
date = {2022-01-01},
urldate = {2022-01-01},
issuetitle = {Proyectos I+D+i del Programa Operativo FEDER 2020},
number = {A-TIC-224-UGR20},
pages = {6},
institution = {Univ. Granada y Univ. Sevilla},
organization = {Universidad de Granada - Junta de Andalucía},
series = {01/01/2022 a 30/06/2023},
note = {20000 €},
keywords = {},
pubstate = {published},
tppubtype = {online}
}
PID2020-115199RB-I00 – Detección de ciberataques en “industria conectada” e IoT mediante integración y correlación de alertas multifuente (COINCYDE)
Entidad financiadora: Ministerio de Ciencia e Innovación – MICIN/AEI/10.13039/50110 0 011033
Entidad/es participantes: Universidad de Granada / Universidad de Sevilla – N. invest.: 8
Periodo: 01/09/2021 a 31/08/2024
@online{coincyde,
title = {Detección de ciberataques en “industria conectada” e IoT mediante integración y correlación de alertas multifuente (COINCYDE)},
author = { Jesús E. Díaz Verdejo and Juan Carlos Cubero Talavera and Francisco Cortijo Bon and Antonio Estepa Alonso and Rafael Estepa Alonso and Germán Madinabeitia Luque and Olga Pons Capote and
Amparo Vila Miranda
},
url = {/neus-cslab/proyectos-idi/coincyde},
year = {2021},
date = {2021-09-01},
urldate = {2021-09-01},
booktitle = {Detección de ciberataques en “industria conectada” e IoT mediante integración y correlación de alertas multifuente (COINCYDE)},
issuetitle = {MICIN/AEI/10.13039/50110 0 011033},
number = {PID2020-115199RB-I00 },
pages = {8},
institution = {Universidad de Granada / Universidad de Sevilla},
organization = {Ministerio de Ciencia e Innovación },
series = {01/09/2021 a 31/08/2024},
abstract = {Los sistemas de monitorización de la seguridad en red (NSM) se encuentran hoy en día entre los componentes más relevantes para la detección y respuesta a los ciberataques. Sin embargo, sus capacidades de detección se limitan en su mayoría a ataques conocidos y tienden a generar una gran cantidad de alertas, muchas de las cuales son falsos positivos. Así, los operadores de ciberseguridad (CSO) deben supervisar una gran cantidad de alertas para determinar la ocurrencia real de incidentes, mientras que algunos de ellos permanecen sin ser detectados. Este proyecto tiene como objetivo desarrollar nuevas técnicas para mejorar las capacidades de detección mediante la adición de nuevos métodos basados en anomalías combinados con la correlación y priorización de alertas incorporando información contextual de la red. Esto mejorará la calidad de las alertas y reducirá la tasa de falsos positivos.
En esta propuesta se plantea el desarrollo de un NSM específico para plantas industriales con elementos del Internet of Things (IoT) y, más concretamente en uno de sus usos verticales: las SmartCity. Las instalaciones que pueden beneficiarse de la solución objeto de este proyecto son aquellas que permiten el control y monitorización de parques de dispositivos inteligentes (IoT, SmartCity), desde una aplicación o servicio web que se utiliza como interfaz de usuario para la gestión de servicios inteligentes. La elección del escenario tiene
una triple motivación. Primero, por la gran relevancia y expansión de este tipo de redes en la actualidad. Segundo, el escenario plantea una serie dificultades y requisitos específicos que no han sido convenientemente abordados en los SIEM actuales. Y tercero, la selección del escenario permite acotar el contexto, lo que posibilita un abordaje adecuado de la incorporación de información contextual.
El sistema a desarrollar incorporará múltiples detectores, incluyendo los usados habitualmente, considerando nuevos detectores específicos para el escenario que están orientados a las diversas amenazas existentes. Así, se desarrollarán detectores basados en anomalías a nivel del tráfico observado (flujos), a nivel de aplicación (sensorización) y a nivel de los servicios web usados para la operación remota. Adicionalmente, se hará uso de técnicas de inteligencia artificial para la correlación y priorización de las alertas incorporando información relativa al estado e historia previa de la red. Esto permitirá identificar falsos positivos, reducir el número de alertas finalmente enviadas al CSO y mejorar la información en las mismas.
Un elemento relevante y novedoso es el uso de una matriz de tráfico generada a partir de flujos en diferentes escalas de tiempo. Esta matriz contiene información sobre las conexiones de red que pueden explotarse para múltiples usos. Así, se pueden establecer algunos indicadores de compromiso para identificar ataques. También se puede utilizar para aplicar varios tipos de análisis de minería de datos, como la búsqueda de patrones comunes entre flujos, realizar perfiles de tráfico de servicios, evaluar la importancia y encontrar relaciones entre activos. La información extraída de esta matriz se utilizará como información contextual en la correlación y priorización de alertas.
Finalmente, la arquitectura propuesta incluye realimentación a partir de las acciones del CSO, lo que permite evaluar la calidad de detección y priorización y ajustar el rendimiento del sistema.},
note = {47795 €},
keywords = {},
pubstate = {published},
tppubtype = {online}
}
En esta propuesta se plantea el desarrollo de un NSM específico para plantas industriales con elementos del Internet of Things (IoT) y, más concretamente en uno de sus usos verticales: las SmartCity. Las instalaciones que pueden beneficiarse de la solución objeto de este proyecto son aquellas que permiten el control y monitorización de parques de dispositivos inteligentes (IoT, SmartCity), desde una aplicación o servicio web que se utiliza como interfaz de usuario para la gestión de servicios inteligentes. La elección del escenario tiene
una triple motivación. Primero, por la gran relevancia y expansión de este tipo de redes en la actualidad. Segundo, el escenario plantea una serie dificultades y requisitos específicos que no han sido convenientemente abordados en los SIEM actuales. Y tercero, la selección del escenario permite acotar el contexto, lo que posibilita un abordaje adecuado de la incorporación de información contextual.
El sistema a desarrollar incorporará múltiples detectores, incluyendo los usados habitualmente, considerando nuevos detectores específicos para el escenario que están orientados a las diversas amenazas existentes. Así, se desarrollarán detectores basados en anomalías a nivel del tráfico observado (flujos), a nivel de aplicación (sensorización) y a nivel de los servicios web usados para la operación remota. Adicionalmente, se hará uso de técnicas de inteligencia artificial para la correlación y priorización de las alertas incorporando información relativa al estado e historia previa de la red. Esto permitirá identificar falsos positivos, reducir el número de alertas finalmente enviadas al CSO y mejorar la información en las mismas.
Un elemento relevante y novedoso es el uso de una matriz de tráfico generada a partir de flujos en diferentes escalas de tiempo. Esta matriz contiene información sobre las conexiones de red que pueden explotarse para múltiples usos. Así, se pueden establecer algunos indicadores de compromiso para identificar ataques. También se puede utilizar para aplicar varios tipos de análisis de minería de datos, como la búsqueda de patrones comunes entre flujos, realizar perfiles de tráfico de servicios, evaluar la importancia y encontrar relaciones entre activos. La información extraída de esta matriz se utilizará como información contextual en la correlación y priorización de alertas.
Finalmente, la arquitectura propuesta incluye realimentación a partir de las acciones del CSO, lo que permite evaluar la calidad de detección y priorización y ajustar el rendimiento del sistema.
PI-2040/22/2020 – Diseño de un Sistema de Bastionado Híbrido en Aplicaciones Web frente a las Amenazas OWASP
Entidad financiadora: Universidad de Sevilla
Entidad/es participantes: Universidad de Sevilla – N. invest.: 4
Periodo: 15/10/2020 a 15/07/2021
@online{owasp,
title = {Diseño de un Sistema de Bastionado Híbrido en Aplicaciones Web frente a las Amenazas OWASP},
year = {2020},
date = {2020-01-01},
urldate = {2020-01-01},
number = {PI-2040/22/2020},
pages = {4},
institution = {Universidad de Sevilla},
organization = {Universidad de Sevilla},
series = {15/10/2020 a 15/07/2021},
note = {18150 €},
keywords = {},
pubstate = {published},
tppubtype = {online}
}
PI-1786/22/2018 – Sistema de ciberportección para servidores web de la Universidad de Sevilla (CiberwebUS)
Entidad financiadora: Univ. de Sevilla
Entidad/es participantes: AICIA – N. invest.: 4
Periodo: 01/03/2018 a 31/08/2018
@online{ciberwebus,
title = {Sistema de ciberportección para servidores web de la Universidad de Sevilla (CiberwebUS)},
year = {2018},
date = {2018-01-01},
urldate = {2018-01-01},
number = {PI-1786/22/2018},
pages = {4},
institution = {AICIA},
organization = {Univ. de Sevilla},
series = {01/03/2018 a 31/08/2018},
note = {10413 €},
keywords = {},
pubstate = {published},
tppubtype = {online}
}