GIPUZKOA TECNOLÓGICA

            Técnicas 

Técnicas Correctivas / Filtros basados en contenido / Filtros bayesianos

Calculan la probabilidad de que un mensaje sea spam basándose en su contenido, cabeceras, meta información, pares de palabras, frases y otras características (como el html con el que están formados)

A diferencia de los filtros “heurísticos”, los FB aprenden tanto del ham - correo legítimo - como del spam del usuario.

Ofrecen una solución muy robusta, eficiente y adaptada a las necesidades de cada usuario.

Tasa de falsos positivos prácticamente nula.

Antes de usar un FB, se le debe enseñar a reconocer el spam/ham
Será el usuario el encargado de enseñar al FB qué es spam y qué es ham

El FB analiza el texto, lo divide en tokens y los guarda en una BBDD junto con info. de contexto y frecuencias Cuando ha aprendido, puede clasificar un correo contrastando los tokens del mensaje con los de su BBDD

Ejemplo:

Tras entrenar con ham: la palabra “consulta” indica poca probabilidad spam
Tras entrenar con spam: la palabra “tonner” indica alta probabilidad spam

¿Y si llega un mensaje con ambas palabras?
Auto-adaptación del filtro. Aprende del humano, a partir de entrenamiento (el humano decide si ese mensaje que incluye las dos palabras es ham o es spam).
Si el humano decidiera que el mensaje es spam, el filtro tiene varias posibilidades de adaptación: la primera consiste en bajar la probabilidad de que la palabra "consulta" indique "ham" y la segunda consiste en subir la probabilidad de que la palabra "tonner" indique que nos encontramos ante un mensaje de spam.

Adicionalmente, el filtro bayesiano puede tener en cuenta otros aspectos del mensaje, por ejemplo, ampliar el contexto de sus reglas (cuando ambas palabras - tonner y consulta - aparecen juntas en un mensaje, alta probabilidad de spam).


 

 
  IntroducciónTécnicasAplicacionesDocumentaciónTaller