|
Calculan
la probabilidad de
que un mensaje sea
spam basándose
en su contenido, cabeceras,
meta información,
pares de palabras,
frases y otras características
(como el html con el
que están formados)
A
diferencia de los filtros “heurísticos”,
los FB aprenden tanto
del ham - correo legítimo
- como del spam del
usuario.
Ofrecen una solución
muy robusta, eficiente
y adaptada a las necesidades
de cada usuario.
Tasa
de falsos positivos
prácticamente
nula.
Antes
de usar un FB, se le
debe enseñar
a reconocer el spam/ham
Será el usuario el
encargado de enseñar
al FB qué es spam
y qué es ham
El
FB analiza el texto,
lo divide en tokens
y los guarda en una
BBDD junto con info.
de contexto y frecuencias
Cuando ha aprendido,
puede clasificar un
correo contrastando
los tokens del mensaje
con los de su BBDD
Ejemplo:
Tras
entrenar con ham: la
palabra “consulta” indica
poca probabilidad spam
Tras
entrenar con spam: la
palabra “tonner” indica
alta probabilidad spam
¿Y si llega
un mensaje con ambas
palabras?
Auto-adaptación
del filtro. Aprende
del humano, a partir
de entrenamiento (el
humano decide si ese
mensaje que incluye
las dos palabras es
ham o es spam).
Si el humano decidiera
que el mensaje es spam,
el
filtro
tiene
varias posibilidades
de adaptación: la primera
consiste
en bajar la probabilidad
de que la palabra "consulta"
indique "ham" y la
segunda consiste en
subir la probabilidad
de
que la palabra "tonner"
indique que nos encontramos
ante un mensaje de
spam.
Adicionalmente, el
filtro bayesiano puede
tener en cuenta
otros
aspectos
del
mensaje, por ejemplo,
ampliar el contexto
de sus reglas (cuando
ambas palabras - tonner
y consulta - aparecen
juntas en un mensaje,
alta probabilidad de
spam).
|