Protection anti-spam

Une statistique

Le spam augmente énormément depuis quelques mois, ce graphe est éloquent: de 50.000 mails par jour en été 2003, on a passé certains jours 1.000.000 mails, à volume constant de 5.000 adresses sur l'ENS. On tombe donc sur l'estimation donnée dans les medias: sur Internet, 90 à 95% du courrier est du spam...

Filtrages en entrée de site ENS

En entrée de l'ENS, la machine de mail applique les filtres suivants:
  • (2005) quelques contrôles de base.
    Exemple: une adresse de mail ne peut pas contenir d'espace. Ainsi <Cette adresse@ens.fr> est jugé comme spam de suite.
  • (décembre 2006) filtrage via la blacklist gérée par Spamhaus. Un mail venant d'une adresse Internet répertoriée dans ces listes est considéré de suite comme spam.
    Cette blacklist est réputée sérieuse: une adresse n'y figure pas pour un rien, c'est-à-dire sur une simple délation.
    Commentaire: refuser un mail est une décision lourde. Mais Spamhaus est aussi utilisé par un outil comme Spamassassin. On peut alors considérer que l'on a le choix entre:
    - ne pas voir un mail mal noté par Spamassassin, donc un mail silencieusement ignoré,
    - ou refuser un mail ce que l'émetteur saura immédiatement via un message de retour.
  • (février 2007) il y a mise en place de la technique appelée greylisting. L'idée de base est que, pour être efficace, un malfaisant n'a pas le temps de gérer correctement les protocoles Internet: on lui met donc des bâtons dans les roues. Sachant que les vrais émetteurs de courrier = les serveurs officiels ne seront pas gênés.

Plus de détail sur le greylisting

Principe: les pannes étant toujours possibles, tous les protocoles Internet se doivent de savoir gérer des erreurs. Il y a:
  • des erreurs définitives: style un espace dans une adresse de mail, une adresse d'émetteur clairement inexistante (par exemple <personne@lesitequinexistepas.fr>).
  • et des erreurs temporaires: "plus tard, j'ai trop de travail", "je n'ai pas pu vérifier pour l'instant".
Le greylisting consiste à:
  • laisser rentrer de suite ce qui vient de sites connus. Depuis 2 mois avec du vrai trafic mail de 100 volontaires, avec des listes diffusées entre administrateurs de messagerie, avec des protocoles Internet style SPF, j'ai construit une liste de 800 sites émettant vers l'ENS:
    • les voisins style Paris 6, Paris 7, Ecole des Mines, EHESS, CEA, Sciences Po, etc.
    • les grands vendeurs de mail: Wanadoo, Free, Hotmail, Gmail, etc.
    • les sites universitaires fréquents: UCSD, Berkeley, Stanford, MIT, etc.
    • les industriels: Airbus, RATP, etc.
  • donner une erreur temporaire sinon: un spammeur laissera tomber, un vrai expéditeur de courrier insistera et passera.
    Il y a donc un léger retard sur le premier mail de la personne <A> à la personne <B@ens.fr> en effet, l'outil de greylisting aura appris lors du premier mail que <A> écrit à <B@ens.fr> et il fera alors passer directement un second mail de A vers B@ens.fr.
    Voir ci-dessous des commentaires d'entêtes détaillés.
Commentaires:
  1. cette technique est très très connue. Elle est pratiquée par jussieu.fr, espci.fr, u-tlse1.fr, ensmp.fr, lcpc.fr, bme.hu, environnement.gouv.fr, ac-toulouse.fr, cepam.cnrs.fr, cirm.univ-mrs.fr, cnrs-orleans.fr, econ.ku.dk, inpl-nancy.fr, sorbonne.fr, unifi.it, math.nsc.ru, supelec.fr, ujf-grenoble.fr, uvsq.fr, univ-evry.fr, univ-paris1.fr, univ-paris3.fr, etc.
  2. à voir si cette technique sera efficace dans le temps: le spam est une guerre, à chaque contre-mesure le spammeur répond en s'adaptant. Le possible futur de cette technique est qu'elle consomme beaucoup de ressources machines, donc que les grands vendeurs Internet (Free, Wanadoo, Hotmail, Gmail, etc.) ne peuvent pas l'appliquer pour des centaines de milliers de clients.
Référence: http://www.greylisting.org/articles/whitepaper.shtml

Quelques entêtes commentés

Si vous demandez dans votre outil de mail à voir les entêtes détaillés, vous y trouverez ce qui suit.

------------------------------
From: xxxxxxx xxxxxxx <xxxxxxx.xxxxxxx@univ-st-etienne.fr>
X-Greylist: Sender IP whitelisted, not delayed by milter-greylist-3.1.4, ...
Un mail venant de univ-st-etienne.fr n'a été retardé par aucun des 2 filtres, car l'adresse d'origine figure dans les 800 valides.
------------------------------

From: xxx-list <xxx-list@realvnc.com>
X-Greylist: Delayed for 01:16:09 by milter-greylist-3.1.4,...
Ceci est inconnu, et ce mail a été retardé de 1h16mn.
------------------------------

From: xxx-list <xxx-list@realvnc.com>
X-Greylist: IP, sender and recipient auto-whitelisted, not delayed by milter-greylist-3.1.4,...
Ce second mail de même origine a été reconnue, il est passé sans retard.

Page écrite par <Jacques.Beigbeder[arobase]ens[point]fr>