Hintergrundwissen Spamfilter – wie arbeiten sie?

Im diesem Beitrag sehen wir uns einmal genauer an, woher die Filter überhaupt wissen, was Spam ist und was nicht.

Kriterien

Um Spam zu erkennen, wertet der Spamfilter Folgendes aus:

  • den Absender (Mailadresse)
  • den Server, über den die Mail kommt
  • Informationen aus dem Header (dazu gleich mehr)
  • den Inhalt der Mail

Der Header wird dem Empfänger der Mail normalerweise nicht angezeigt. Er enthält Informationen über den Absender, über die Mailadresse, an die Antworten gehen sollen, über welche Server die Mail gekommen ist, welches Format der Inhalt der Mail hat und einiges mehr.

Methoden

Es gibt viele Ansätze, wie der Filter erkennt, was Spam ist und was Ham. (“Spam” ist ja eigentlich Dosenfleisch, “Ham” steht für hochwertigen Schinken, also erwünschte Mails.)

Blacklist (Negativliste) von Absendern

Schwarze Listen sind eine einfache Methode, um unerwünschte Massen-Werbemails herauszufiltern. Mails, die von Absendern kommen, die hier drauf stehen, werden geblockt. Der Haken: erstens lassen sich die Absender relativ leicht fälschen. Zweitens nutzen die berufsmäßigen Spammer immer wieder neue Absenderadressen.

Die Qualität dieses Ansatzes steht und fällt also mit der Aktualität der Blacklist. Diese muss regelmäßig von Menschen gepflegt werden.

Whitelist (Positivliste) von Absendern

Der umgekehrte Ansatz zur Schwarzen Liste ist eine Positivliste mit Absendern, von denen man sicher ist, dass sie keinen Spam verschicken. Das kann nie eine vollständige Liste sein, sonst könnte man ja niemals eine Mail von einem Nutzer bekommen, der eine neue Mailadresse hat oder den man noch gar nicht kennt.

Für den deutschsprachigen Raum gibt es die Certified Senders Alliance (CSA). Das ist ein Projekt des Verbands der deutschen Internetwirtschaft eco in Kooperation mit dem Deutschen Dialogmarketing Verband. Hier können sich Versender von Massenemails registrieren lassen. Sie verpflichten sich dann, bestimmte Qualitätskriterien einzuhalten, die sicherstellen, dass nur erwünschte Mails verschickt werden. Deren Einhaltung wird regelmäßig überprüft. Im Gegenzug verpflichten sich die teilnehmenden Mailpovider, Mails dieser Absender in jedem Fall an die Adressaten zuzustellen. Die Provider sparen sich dadurch den Aufwand der Filterung und es werden falsch positive Ergebnisse vermieden (also fälschlicherweise als Spam eingestufte Mails).

Wie arbeiten Spamfilter?

Bei den meisten folgenden Methoden werden Punkte vergeben. Für jedes Spam-Merkmal bekommt die Mail einen oder mehrere Punkte, je nachdem wie eindeutig dieses ist. Erreicht die Mail eine bestimmte Punktzahl, wird sie als Spam gewertet.
Dieses Vorgehen ist nötig, weil eine hundertprozentige Spamzuordnung nie nach einem fixen Schema erfolgen kann. Ansonsten wäre es zum Beispiel unmöglich, in einer eMail über manche Medikamente, über Sex oder über teure Uhren zu schreiben, ohne dass diese Mail als Spam eingeordnet würde.

Blacklist von Merkmalen

Der wichtigste Punkt für Marketer sind die Merkmale, die auf der schwarzen Liste der Spamfilter stehen. Denn hier hat man am meisten Einflussmöglichkeiten. Hier können Sie mit jeder einzelnen Mail dafür sorgen, dass Sie die Wahrscheinlichkeit verringern, dass Ihre Mails als Spam aussortiert werden.

Solche Merkmale können den Header betreffen, es können die Absendezeit oder die Absendeadresse sein. Am wichtigsten sind aber die Inhalte von Betreff und eMail-Text.
Bestimmte Begriffe und Formulierungen, die immer wieder in Spam vorkommen, landen auf der Schwarzen Liste der Spamfilter.

Einfache Filterregeln lassen sich aber leicht umgehen: Statt

Viagra

Schreibt man

V!agra

Nachdem der Empfänger aber immer noch erkennen soll, worum es geht, sind die Variationsmöglichkeiten begrenzt. Diese kann man auch auf die Blacklist aufnehmen, und so lassen sich Listen erstellen, die Spam recht zuverlässig erkennen.

Allerdings müssen die Listen laufend aktualisiert werden. Es herrscht ein ständiger Wettlauf zwischen Spammern und Filter-Betreibern.

Beispiel Spam Assassin

Ein bekanntes Programm zum Herausfiltern von Spam ist SpamAssassin. Es ist freie Software und kann kostenlos verwendet werden. Es lässt sich sowohl lokal zum Filtern der eMails auf einem Benutzerrechner einsetzen wie auch auf einem Server installieren.

Kern des Programms sind Schwarze Listen von Ausdrücken, die in aktuellen Spam-Mails vorkommen. Diese werden regelmäßig von Hand gepflegt. Es lohnt sich, einen Blick darauf zu werfen, wenn man selbst Newsletter schreibt. Ein paar Beispiele für diese Regeln, die auf Spam schließen lassen:

  • Nachricht enthält 80 bis 90 Prozent Leerzeilen
  • Betreff enthält den Begriff “Valium” mit Leerzeichen zwischen den Buchstaben
  • Nachricht enthält den Text “no prescription needed”
  • angegebenes Versanddatum liegt vor dem aktuellen Datum

Insgesamt sind es über 700 solche Regeln. Manche haben eine sehr geringe Gewichtung von 0,001, andere eine sehr hohe von 4. Das bedeutet, nur weil Ihre Mail ein paar Punkte bekommt, deshalb wird sie noch lange nicht gleich als Spam eingestuft.

Screenshot Evalanche Test mit SpamAssassin

In Evalanche können Sie Ihre Mails vor dem Versand von SpamAssassin prüfen lassen.

Die ganzen Regeln können Sie auf der Site von SpamAssasin nachlesen.

Lernende Filter – Bayes

Die Arbeit, den Spamfilter laufend anzupassen kann man auch an die Empfänger der eMails abgeben. Der Nutzer “trainiert” den Filter also dadurch, dass er ihm sagt, was Spam ist und was nicht. Daraus leitet der Filter Regeln ab und wird so immer besser. Nach einigen hundert Mails schafft er eine Erkennungsquote von über 95 Prozent – das heißt, der Benutzer bekommt nur noch 5 Prozent des Spams.

Diese Technik heißt Bayes-Filter, nach dem Statistiker Thomas Bayes. Vereinfacht funktioniert ein Programm, dass nur auf diese Technik setzt, so: Es kann ersteinmal keine einzige Spam-Mail erkennen. Nach der ersten, die der Nutzer als Spam markiert, analysiert es die Wörter darin. Es vergleicht sie dann mit den weiteren Mails, die als Spam markiert werden. Je häufiger die einzelnen Wörter in allen bisher markierten Mails vorkommen, desto eher wertet sie das Programm künftig als Spam-Merkmale.

Sonderfall gemeinsames Filtern

Das Filtern muss man nicht ganz alleine tun. Die großen Mailprovider wie Google oder 1&1 werfen die Ergebnisse ihrer Nutzer in einen Topf. Das heißt, jeder Nutzer trainiert den Spampfilter für alle anderen Nutzer mit. So kommen auch diejenigen, die selbst nie Spam markieren in den Genuss einer Filterung.

Datenbanken

Ziel jeder Spammail ist, dass der Empfänger Kontakt mit dem Absender aufnimmt. Fast immer soll das über einen Link passieren. Der Ansatz der Datenbanklösung ist, die Ziellinks aus den Spammails in Datenbanken zu erfassen. Diese lassen sich nicht fälschen – denn sonst würde der Klick ja nicht zum Spammer führen. Natürlich kann man die URLs beliebig variieren, aber zumindest die Domain (www.bespielspammer.de etwa) kann man nicht beliebig ändern. Denn jede Domain kostet Gebühren und muss einzeln von Hand angemeldet werden.

Fazit

Nachdem der Wettlauf zwischen Spamerkennern und Spamversendern ständig weiterläuft, müssen Sie aufpassen, nicht unschuldig als Spammer erfasst zu werden. Was Sie daher beachten sollten, darum wird es im nächsten Blogbeitrag gehen.




Keine Kommentare möglich.