Hilfe:Spam

Aus dem Rhein-Neckar-Wiki
Version vom 9. Januar 2011, 04:25 Uhr von Rabe (Diskussion | Beiträge) (Weblink auf www.spam.com, SCNR!)
Zur Navigation springen Zur Suche springen

Was ist Spam?

In der sogenannten realen Welt ist Spam der Markenname für ein Frühstücksfleisch aus der Dose, hergestellt von der Firma Hormel Foods Inc[1]. Dieses Frühstücksfleisch ist ein zentrales Element des Spam-Sketches[2] der englischen Komikergruppe Monty Python. Aufgrund dieses Sketches wurde im Bereich der Online-Medien der Begriff Spam synonym für unerwünsche, massenhafte Kommunikation, vor allem bei E-Mails.[2].

Formen von Onlinespam

Spam ist im Internet ursprünglich Synonym für unerwünschte E-Mails. Der Begriff hat sich im WWW zunächst erweitert um die Bedeutung Suchmaschinen-Spamming. Ziel von Suchmaschinen-Spamming ist es, bestimmte Webseiten von möglichst vielen anderen Webseiten aus mit bestimmten Schlüsselbegriffen zu verlinken, um die Chance zu erhöhen, dass man der der Websuche nach einem dieser Schlüsselbegriffe dann nicht auf einer der vielen Webseiten landet, sondern direkt auf der Webseite, die von allen anderen Seiten aus verlinkt ist, auch bekannt als Linkfarming[3].

Manche WWW-Angebote erlaufen es Benutzern eigene Inhalte abzuspeichern, die dann wiederum als Teil einer Webseite angezeigt werden. Bekannte Funtkionen aus der pre-Web 2.0-Zeit sind Gästebucheinträge auf Webseiten oder Beiträge in Webforen.

Seit Web 2.0 erweitert sich dieses Feld um Weblogs (Blogs), wo es häufig Kommentarfunktionen gibt, die etwa Gästebucheinträgen entsprechen und vor allem um Webangebote, bei denen das Mitmachen zentraler Bestandteil ist wie bei Wikis. Weitere weniger bekannte Mitmachangebote sind collaborative Tools wie pastebin. Verstärkt wird das ganze noch, wenn einzelne Beiträge per XML-Feed angeboten werden und auf vielen anderen Webseiten dann eingebunden werden.

Alle Mitmachformen haben gemeinsam, dass sie einerseits als Bestandteil des World-Wide-Webs öffentlich angezeigt werden (im Gegensatz zu E-Mails, die jeder Benutzer nur selbst sieht, Ausnahmen: Mailinglistenarchive im WWW) und dass man in den selbst erstellten Inhalten auch Weblinks hinterlassen kann, also unterm Strich, dass man als (anonymer) Benutzer Inhalte und Weblinks auf fremde Webseiten plazieren kann. Man könnte es auch outgesourctes LinkfarmingReferenzfehler: Für ein <ref>-Tag fehlt ein schließendes </ref>-Tag., abgeleitet von Robot), der eine vordefinierte Liste von Webforen, Wikis und Gästebüchern abarbeitet und überall vollautomatisch einen Eintrag hinterlässt. Hier muss aber jemand diese Liste pflegen und ein einzelner Rechner braucht sehr lange, um hunderte oder tausende Foren oder Wikis zu beladen. Die Generierung von Listen muss man also automatisieren (zum Beispiel indem Suchmaschinen verwendet werden) und die Beladung aller Präsenzen verteilt man auf viele untereinander vernetzte Rechner (Botnetz[4]). Da viele Rechner viel Geld kosten, versuchen professionelle Botnetzbetreiber durch (wiederum automatisierte) Hackerangriffe auf PCs und Server im Internet viele Rechner unter ihre Kontrolle zu bringen, die dann im Auftrag bestimmte Funktionen ausführen, zum Beispiel Generieren von Linklisten, Angriffe auf Server und PCs im Internet, verschicken von E-Mails (Spam zwecks Linkverbreitung und Mailviren zwecks Vergrößerung des Botnetzes), oder zur Koordination aller Systeme untereinander (Botnetz-Master).

Schadsoftware, die nicht nur ein Zielsystem angreift, sondern das Zielsystem vor allem dazu missbraucht, um sich selbst weiter zu verbreiten, kennt man auch unter dem Begriff Wurm. Ein Wurm verbreitet und vermehrt sich selbst ohne weitere Interaktion und meist ohne zentrale Kontrolle. Der Teil des Wurmes, der darüber hinaus eine Aufgabe erfüllt, zum Beispiel Weblinks verbreiten, Mails verschicken oder Passwörter oder Onlinebanking-Transaktionen mitlauschen ist dann der eigentliche Schadcode.

Weltweit gibt es Millionen von infizierten PCs und Servern, die verschiedene Funktionen als Bots wahrnehmen, in der Regel ohne das Wissen der Besitzer der Systeme. Diese Botnetze werden durch ihre Betreiber kommerziell vermarktet, etwa wenn ein Auftraggeber billig 10 Millionen E-Mails verschicken will, seine Webpräsenz die zum Beispiel ein Lifestylemedikament (Potenzmittel etc) anbietet per Suchmaschinen-Spamming bekannter zu machen oder einfach nur um weiteren Schadcode zu verbreiten.

Wiki-Spam?

Als Betreiber eines Wikis ist man also ständig der Gefahr ausgesetzt, dass automatisierte Zugriffe durch Bots erfolgen. In der Regel wird dabei versucht ein Weblink auf eine fremde Webseite zu setzen. Als Betreiber möchte man das allerdings unbedingt vermeiden, denn ein spamverseuchtes Wiki ist so attraktiv für seine Gäste und Benutzer wie eingeworfen Fensterscheiben im Wohnviertel für dessen Bewohner[5].

Um Wikispam zu entfernen, muss man die betroffenen Artikel (im einfachsten Fall) auf eine ältere Version zurücksetzen. Der Aufwand beträgt hier ungefähr 30 Sekunden für einen geübten Anwender oder Administrator. WikiSPAM ist allerdings sehr häufig und das bedeutet für die Stadtwiki:Administratoren häufig einen großen Aufwand für die Beseitigung der Spuren und die Wiederherstellung von Artikeln nach Angriffen und das Recherchieren und Pflegen von IP-Blocklisten und so weiter.

Es gilt also, Spam möglichst schon von vornherein zu vermeiden.

Strategien zur Abwehr

Es gibt verschiedene Gegenmaßnahmen, die aber ein Akzeptanzproblem der menschlichen Benutzer nachsich ziehen.

Weblinks verbieten

Der einfachste Weg: man erlaubt keine Weblinks mehr bzw. stellt sie nicht mehr dar. Anwender können keine Quellen mehr verlinken, was für ein Online-Lexikon nicht akzeptabel ist!

Vorteil
sehr einfach umzusetzen
Nachteil
Für ein Onlinelexikon nicht geeignet

Mensch vs. Maschine

Man prüft bei jedem Abspeichern eines Inhaltes, ob der Zugriff durch einen Mensch oder durch eine Maschine (bzw. Computeralgorithmus) erfolgt. Dazu stellt man eine Aufgabe, die nur ein Mensch einfach lösen kann, eine Maschine jedoch nicht. Bekannt ist das als CAPTCHA (=Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart).[6]. Die Akzeptanz der Anwender ist hier allerdings auch nicht sehr hoch, da man im Regelfall bei jedem Zugriff eine Aufgabe lösen muss. Sowas nervt.

Vorteil
Für Anwender bekannte Methoden
Nachteile
  • nicht barrierefrei
  • stört alle Anwender auch wenn keine Weblinks gespeichert werden sollen, vor allem Vielschreiber
  • relativ hoher Programmieraufwand oder für Integration bestehender Techniken
  • künstliche Intelligenzen werden immer besser, die für den Mensch zu lösende Komplexität höher

Weblinksyntax ändern

Alternativ kann man die Syntax verändern, mit der üblicherweise Weblinks erzeugt werden. Im Rhein-Neckar-Wiki wird der generische Weg, Weblinks zu speichern generell als SPAM blockiert. Das sieht dann so aus:

Achtung: Spamfilter
URL nicht erlaubt
Fehler
Die Seite, die Du speichern willst, wurde vom Spamschutzfilter blockiert.
Ursache
Das liegt wahrscheinlich an einem Link auf eine externe Seite (URL) im Artikelquelltext.
Schnelle Abhilfe
Bitte gehe zurück auf die Artikeleingabe und verwende bitte für alle Links auf externe Webseiten ersatzweise die Vorlage:Weblink (Anwendungsbeispiele gibt es dort) oder Vorlage:Homepage sofern anwendbar.
Hintergründe
zusammengefasste Informationen zum Spamfilter und Weblinks im Rhein-Neckar-Wiki unter Stadtwiki:Spamschutz.
Allgemeine Hintergründe zum Thema Spam unter Hilfe:Spam
Allgemeine Hintergründe zum Thema Weblinks unter Hilfe:Weblinks

Unter Hilfe:Weblinks ist sehr ausführlich erklärt, welche Formen von Weblinks es grundsätzlich gibt und wie man Weblinks im Rhein-Neckar-Wiki anwenden muss.

Hier ist die Aufgabe für den Benutzer, die Anleitung zu lesen, zu verstehen und das gelernte richtig anzuwenden. Diese Hürde ist für intelligente und motivierte Benutzer einfach zu nehmen, ein Computeralgorithmus müsste den Text lesen, richtig verstehen und daraufhin seine Methode passend verändern. Da dies sehr aufwendig ist, wird es vermutlich so schnell keinen Bot geben, der vollautomatisch Weblinks ins Rhein-Neckar-Wiki speichern kann, außer jemand entwickelt einen Bot speziell für dieses Wiki. Das dürfte sich für professionelle Botnetzbetreiber aber kaum lohnen, lediglich Menschen, die gezielt dem Rhein-Neckar-Wiki schaden wollen würden diesen Aufwand treiben (Motivation).

Vorteile
  • Weblinks werden durch die passenden Vorlagen gleich in einheitliche Formen gebracht
  • Externe Links können bei sich ändernder Rechtslage (Haftung für Weblinks) schnell und einheitlich an neue Anforderungen angepasst werden
Nachteile
  • Wikiaktivisten aus anderen Projekten (Wikipedia, andere Stadtwikis) müssen sich umgewöhnen, betrifft vor allem die Vielschreiber
  • Copy-Paste von Artikelquelltext aus anderen Projekten bzw. die Übernahme von Vorlagen aus anderen Wikis wird erschwert
  • Bestehende Weblinks müssen bei nachträglicher Einführung nachträglich konvertiert werden, was ein sehr hoher Aufwand sein kann!

Hybride Lösungen und Heuristiken

Denkbar wäre eine Hybridlösung, die den Weblink-Spam-Blocker kombiniert mit einer CAPTCHA-Methode. Hier müsste ein Anwender sich zum Beispiel einmal pro Tag als Mensch beweisen indem er beispielsweise eine Aufgabe löst. Man könnte dann die IP-Adresse des Benutzers oder ein speziell gesetztes Cookie dazu verwenden, um den Spamblocker selektiv abzuschalten. Das würde die Akzeptanz bei regelmäßigen Vielschreibern im Wiki erhöhen, allerdings könnten diese Anwender dann Weblinks einbauen, die von anderen Autoren nicht geändert oder gespeichert werden könnten, denn der Spamblocker wirkt nicht nur bei neu eingegebenen Weblinks sondern auch wenn man einen Artikel, der einen Weblink bereits enthält beim Speichern einer Änderung. So gesehen wäre diese Ausnahme für Vielschreiber zwar eine gewisse Erleichterung, würde das generelle Problem aber für die Gelegenheitsnutzer verschlimmern.

Vorteil
höhere Akzeptanz bei Vielschreibern
Nachteil
Artikel mit herkömmliuchen Weblinks können durch Gelegenheitsnutzer nicht abgespeichert werden, selbst wenn sie keinen Weblink selbst eingebaut haben, Akzeptanzproblem bei Gelegenheitsnutzern

Wikilink-Fix-Bot

Als Abhilfe für die Probleme bei der obigen Hybridlösung käme wiederum ein Bot in Frage, der permanent bei allen gespeicherten Artikeln prüft, ob ein autorisierter Mensch-Benutzer einen Weblink gespeichert hat und diesen in die geänderte Syntax konvertiert. Das ist aber grundsätzlich aufwendig und prinzipiell fehlerbehaftet.

Vorteil
Würde die Nachteile der Hybridlösung automatisiert ausgleichen
Nachteile
  • sehr hoher Aufwand für die Implementierung
  • hohe Komplexität
  • Fehleranfälligkeit

siehe auch


Weblinks

Quellen und Hintergrundinformationen