Ananas selber ziehen mit Detlef Römisch

aussperren ungebetener gäste – ip und länder bereiche sperren – htaccess und robots.txt

Wenn verschiedene Aktivitäten, Aufrufe oder Login-Versuche mit Abstand zahlreicher sind, als die Aktionen der normalen Besucher, kommt man recht schnell darauf, einige komische Zeitgenossen auszuschließen. Die meisten Webmaster machen sich die Mühe nicht, ich habe das notwendige know how mal zusammengetragen und wenn man weiß wie, ist es neuerdings einfacher, als man denkt.

Woran erkenne ich robots Aktivitäten

Am auffälligsten werden alle möglichen Robots durch das Plugin 404 to 301  (von Joel James) angezeigt. Das ist aber nur eine zufällige Nebenfunktion, denn dieses SEO-Plugin soll Besucher auf die Startseite umleiten, wenn sie einen nicht mehr existierenden Link der Website aufrufen. Statt der Fehlermeldung 404 „existiert nicht“ kommt eine Fehlermeldung 301 „dauerhaft umgezogen“ und es wird umgeleitet. Alle umgeleiteten IP-Nummern tauchen im Fehlerprotokoll auf. Da ist einiges zu finden, wie z.B. :

28 Mar 2016, 5:50 am

/g-engerling-rosenkaefer/index.html

N/A

207.46.13.184 Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
28 Mar 2016, 11:31 pm

/?author=1

N/A

91.200.12.18 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
29 Mar 2016, 9:11 am

/fc.webmasterpro.de/as_noscript.php?name=stotti-dd

N/A

86.123.244.196 Java/1.6.0_04
29 Mar 2016, 9:11 am

/fc.webmasterpro.de/counter.php?name=stotti-dd

N/A

86.123.244.196 Java/1.6.0_04
29 Mar 2016, 9:11 am

/commons.wikimedia.org/wiki/User:Heinz-Josef_L%c3%bccking

N/A

86.123.244.196 Java/1.6.0_04
  1.  der bingbot – seriös und erwünscht
  2. einer aus der Ukraine, der die Autorennamen abfragt. Wer auch immer er ist und ob der deutsch kann, sei dahingestellt.
    Nachtrag: bei Abfrage /?author=1 ists fast immer ein Sperrkanditat
  3. -5. jemand aus Romänien, der es genau wissen will. Zuerst benötigt er den Benutzernamen vom Besucherzähler, prüft dann ein eingebundenes Bild und zieht sich anschließend (nicht mit aufgelistet) Beiträge aus dem Feed. Mit „Java/1.6.0_04“ natürlich schön anonym. Mein Besucherzähler hat ihn ignoriert. Also Robot -> Pfeife, gesperrt.

Woran erkennt man ob Robot oder Besucher

Hat man das 401 to 301 Plugin installiert, gibt es eine einfache Methode, zu erkennen ob Besucher oder Robot: Taucht die IP unter den letzten aufgelisteten im Besucherzähler auf, ist es kein Robot. Zumindest, wenn man einen Zähler eingebunden hat wie stats4free oder flashcounter von webmasterpro (Besucherzähler wie statify oder multicounter zählen alles, sind für diesen Zweck ungeeignet).

Welches Plugin zum sperren von IP-Nummern

Nach o.g. Unterscheidung prüfe ich IPs, welche mir merkwürdig erscheinende Abfragen machen, auf den folgenden zwei Webseiten nach Herkunft und „Vorkommnissen“:
? greensnow.co  und ? ip-finder.me  (IP oben rechts eingeben)
Ergänzende Infos gibt ? heise.de

Zum Sperren unerwünschter IPs verwende ich momentan „IP Blacklist“ als Plugin. Es führt eine Blacklist, welche von Hand erweitert werden kann. Außerdem nimmt das Plugin automatisch Einbruchversuche nach dem 3. (einstellbar) falschen Paßwort in die Blacklist auf. Auch hier tummeln sich im Dunstkreis der Robots IP-Nummern diverse Schwachköpfe, vor der Verwendung einschlägig bekannter Paßwörter kann ich nur warnen. Hier ein paar aktuelle Beispiel-Aktivitäten:

47 52.62.84.82 1 Apr 01, 2016 log => stotti
pwd => pflanzenspass.de
wp-submit => Anmelden
redirect_to => http://pflanzenspass.de/wp-admin/
testcookie => 1
—————————
Neutral Blacklist IP
44 62.210.162.209 3 Mar 31, 2016 log => admin
pwd => admin
wp-submit => login
redirect_to => http://www.pflanzenspass.de/wp-admin/
—————————
log => admin
pwd => admin
wp-submit => login
redirect_to => http://www.pflanzenspass.de/wp-admin/
—————————
log => admin
pwd => @
wp-submit => login
redirect_to => http://www.pflanzenspass.de/wp-admin/
—————————
Blacklisted Blacklist IP
39 142.54.186.26 3 Mar 29, 2016 log => www.pflanzenspass.de
pwd => adminpwd
—————————
log => www.pflanzenspass.de
pwd => adminpw
—————————
log => www.pflanzenspass.de
pwd => admin
—————————
Blacklisted Blacklist IP
35 91.200.12.18 3 Mar 28, 2016 log => www.pflanzenspass.de
pwd => pass
—————————
log => www.pflanzenspass.de
pwd => !admin
—————————
log => www.pflanzenspass.de
pwd => admin
—————————
Blacklisted Blacklist IP

Der aktuellste Spaßvogel schlug genau jetzt beim schreiben des Beitrags hier auf. Paßwörter wie admin und 12345 sind an der Tagesordnung. Andere wie

  • !admin
  • adminpw
  • adminpwd
  • meinedomain.tld
  • pass
  • @

werden sogar manuell früher oder später erraten. Als Benutzername müssen meist der Autorenname oder meinedomain.tld , admin , administrator herhalten. Dreimal raten bis zur Sperrung ist natürlich zu wenig, aber man kann sicher sein, daß die Robots eine riesen Liste abarbeiten würden, wenn sie nur könnten.

Das Aufnehmen bzw. Sperren der bösen IP-Nummern funktioniert bisher gut, ist aber eine Endlos-Aufgabe, da derselbe Robot später mit anderer IP wieder vorbeikommen kann.

Anti-Robots-Plugin mit User selbst definierbaren Ausschlußkriterien

Interessanter weise scheint es noch kein Plugin zu geben, mit dem man einfach per Mausklick verschiedene Ausschlußkriterien festlegt. Alle Plugins, die ich finden konnte, sind eher auf Spam ausgelegt und/oder haben vordefinierte Kriterien, die zum Teil geheim sind, damit sie nicht unterwandert werden. Deshalb ist Handarbeit angesagt:

Positivliste und Negativliste

Fangen wir damit an, wen wir gern haben wollen oder brauchen:

Positivliste

  • die beiden großen Suchmaschinen auf jeden Fall: google, bing
  • Länder: alles deutschsprachige: D, A, CH
  • kleinere Suchmaschinen: yahoo, yandex
  • Amazon Alexa
  • Facebook, Twitter etc.
  • RSS-Feed
  • IP-Nummer der eigenen Website
  • ?IP-Nummernkreis des Providers?
  • ? Surfer aus Urlaubsländern : I, NL, F, GR    (?sortiert nach Priorität)

Negativliste

  • leerer oder nichtssagender User-Agent
  • auffällige Länder: z.B. RO, UA, CA, SE
  • Seo-Tools:
  • Websitekopierer: httrack etc.

Die Eingrenzungskriterien sind also:
IP-Nummer u. Bereiche, Länderkennung, Header bzw. User-Agent.
Umsetzungsmöglichkeiten bieten: die .htaccess und robots.txt

Länderkennungen in .htaccess verwendbar

Die wichtigste Erkenntnis ist, daß man inzwischen in der .htaccess anstelle von IP-Nummern auch Länderkürzel oder Dominname angeben kann. Apache-Server unterstützen dies, wenn es vom Provider so installiert wurde. Testen läßt sich die Sache, indem man seine eigene Länderkennung in via .htaccess sperrt. Dann sollte die Website nicht mehr aufrufbar sein; mit der eigenen IP kann man den Funktionstest auch machen.

Sperren klein anfangen, langsam ausweiten

Ich bin mir sicher, daß es nicht nötig ist, JEDES Länderkürzel in der .htaccess einzugeben. Man kann davon ausgehen, daß vieles schon providerseitig ausgeschlossen wird. Es scheint daher naheliegend, statt einem großen Rundumschlag eher klein anzufangen, dafür aber mit Durchblick in den Details. Bei Sperrungen ist immer die Positiv-Liste im Hinterkopf zu behalten.

  • USA betreffende Sperren sind wg. der namhaften Suchmaschinen sehr mit Vorsicht zu genießen
  • Zielgruppe deutscher Sprachraum bleibt erstmal kpl. offen

… und der Rest kann eigentlich weg, oder ❓

weiter zu Teil 2: aussperren – was konkret tun


zuletzt aktualisiert am 22.04.2016

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.