Ananas selber ziehen mit Detlef Römisch

mehrfacher content – risiko beseitigen im wordpress – duplicate content finden

Gleich das erste, was ich über WordPress las, war eine Meinung mit der Behauptung, daß dieses CMS ein System wäre, welches massenhaft doppelten content produziert.Mich hielt das damals nicht ab und ich bin begeisterter Nutzer von WordPress. Die Problematik duplicate content wurde erst später aktuell. Nachfolgend ein paar Hinweise, wo er entstehen kann und warum.

duplicate content finden = Interessenfrage ?

Folgt man der normalen Logik, dann müßte es eigentlich so sein, daß Suchmaschinen bestrebt sind, mehrfachen content zu erkennen und Duplikate aus den relevanten Suchergebnissen herauszufiltern. Was wäre da leichter, als von vorn herein suchmaschinenseitig diese Fehlerstellen zu finden? Es gibt diese kleine Hand voll meistgenutzte CMS und deren typische Problemzonen sind bekannt. Es dürfte also technisch kein Thema sein, diese typischen Inhalte schadlos aus den Suchergebnissen zu eliminieren, die versehentlich oder softwareabhängig erscheinen ?

Lange Zeit bin ich davon ausgegangen, daß das auch so ist, denn darüber müßten sich schon ganz andere Leute Gedanken gemacht haben. Bis mich eines Tages ein paar Details nachdenklich stimmten. Ob etwas dran ist oder nicht, ist jedoch erst dann egal, wenn man das Problem ausklammern kann. Also tun wir genau das:

Wo entsteht der doppelte content

inzwischen sollten die WordPress-spezifischen Quellen für den doppelten content klar:

  • …/category/
  • …/author/
  • …/tag/      …sind die drei typischsten. Weiterhin:
  • …/comments/feeds/
  • …/feeds/
  • … was mglw. noch nicht Anspruch auf Vollständigkeit erhebt.

mit einer Abfrage wie
—– >> einBesonderesKeywort site:“meinedomain.de“ <<
in der Suchmaschine werden die o.g. Quellen leicht sichtbar. Und glaubt man nun den offiziellen Äußerungen, dann teilt sich das Ranking bei mehrfach vorhandenen Inhalten auf. Für jeden der betroffenen Inhalte hätte das dann natürlich ein schlechteres Ranking zur Folge.

Ein Beitrag, der unter der Beitrags-url aufgerufen werden kann, taucht also gleichzeitig in voller Länge zusätzlich auf:

  1. nochmal in der Auflistung in der category-url UND
  2. in der Auflistung aller Beiträge des Autors UND
  3. im Feed UND
  4. evtl. unter den tags, wenn ein Schlagwort vergeben wurde

!!! Wenn ich richtig gezählt habe, liegen neben dem Orginal-Beitrag 4 Duplikate vor. Und das ist die Konstellation für den Minimal-Zustand. Wenn im Zweifelsfall mehrere Kategorien angeklickt oder mehrere Schlagwörter vergeben wurden, kommt da nochmal 50% dazu. Ist www.meinedomain.de nicht ordentlich umgeleitet auf meinedomain.de, dann verdoppelt sich die Anzahl der ohnehin bestehenden Duplikate nocheinmal und es würden davon über 10 Stück vorliegen.

Was natürlich eigentlich Unsinn ist, denn es handelt sich um ein und denselben Inhalt, der auf mehreren Wegen erreichbar ist. Die vermeintlichen Duplikate werden nur erstmal vorbeugend unterstellt, denn sicher gab es schon zahlreiche „Experten“ mit unlauteren Absichten.

Wer was will muß sich drehen?

Über diese Situation sollte sich jeder Webmaster zumindest Gedanken machen, nur für mich zwei Fragen offen:

  • Wer und warum crawlt so etwas offensichtlich doppeltes  weiter ? Bei einem der meistgenutzten CMS…
  • Wenn scheinbar offensichtlichen duplicate produzierende URLs trotzdemweiter gecrawlt (und gewertet?) werden, warum unterbindet das der Hersteller des CMS nicht einfach durch eine Software-seitige Lösung?

Hier steht m.E. die Frage der Zuständigkeit und des längeren Hebels im Raum. Die Nachteile bleiben evtl. momentan an dem Webmaster hängen, der zu sorglos ist und darauf vertraut, daß über diese eigenartige Situation schon ganz andere Leute nachgedacht haben müßten.

duplicate content per robots.txt vermeiden

Der einfachste Weg, das Problem anzugehen, ist das Anlegen einer eigenen robots.txt im Stammverzeichnis des Servers. Es soll auf WordPress-Seite sogar eine bestimmte Empfehlung dazu geben, aber im Programm enthalten ist sie eben nicht.
Diese robots.txt könnte dann etwa so aussehen:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /wp-content/plugins
Allow: /wp-content/cache/scripts/
Disallow: /wp-content/cache
Disallow: /category
Disallow: /tag
Disallow: /author
Disallow: /trackback/
Disallow: /*trackback
Disallow: /*trackback*
Disallow: */trackback/
Disallow: /*/trackback
Disallow: /*?*
Disallow: /*.html/$
Disallow: /feed/
Disallow: /*feed*
Disallow: /comments/
Disallow: */comments/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://www.meinedomain.de/sitemap.xml

Die typischen Kandidaten sind blau markiert und damit leicht wiederzuerkennen. Da bei der momentan scheinbar gemischten Interessenlage Veränderungen nicht auszuschließen sind, empfehle ich die gelegentliche Suchmaschinen-Nutzung zum Stichwort

empfohlene robots.txt für wordpress

Hierzu sind möglicherweise in naher Zukunft ein paar Veränderungen zu erwarten.


zuletzt aktualisiert am 04.02.2016

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.