Duplicate Content

Unter Duplicate Content, oder auch doppelter Inhalt genannt, versteht man Inhalte, welche über mehrere URLs erreichbar sind. Das kann innerhalb der eigenen Webseite, aber auch zwischen fremden Webseiten auftreten. Duplicate Content sollte auf jeden Fall vermieden werden. Jeglicher Inhalt einer Webseite darf nur über eine einzigartige URL erreichbar sein. Denn wenn mehrere URLs den gleichen Inhalt anzeigen, kann sich Google nicht für eine URL entscheiden und verhindert damit eine gute Position in den Suchergebnissen.

Was ist Duplicate Content?

Wie bereits angeteasert, steht Duplicate Content für doppelter Inhalt. Es beschreibt das bestehen von gleichen Inhalten auf unterschiedlichen URLs. In groben Zügen kann man zwei verschiedene Situationen unterscheiden.

Externe Duplicate Content

Hier gibt es mehrere Szenarien. Zum einen kann es sein, dass jemand die Webseite ganz einfach kopiert. Sprich, die Inhalte von einer Webseite auf seiner eigenen 1:1 veröffentlicht. Das Ganze kann auch automatisiert passieren, es gibt z.B. News Seiten, welche Inhalte von anderen Webseiten Crawlen und dann auf Ihrer eigenen Seite veröffentlichen. Grundsätzlich kann ich den Inhaber oder Schöpfer des Inhaltes beruhigen. Google weiss in der Regel, wo der Inhalt zuerst veröffentlicht wurde – entsprechend erhält auch dieser die Lorbeeren. Um ganz Sicher zu gehen, kann man dies natürlich prüfen. Nehmen Sie 2-3 Sätze aus Ihrem Inhalt, kopieren diese in Google und schauen sich die Ergebnisse an. Wenn andere Webseiten mit den genau gleichen Sätzen erscheinen, werden Sie wohl oder über kopiert. Um ganz sicher zu gehen, können Sie technisch das Crawling auch unterbinden. Dafür müssen Sie den Bot ausfindig machen, welcher Ihre Inhalt abgreift. Mit der Robot.txt können Sie diesen dann entsprechend aussperren. Das geht natürlich nur, wenn es automatisiert von statten geht.

Als externer Duplicate Content zählen auch verschiedene Sprachversionen einer Webseite, wenn diese in der selben Sprache daherkommen. Als Beispiel: Sie betreiben Onlineshop.ch sowie Onlineshop.de und Onlineshop.at. Haben diesen 3 Domains den gleichen Inhalt, dann konkurrenzieren sie sich im schlechtesten Fall selber.

Interne Duplicate Content

Der interne doppelte Inhalt ist etwas leichter mit folgender Grafik erklärt. Er tritt auf, wenn der Inhalt einer Webseite über verschiedene URLs aufrufbar ist.

Interner Duplicate Content

Bild: Backlinko.com

In dieser Situation weiss die Suchmaschine nicht, welche Seite nun indexiert werden soll. Im schlechtesten Fall schwächt es alle zwei respektive drei Versionen ab.

 

Der Unterschied zwischen interner und externer Duplicate Content

Externer Duplicate Content: Domain unabhängig, tritt also zwischen verschiedenen Webseiten auf

Interner Duplicate Content: Gleicher Inhalt innerhalb einer Webseite, erreichbar unter unterschiedlichen URLs

 

Beispiel interner Duplicate Content

Bei meinem Onlineshop hatte ich z.B. folgendes Beispiel:

Die Produkte waren jeweils automatisch unter zwei verschiedenen URLs erreichbar. Und es bestand von „Haus aus“, keine Weiterleitung oder kein Canonical Tag auf einer „Hauptversion“. Die Produktseite war unter folgenden URLs erreichbar:

  1. Onlineshop.ch/kategorie-1/produkt-1
  2. Onlineshop.ch/produkt-1

Die Kategorieseite erschien, wenn ein Nutzer über das Menü navigiert hatte. Bei der Suchfunktion tauchte aber die Produktseite ohne vorangestellte Kategorie auf. Entsprechend wurden beide URLs indexiert und die Produktseiten konnten nie ein gutes Ranking aufbauen. Ebenfalls musste in der internen Verlinkung ebenfalls oft korrigiert werden, da jeder „wie es Ihm passt“ verlinkt hat. Das Problem konnten wir schlussendlich mit einer Anpassung der Konfiguration auf nur noch eine URL lösen.

 

Ausnahmen Duplicate Content

Wie bereits weiter oben erwähnt, werden verschiedene Sprachen nicht als Duplicate Content („DC“) betrachtet. Als Ausnahme gelten ebenfalls Zitate, welche mit dem html Element <blockquote> ausgezeichnet werden.

Dieser Zitat gilt z.B. nicht als Duplicate Content, weil es von Blockquote umgeben ist – Sandro 13.05.2019 😉

 

Ist Duplicate Content ein Problem?

Definitiv Ja. Google liebt einzigartige Inhalte welche Mehrwert liefern. Was hat ein Text, der schon mal veröffentlicht wurde, für einen Mehrwert? Das wäre, also ob Harry Potter Teil 1 mit gleichem Inhalt als Larry Potter Teil 1 veröffentlicht würde. Das würde ja auch niemanden interessieren, oder?

Ebenfalls kann laut Sistrix der Duplicate Content für Schwankungen in den Suchergebnissen verantwortlich sein. Das hat den Grund, das Google nicht einschätzen kann, welche Seite nun angezeigt werden soll.

Im Video von Google selbst gibt es noch ein paar mehr Informationen wie die Suchmaschinen mit „DC“ umgeht.

 

Wie finde ich Duplicate Content?

Ein einfacher Weg, um Duplicate Content auf der eigenen Webseite zu finden, ist die Site: Abfrage in Google selbst. Mit dieser Abfrage werden alle Ergebnisse einer Domain im Index von Google angezeigt.

Google Site Abfrage

Oben links steht nun die totale Anzahl Seiten welche sich zu dieser Domain im Index befinden.

Ergebnisse yep.swiss

 

YEP hat also rund 447 Seiten im Google Index. Dies kann ebenfalls durch die Google Search Console überprüft werden.

Index Search Konsole

 

In der Google Search Konsole haben wir aktuell noch rund 130 Seiten weniger, das liegt daran, dass wir kürzlich einige neue Inhaltsseiten veröffentlicht haben. Da dauert es jeweils einige Tage, bis diese auch in der Search Console auftauchen.

Wenn man nun diese Zahlt hat, kann man diese mit der Anzahl veröffentlichter Seiten vergleichen. In der Regel sollte diese übereinstimmen. Falls diese Zahl nun irgendwo bei 1000+ wäre, läge wahrscheinlich ein Duplicate Content Problem vor.

 

Tools um Duplicate Content zu finden

Es gibt einige Tools, welche ein Feature für Duplicate Content besitzen. So zum Beispiel Siteliner.

Siteliner DC Check

 

Aber Achtung: Footer, weitere Blog Previews, Author Boxen oder Navigation werden ebenfalls als Duplicate Content gezählt. Hier also mit Vorsicht geniessen und die Ergebnisse manuell überprüfen und wenn möglich beheben.

Wie behebe ich Duplicate Content

Canonical Tag

Der rel=canonical tag weisst die Suchmaschine auf den Originalen Content hin. Damit könnten z.B. gesagt werden: Hier ist Seite B, diese hat aber fast den gleichen Inhalt wie A -> A ist das Original, bitte B ignorieren.

Canonical Tag

Quelle: worrank.com

Hier das Statement von Google zu den Canoncial Tags

Warum sollte ich eine kanonische URL auswählen?

Es gibt zahlreiche Gründe, weshalb Sie explizit eine kanonische Seite aus mehreren doppelten/ähnlichen Seiten auswählen sollten:

  • Um festzulegen, welche URL in den Suchergebnissen angezeigt werden soll. Möglicherweise bevorzugen Sie es, wenn die Nutzer Ihre Produktseite mit den grünen Kleidern über den Link https://www.example.com/kleider/gruen/grueneskleid.html aufrufen anstatt über https://example.com/kleider/cocktail?gclid=ABCD.
  • Um Linksignale für ähnliche oder doppelte Seiten zusammenzufassen. Es ist hilfreich für Suchmaschinen, wenn sie die verfügbaren Informationen zu den einzelnen URLs, etwa zugehörige Links, zu einer einzigen, bevorzugten URL konsolidieren können. Das heißt, Links von anderen Websites zu http://example.com/kleider/cocktail?gclid=ABCD werden mit Links zu https://www.example.com/kleider/gruen/grueneskleid.html zusammengefasst.
  • Um Messwerte für ein einzelnes Produkt oder Thema leichter erfassen zu können. Wenn mehrere URLs vorhanden sind, ist es schwieriger, konsolidierte Messwerte für einen bestimmten Inhalt zu generieren.
  • Um syndizierte Inhalte zu verwalten. Wenn Sie Ihre Inhalte zur Veröffentlichung unter anderen Domains syndizieren, ist es sinnvoll, das Seitenranking so zu konsolidieren, dass damit Ihre bevorzugte URL bewertet wird.
  • Um Crawling-Zeit auf doppelten Seiten zu sparen. Sie möchten, dass der Googlebot das Optimale aus Ihrer Website herausholt. Insofern ist es besser, wenn er statt der Desktop- und der Mobilversion derselben Seiten neue (oder aktualisierte) Seiten auf Ihrer Website crawlt.

NoIndex Seiten

Bei WordPress kann es z.B. vorkommen, dass Schlagwörter oder Kategorien einen Haufen Duplicate Content erzeugen. Dies kommt davon, dass eine Schlagwort Seite den Vorschautext des Blogs ausgibt. Dieser ist dem Blog natürlich ähnlich respektive gleich. Wenn mehrere Schlagwörter verwendet werden, dann ist der Vorschautext auf zig weiteren Seiten präsent – noch mehr Duplicate Content.

Dafür muss folgender Code im <head> der Webseite eingefügt werden.

<meta name="robots" content="noindex">

Weitere Themen der SEO Serie 

Digital Marketing Services 400x516

Social Media

Verbreite den erstellten Content über Social Media

Jetzt Starten
Suchmaschinenoptimierung SEA 400x516

SEO Technik

Themen welche die Technik der Webseite tangieren

Jetzt Starten
Conversion Daten und Business KPIs von Google Ads 400x516

Reporting & Messung

Sinnvolles Messen der SEO Optimierungen

Jetzt Starten
Offertanfrage 400x516

User Signals

Verhaltensmuster der Besucher erkennen und diese optimieren

Jetzt Starten