Duplicate content

Lees in deze blog alles wat je moet weten als site eigenaar over duplicate content. Waarom hebben zoekmachines een hekel aan duplicate content? En hoe kun je zelf herkennen of jouw website duplicate content heeft?

Het probleem van duplicate content

Als er meerdere versies van content in omloop zijn weten zoekmachines niet altijd welke het origineel is. Ze kunnen er van in de war raken. Wat is de originele content? Zoekmachines kiezen er dan vaak voor alleen de content te tonen die zij als eerste hebben gevonden. Of juist geen enkel resultaat te tonen. Dit kan er voor zorgen dat juist de pagina die jij wilt dat gevonden wordt nooit in de zoekresultaten verschijnt.

Wat is duplicate content

Duplicate content is content die vaker voorkomt op jouw website of content die voorkomt op meerdere websites. Vaak wordt gedacht dat duplicate content ontstaat doordat je lappen tekst op meerdere pagina’s plaatst.

Ja, dat is duplicate content. Maar wist je ook dat het overgrote deel van de duplicate content niet ontstaat omdat tekst gekopieerd en geplakt wordt? Technische foutjes zijn meestal de boosdoener.

Oorzaken van duplicate content

Duplicate content ontstaat dus niet alleen door het kopiëren van stukken tekst en deze op meerdere pagina’s te gebruiken.
De volgende oorzaken zijn meestal boosdoeners van duplicate content:

  • fouten in de URL opbouw (zeker met stip op 1)
  • gebruik van gefilterde pagina’s als SEO pagina’s
  • vergeten canonicals

Fouten in URL opbouw

Je kunt er voor kiezen jouw website te tonen met www, zonder www, via https (of niet), maar ook om aan het eind van iedere URL een trailing slash (/) te gebruiken of niet. Meestal als er problemen zijn met duplicate content is dit veroorzaakt doordat er geen duidelijke keuze is gemaakt in hoe URLs er voor jouw site uitzien. Het maakt niet uit waar je voor kiest, als je maar kiest. En zorgt dat het technisch zo uitgevoerd wordt natuurlijk.

Op veel websites zie je bijvoorbeeld op https://www.voorbeeld.nl hetzelfde als op https://voorbeeld.nl. En vaak kom ik ook duplicate content tegen zoals https://www.voorbeeld.nl/pagina1 en https://www.voorbeeld.nl/pagina1/. Iedere URL is voor zoekmachines een unieke URL. Bevat jouw website dit soort dubbele URLs is de kans groot dat je problemen hebt met de vindbaarheid van jouw website.

Gefilterde pagina’s als SEO pagina’s

Deze kom ik vooral binnen webshops tegen, maar ook bedrijven die een veelvoud van diensten, opleidingen, vacatures of andere producten aanbieden die gefilterd kunnen worden weergegeven. En daarmee gaat het regelmatig fout. Zo denken bedrijven al snel “mooi, op al die URLs die gegenereerd worden op de website kan ik gevonden worden”. Maar dacht je echt dat zoekmachines zoveel moeite zouden steken in die duizenden vrijwel onnodige en amper unieke pagina’s die je zo aanmaakt? Denk je dan werkelijk dat de pagina die bijvoorbeeld alle producten/diensten uit een hoofdcategorie weergeeft het super goed gaat doen in de zoekresultaten? Dan moet ik je helaas teleurstellen.

Technisch gezien gaat het al regelmatig fout met die gefilterde pagina’s doordat in de broncode alle resultaten staan, maar het filter er alleen voor zorgt dat de weergave verandert.

Daarnaast Google zit niet te wachten op duizenden URLs met vrijwel dezelfde inhoud. Die komt zelden langs. Tenzij je heel specifiek aangeeft welke pagina’s wel en niet van belang zijn. Dit kun je doen door te werken met canonicals of zelfs ‘noindex’ te plaatsen op alle pagina’s behalve degene die er voor jou echt toe doen. Mijn voorkeur heeft het overigens om SEO landingspages los van filterpagina’s op te zetten. Zie daarvoor ook het blog dat ik ooit als eens schreef voor de IMU over SEO en filterpagina’s.

Vergeten canonicals

Heb je toch te maken met dubbele pagina’s of pagina waarvan de inhoud weinig verschilt? Dan kun je met een canonical aangeven welke pagina het origineel is. Dit wordt nog wel eens vergeten of verkeerd toegepast.

Wanneer is er sprake van duplicate content?

Ik krijg vaak de vraag hoeveel procent van je pagina uniek moet zijn zodat zoekmachines het niet als duplicate content zien. Daar is geen eenduidig antwoord op te geven. Het is niet zo dat je stukken tekst niet vaker mag gebruiken. Bijvoorbeeld het contactformulier, call-to-action blokken of andere toegevoegde content aan een pagina kan prima. Problemen ontstaan vaak als de hoofdtekst veel gelijkenissen gaat vertonen met andere pagina’s. Voor mijn gevoel ligt het percentage rond 30%, maar dit is slechts een schatting.

Hoe weet je of je duplicate content op jouw site hebt?

Om te kijken of er binnen een site veel teksten zijn die met elkaar overlappen kun je de duplicate content checker van Siteliner gebruiken. Deze gratis tool scant jouw website en brengt overlappen in kaart.

Als er technische issues zijn vind je daar vaak sporen van in Search Console. Hoewel Search Console steeds gebruiksvriendelijker wordt, is het nog steeds lastig te ontcijferen waarom Google bijvoorbeeld PRECIES heeft besloten waarom het overgrote deel van jouw pagina’s niet wordt geindexeerd.

Vermoed je dat jij problemen hebt met de vindbaarheid van jouw site door duplicate content?

Probeer de oorzaak te achterhalen; is dit veroorzaakt door technische fouten of doordat ik zelf teveel heb gekopieerd? Kun je alleen jezelf de schuld geven, dan kun je het meestal ook zelf oplossen. Maar gaat het je toch boven de pet? Neem dan contact op zodat ik met je mee kan kijken.