Duplicate content

Het probleem van duplicate content
Als er meerdere versies van content in omloop zijn weten zoekmachines niet altijd welke het origineel is. Ze kunnen ervan in de war raken. Wat is de originele content? Zoekmachines kiezen er dan vaak voor alleen de content te tonen die zij als eerste hebben gevonden. Of juist geen enkel resultaat te tonen. Dit kan er voor zorgen dat juist de pagina die jij wilt dat gevonden wordt nooit in de zoekresultaten verschijnt.
Wat is duplicate content
Duplicate content is content die vaker voorkomt op jouw website of content die voorkomt op meerdere websites. Vaak wordt gedacht dat duplicate content ontstaat doordat je lappen tekst op meerdere pagina’s plaatst.
Ja, dat is duplicate content. Maar wist je ook dat het overgrote deel van de duplicate content niet ontstaat omdat tekst gekopieerd en geplakt wordt? Technische foutjes zijn meestal de boosdoener.
Oorzaken van duplicate content
Duplicate content ontstaat dus niet alleen door het kopiëren van stukken tekst en deze op meerdere pagina’s te gebruiken.
De volgende oorzaken zijn meestal boosdoeners van duplicate content:
- fouten in de URL-opbouw (zeker met stip op één)
- gebruik van gefilterde pagina’s als SEO-pagina’s
- vergeten canonicals
Fouten in URL-opbouw
Je kunt er voor kiezen jouw website te tonen met www, zonder www, via https (of niet), maar ook om aan het eind van iedere URL een trailing slash (/) te gebruiken of niet. Meestal als er problemen zijn met duplicate content is dit veroorzaakt doordat er geen duidelijke keuze is gemaakt in hoe URLs er voor jouw site uitzien. Het maakt niet uit waar je voor kiest, als je maar kiest. En zorgt dat het technisch zo uitgevoerd wordt natuurlijk.
Op veel websites zie je bijvoorbeeld op https://www.voorbeeld.nl hetzelfde als op https://voorbeeld.nl. En vaak kom ik ook duplicate content tegen zoals https://www.voorbeeld.nl/pagina1 en https://www.voorbeeld.nl/pagina1/. Iedere URL is voor zoekmachines een unieke URL. Bevat jouw website dit soort dubbele URLs is de kans groot dat je problemen hebt met de vindbaarheid van jouw website.
Gefilterde pagina’s als SEO pagina’s
Deze kom ik vooral binnen webshops tegen, maar ook bedrijven die een veelvoud van diensten, opleidingen, vacatures of andere producten aanbieden die gefilterd kunnen worden weergegeven. En daarmee gaat het regelmatig fout. Zo denken bedrijven al snel “mooi, op al die URLs die gegenereerd worden op de website kan ik gevonden worden”. Maar dacht je echt dat zoekmachines zoveel moeite zouden steken in die duizenden, vrijwel onnodige en amper unieke pagina’s die je zo aanmaakt? Denk je dan werkelijk dat de pagina die bijvoorbeeld alle producten of diensten uit een hoofdcategorie weergeeft het super goed gaat doen in de zoekresultaten? Dan moet ik je helaas teleurstellen.
Technisch gezien gaat het al regelmatig fout met die gefilterde pagina’s doordat in de broncode alle resultaten staan, maar het filter er alleen voor zorgt dat de weergave verandert.
Daarnaast Google zit niet te wachten op duizenden URLs met vrijwel dezelfde inhoud. Met als resultaat dat Google jouw site minder vaak indexeert. Tenzij je heel specifiek aangeeft welke pagina’s wel en niet van belang zijn. Dit kun je doen door te werken met canonicals of zelfs door een ‘noindex’ te plaatsen op alle pagina’s behalve degene die er voor jou echt toe doen. Mijn voorkeur heeft het overigens om SEO-landingspages los van filterpagina’s op te zetten. Zie daarvoor ook het blog dat ik ooit als eens schreef voor de IMU over SEO en filterpagina’s.
Vergeten canonicals
Heb je toch te maken met dubbele pagina’s of pagina’s waarvan de inhoud weinig verschilt? Dan kun je met een canonical aangeven welke pagina het origineel is. Dit wordt nog wel eens vergeten of verkeerd toegepast.
Wanneer is er sprake van duplicate content?
Ik krijg vaak de vraag hoeveel procent van je pagina uniek moet zijn, zodat zoekmachines het niet als duplicate content zien. Daar is geen eenduidig antwoord op te geven. Het is niet zo dat je stukken tekst niet vaker mag gebruiken. Bijvoorbeeld het contactformulier, call-to-action blokken of andere toegevoegde content aan een pagina kan prima. Problemen ontstaan vaak als de hoofdtekst veel gelijkenissen gaat vertonen met andere pagina’s. Voor mijn gevoel ligt het percentage rond 30%, maar dit is slechts een schatting.
Hoe weet je of je duplicate content op jouw site hebt?
Om te kijken of er binnen een site veel teksten zijn die met elkaar overlappen kun je de duplicate content checker van Siteliner gebruiken. Deze gratis tool scant jouw website en brengt overlappen in kaart.
Als er technische issues zijn vind je daar vaak sporen van in Search Console. Hoewel Search Console steeds gebruiksvriendelijker wordt, is het nog steeds lastig te ontcijferen waarom Google bijvoorbeeld PRECIES heeft besloten waarom het overgrote deel van jouw pagina’s niet wordt geindexeerd.
Vermoed je dat jij problemen hebt met de vindbaarheid van jouw site door duplicate content?
Probeer de oorzaak te achterhalen; is dit veroorzaakt door technische fouten of doordat ik zelf teveel heb gekopieerd? Kun je alleen jezelf de schuld geven, dan kun je het meestal ook zelf oplossen. Maar gaat het je toch boven de pet? Neem dan contact op zodat ik met je mee kan kijken.
Vermoed jij dat jouw website niet goed presteert door duplicate content?
