• Homepagina
  • Blog
  • Technische zoekmachine-optimalisatie voor webshops: hoe zit het met duplicate content en indexatie?

Technische zoekmachine-optimalisatie voor webshops: hoe zit het met duplicate content en indexatie?

jens en indexatie en duplicate content.png

Door zoekmachine-optimalisatie (SEO) word je beter gevonden in Google. Maar de meesten denken bij SEO aan het optimaliseren van content voor bepaalde zoekwoorden. Zonde, want een webshop die technisch niet in orde is mist bezoekersverkeer! Hoe voorkom je dit?

Inhoud

Direct naar: 

  1. Waarom technische SEO
  2. Wat is duplicate content
    1. Wat is crawlbudget
    2. Wat is linkwaarde
  3. Ontstaan duplicate content
    1. Handmatige fouten
    2. Platformfouten
    3. Tools
  4. Duplicate content voorkomen
    1. Canonical URL
    2. Meta robots
    3. 301-redirects
    4. Volgende pagina

 

Waarom technische SEO?

Voor je het doorhebt hebt bevat je webshop honderduizenden pagina’s. Vaak bied je producten in meerdere maten en kleuren aan. Filters op je pagina’s met productoverzichten (product overview page, oftewel POP) helpen bezoekers snel het juiste artikel te vinden. Daardoor ontstaan veel URL’s. Vaak lijkt de inhoud van de filterpagina’s op elkaar, soms zijn ze zelfs exact hetzelfde. Zonde, want dan heb je te maken met duplicate content.

Duplicate content wil je voorkomen. Om te begrijpen waarom dit zo is, moet je weten hoe zoekmachines aan de zoekresultaten komen.

Hoe zoekmachines werken

Zoekmachines proberen door middel van geautomatiseerde bots uw website te lezen (crawlen). Crawlen is voor zoekmachines een essentiële eerste stap om uw website te kunnen tonen in de zoekmachines. Wanneer een crawlingbot geen toegang heeft tot bepaalde pagina’s in uw webshop, zijn deze pagina’s onvolledig of niet zichtbaar worden in de zoekresultaten (zie afbeelding 1).

 

pagina_die_een_crawlbot_niet_bezoekt_SEO.png

Afbeelding 1: pagina’s die een crawlbot niet bezoekt indexeert hij niet 

Zoekmachines voegen de pagina’s die ze crawlen toe aan een database. Uiteindelijk nemen ze deze pagina’s op in de zoekresultaten (indexeren). Ze beoordelen je pagina’s op basis van meer dan 200 factoren. Vervolgens rankschikken ze de pagina’s voor verschillende zoekopdrachten.

Tip: lees in deze infographic meer over dit proces uit de keuken van Google.

Zonder goede crawling en indexatie verschijnt je webshop niet snel hoger in de zoekresultaten. Deze blogpost helpt je problemen met indexatie te voorkomen. En aangezien de meeste Nederlanders gebruikmaken van Google staat deze zoekmachine in deze blogpost centraal.

Je kunt op twee manieren achterhalen hoeveel pagina’s Google voor je webshop heeft geïndexeerd

  1. Tik: site:mijnwebshop.nl in Google
  2. Bekijk de indexeringsstatus in Google’s Search Console

Aantal geïndexeerde pagina’s met “site:”

Met de eerste methode typ je in Google “site:” direct gevolgd door de domeinnaam.

 methode indexatie via Google search.png

Afbeelding 2: methode indexatie via Google search

Google laat zien hoeveel pagina’s er op dat moment ongeveer geïndexeerd zijn. Ook de pagina’s van eventuele subdomeinen, mits je geen “www” gebruikt. Zo zie je in afbeelding 3 het aantal geïndexeerde pagina’s voor Zalando.nl, inclusief subdomeinen.

schatting van het aantal geïndexeerde pagina’s voor Zalando.png

Afbeelding 3: schatting van het aantal geïndexeerde pagina’s voor Zalando.nl (inclusief subdomeinen)

Het aantal resultaten moet niet veel hoger zijn dan het aantal unieke producten in uw webshop. Wanneer er meer dan twee keer zoveel pagina’s als producten geïndexeerd zijn binnen een domein, dan gaat er mogelijk wat mis met de indexatie en heeft u last van duplicate content.

Als productpagina’s een unieke identificatie hebben, dan kun je nagaan hoeveel productpagina’s zijn geïndexeerd en of dit aantal klopt met het aantal unieke producten in de webshop. Zo identificeert Straluma.nl de productpagina’s doordat de URL’’s eindigen op “.html”. De productoverzichtspagina’s hebben dit niet.

Bij Straluma worden de blogartikelen die deze identifier bevatten ook meegenomen in de resultaten. Toch kan ik deze eenvoudig uitsluiten door het gebruik van zoekoperators. Zo kun je door het opnemen van “inurl:” bepaalde voorwaarden stellen aan welke URL’s getoond moeten worden. Denk aan bepaalde woorden die moeten voorkomen in de URL.

Met de zoekoperator “-url:” kun je bepaalde voorwaarden uitsluiten. In afbeelding 4 zie je hoe ik zoekoperators toepas voor Straluma.nl. Door de zoekoperators kan ik zien of het aantal unieke producten overeenkomt met het aantal geïndexeerde productdetailpagina’s. Straluma verkoopt ongeveer 3.000 producten online. In afbeelding 4 zie je dat dit aantal redelijk overeenkomt met het aantal resultaten die Google vindt. Als Straluma maar 600 producten had, dan waren er bij mij alarmbellen gaan rinkelen.

uitsluiten en insluiten door middel van bepaalde voorwaarden.png

Afbeelding 4: uitsluiten en insluiten door middel van bepaalde voorwaarden (search operators).

 

Tip: Lees hier meer over het gebruik van zoekoperators van Google.

 

Aantal geindexeerde pagina's achterhalen met de indexeringsstatus in Google’s Search Console

Een tweede methode om het aantal geïndexeerde pagina’s te achterhalen is via Search Console van Google. Als je inlogt zie je bij indexeringstatus onder Google-index het verloop van het aantal geïndexeerde pagina’s van het afgelopen jaar (zie afbeelding 5). Bij de optie “Geavanceerd” zie je het aantal pagina’s die geblokkeerd zijn als gevolg van de Robots.txt-regels.

Robots.txt neemt Google niet mee in zijn standaard indexeringsstatus-aantal. De (tijdelijk) handmatig verwijderde pagina’s met de “URL’s verwijderen” functie in Search Console wordt hier ook getoond.


Afbeelding 5: de indexeringsstatus in Google’s Search Console

 

De resultaten van de “site:”-methode en de indexeringsstatus matchen niet

Het kan voorkomen dat er verschillen zitten tussen het aantal geïndexeerde pagina’s die getoond worden met de “site:”-methode en de indexeringsstatus in Google Search Console. Dit komt omdat Google alleen een schatting geeft van het aantal geïndexeerde pagina’s.

Het belangrijkste is dat beide methodes een belangrijke eerste stap vormen om te checken of je webshop met duplicate content te maken heeft. Wanneer je 2.000 producten verkoopt in je webshop en beide methodes tonen meer dan 4.000 pagina’s, dan heb je waarschijnlijk te maken met duplicate content. Verder onderzoek is dan sterk aan te bevelen. Deze analyse zet ik inclusief oplossingen uiteen vanaf het kopje “Platformfouten”.

 

Afbeelding 6: analyse van de geïndexeerde pagina’s en het eindresultaat

 

Wat is duplicate content en hoe ga je ermee om?

Duplicate content is de mate waarin meerdere geïndexeerde pagina’s dezelfde content hebben. Je kunt denken aan overlappende stukken tekst, maar ook aan dubbele pagina’s.

Waarom is duplicate content nadelig voor SEO?

Het nadeel van het hebben van te weinig geïndexeerde pagina’s spreekt voor zich. Wie 2.000 unieke producten online heeft wil op dat alle producten gevonden kunnen worden plus alle relevante productoverzichtpagina’s. In potentie loop je belangrijk organisch verkeer mis wanneer niet al je relevante pagina’s geïndexeerd zijn.

Toch schuilt er ook gevaar in teveel geïndexeerde pagina’s. Er zijn namelijk twee redenen (crawlbudget en linkwaarde) die ervoor zorgen dat je niet goed scoort met belangrijke zoekwoorden als je duplicate content hebt.

Wat is het crawlbudget?

Om het probleem van duplicate content goed te begrijpen is het belangrijk om terug te gaan naar proces van crawlen en indexeren. Google moet eerst de pagina’s binnen een webshop kunnen crawlen om ze vervolgens te indexeren. Crawl-optimalisatie is een proces waarmee zoekmachines gestuurd worden naar de belangrijkste pagina’s. Daarnaast zorg je ervoor dat pagina’s die niet geïndexeerd worden ook niet gecrawled worden.

Sturing hierin is belangrijk aangezien Googlebots maar een bepaalde hoeveelheid crawlbudget reserveren voor het crawlen van je webshop. Als een Googlebot per dag bijvoorbeeld 1.000 pagina’s van je webshop crawlt, dan wil je er zeker van zijn dat deze 1.000 pagina’s ook allemaal unieke content bevatten. Want anders verspilt een Googlebot crawlbudget aan pagina’s die dezelfde content als een andere pagina bevat terwijl de Googlebot dit beter had kunnen besteden aan andere unieke content. Zo wil je liever dat de Googlebot de overzichtpagina’s van Puma-schoenen en Nike-schoenen indexeert dan overzichtpagina’s van bepaalde prijsklasses (zie afbeelding 7). Maar crawl-optimalisatie is lastig. Ik bespreek dit ook later in een ander artikel.

 

Afbeelding 7: Googlebot wil je niet elke pagina laten indexeren

 

Wat is linkwaarde?

Stel je hebt vier pagina’s die vrijwel indentiek zijn. Dan wil je niet dat de linkwaarde evenredig wordt verdeeld over deze pagina’s. Google heeft dan moeite met het rangschikken van de pagina’s en met het kiezen van een voorkeurs-URL. Je wilt één pagina die 100 procent van de linkwaarde krijgt, want dan scoort die pagina beter in Google.

Kortom, duplicate content beperkt de potentie om goed te ranken met één bepaalde pagina. Het moet daarom voor zoekmachines volledig duidelijk zijn welke voorkeurspagina je wilt laten  indexeren (zie afbeelding 8 en 9).

 

 

Afbeelding 8: linkwaarde die niet goed is verdeeld

 

Afbeelding 9: linkwaarde die wel goed wordt besteed

 

Hoe ontstaat duplicate content?

Duplicate content ontstaat op twee manieren:

  1. Door handmatige fouten. Denk aan het plaatsen van dezelfde tekst op meerdere pagina’s binnen je webshop (duplicates tussen domeinen) of het plaatsen van een tekst die reeds online staat in andere webshops (duplicates tussen domeinen). Deze fouten ontstaan meestal in het CMS. De content manager moet hier streng op toezien.
  1. Door platformfouten. Als gevolg van een combinatie van op elkaar lijkende pagina’s binnsen het platform en het ontbreken van de juiste technische oplossing. Deze fouten onstaan in het platform. De webbouwer moet erop toezien dat dit goed gaat.

 

Handmatige fouten

Er zijn twee voornaamste voorbeelden te noemen waarbij duplicate content ontstaat als gevolg van handmatige fouten (zie ook afbeelding 10):

  • Product- of categorieteksten zijn gekopieërd op verschillende pagina’s binnen de webshop (duplicates binnen domeinen)
  • Product- of categorieteksten zijn gekopieërd van de leverancier (duplicates tussen domeinen)

 

Afbeelding 10: Handmatig veroorzaakte duplicate content

 

 

Veel online marketeers zijn op de hoogte van de gevaren van het kopiëren van teksten. Google benadrukt expliciet het belang van het schrijven van unieke en waardevolle content. Toch komt het vooral op productdetailpagina’s (PDP’s) nog regelmatig voor dat teksten voor een groot gedeelte overeenkomen.

Vaak is dit ook helemaal niet gek. Wanneer je bijvoorbeeld hetzelfde product in tien verschillende kleuren aanbiedt lijkt het niet de moeite waard om voor elke kleur een unieke productomschrijving te schrijven. De producten zijn immers hetzelfde. Daarnaast wil je op de PDP wellicht ook het flexibele retourneringsbeleid of de vele betaalmogelijkheden nog een keer vermelden om de onzekerheid weg te nemen en een aankoop te stimuleren. Vaak is dit soort informatie voor elk product hetzelfde.

Het is belangrijk om te beseffen dat de keuzes die je hierin maakt impact hebben op de mate van duplicate content op de PDP. Zo laat Zalando alle kleurvarianten voor haar producten indexeren, maar zij hebben geen uitgebreide omschrijvingen voor hun producten (afbeelding 11). Op deze manier kan er ook minder snel duplicate content ontstaan. Ook de USP’s van Zalando zijn niet als tekst verwerkt en vormen dus geen duplicate content probleem. Vanuit deze gedachte ontstaat er ook niet veel duplicate content op de productpagina’s.

Afbeelding 11: Zalando en tekst op de PDP: “less is more”

 

Wehkamp toont juist wel uitgebreide productomschrijvingen die exact overeenkomen voor de verschillende kleuren van hun producten. Ook heeft Wehkamp uitgebreide informatie over de betaalmogelijkheden en hun retourneringsbeleid die op iedere PDP binnen de webshop terugkomen.

 

Afbeelding 12: Wehkamp en tekst op de PDP: duplicate content tussen producten en productvariaties

 

Platformfouten

Bezoekers willen zo snel en eenvoudig mogelijk het product vinden dat perfect aansluit bij zijn wensen. Een goede structuur is daarom essentieel. Aangezien deze wensen nogal verschillen, bied je waarschijnlijk verschillende functionaliteiten aan waarmee gebruikers hun selectie van producten kunnen verfijnen tot het overzicht waarin zij geïntereseerd zijn. Twee van deze functionaliteiten zijn niet meer weg te denken van de productoverzichtspagina’s van webshops:

  • Filtering: de mogelijkheid om bijvoorbeeld een specifiek merk of kleur te selecteren.
  • Sortering: de mogelijkheid om te sorteren op de meest populaire producten of de producten met de laagste prijs.

Filtering en sortering zorgen ervoor dat er talloze (URL-)variaties van ongeveer dezelfde pagina’s kunnen ontstaan. Zo verandert alleen de volgorde van de producten wanneer de bezoeker op meest populaire producten sorteert of worden er alleen andere producten getoond wanneer een bezoeker filtert op alle koffers in een blauwe of zwarte kleur.

­­

Afbeelding 13: hoe filters URL-variaties veroorzaken

 Met onderstaande technische oplossingen kan duplicate content in bovenstaande situaties voorkomen worden.

 

Tools om duplicate content mee te checken

Er zijn verschillende (gratis) tools die je inzicht geven in hoeveel duplicate content je in je webshop hebt.

  • Siteliner is een tool die groot aantal pagina’s binnen uw webshop crawlt en vergelijkt op (grote) overeenkomsten in content.
  • Om te kijken in hoeverre teksten overeenkomen met andere webshops is Copyscape een handige tool. Copyscape checkt teksten tegen een bestaande database van andere webshop zodat u kunt zien of er teksten gekopiëerd zijn van leveranciers. Leuk feitje: veel hogescholen en universiteiten gebruiken Copyscape om te kijken of hun studenten geen plagiaat plegen. Google doet dus hetzelfde voor uw content!

Vergelijk de scores met je concurrenten. Als je de beste bent streef dan ernaar om de mate van duplicate content tussen geïndexeerde pagina’s laag te houden of zelfs nog verder te verminderen.

Als je weet welke pagina’s grote overlap met elkaar hebben kun je besluiten om de teksten weg te halen of opnieuw te schrijven. Wanneer je ervoor kiest ze te laten staan, zorg dan dat er ook veel unieke content op de pagina is die de mate van duplicate content kan uitbalanceren. 

Zalando laat in bovenstaand voorbeeld naar mijn mening zien dat het haar SEO op de PDP’s beter in orde heeft dan Wehkamp. Een aantal concrete tips:

  • Vraag jezelf af: willen mijn bezoekers content lezen over mijn producten voordat ze overgaan tot een aankoop? Dit zal voor modeproducten minder zijn dan voor elektronica. Wanneer je geen duidelijk antwoord op deze vraag kan geven, zet dan een A/B-test op voor je PDP’s waarbij je toetst wat de impact is op de conversie van een geschreven productomschrijving ten opzichte van geen geschreven productomschrijving. Geen significant verschil? Toon dan alleen een lijst met productkenmerken zoals bijvoorbeeld Zalando.
  • Laat een A/B-test uitwijzen of meer tekst over je retourneringsbeleid en verzendkosten ook daadwerkelijk tot een hogere conversie leidt. Geen verschil? Houd je informatie hierover dan kort en bondig en verwijs naar je algemene pagina over het retourneringsbeleid en de verzendkosten.
  • Laat je bezoekers de unieke content schrijven. Productreviews van gebruikers kunnen het percentage duplicate content op een PDP verminderen.

  whitepaper voorkom deze fouten met A/B-testen voor conversie-optimalisatie

 

Hoe voorkom je duplicate content?

Er zijn verschillende technische oplossingen om duplicate content te voorkomen zonder dat er iets verandert aan hoe de bezoeker de pagina ziet. De meest voorkomende oplossingen:

  • Canonical URL
  • Meta robots noindex
  • 301-redirect
  • Rel=“prev” en rel=“next” (alleen voor gepagineerde reeksen)

 

Canonical URL’s

Een canonical URL wordt in de HTML van een pagina meegegeven. De canonical URL is de URL die uiteindelijk wordt geïndexeerd. Wanneer pagina A bijvoorbeeld een canonical URL naar pagina B heeft, wordt A niet geïndexeerd. Stel een bezoeker filtert op rode tas in je webshop (pagina A). Dan ontstaat er een URL, maar deze URL wil je vanwege bepaalde redenen niet laten indexeren. Daarom stel je een canonical URL in die verwijst naar de bovenliggende pagina, denk aan de overzichtspagina met alles tassen (pagina B).

Ook de linkwaarde van pagina A zal in dit geval aan pagina B worden doorgegeven. Overigens kan Google ervoor kiezen om toch pagina A op te nemen in de index. De praktijk leert echter dat de zoekmachine in de situaties van filtering en sortering (waarbij meerdere pagina’s vaak identiek zijn) de canonical vrijwel altijd respecteert.

Toepassing voor filtering en sortering:

  • Filtering: besluit op basis van een zoekwoordenonderzoek welke filteropties u wilt optimaliseren en welke niet. Op basis van zoekvolumes kun je ervoor kiezen om bepaalde filteropties wel te indexeren en welke niet. Zorg altijd dat geïndexeerde filteropties een eigen stukje unieke tekst bevatten (en niet alleen unieke meta tags en H1).
  • Sortering: sorterings-URL’s krijgen altijd een canonical naar de hoofdpagina.

 

Tip: meer weten over filteroptimalisatie? Lees mijn eerdere blogpost.

 

Meta robots noindex

Een meta robots noindex is een metatag die je binnen een pagina kan meegeven voor zoekmachines. Hiermee geef je expliciet aan dat de pagina niet geïndexeerd wordt. Zo hebben webshops vaak het betalingsproces op “noindex” staan. Voor filtering en sortering heeft de canonical URL echter altijd de voorkeur, daar waar deze de linkwaarde doorspeelt naar een voorkeurspagina en de meta robots noindex niet. 

301-redirects

Met een 301-redirect verhuis je pagina A permanent naar pagina B. Dit is een signaal voor zoekmachines dat pagina A niet meer in de index mag voorkomen. Wanneer je bijvoorbeeld ziet dat twee dezelfde POP’s geïndexeerd zijn onder verschillende categoriepaden (handmatige fout), dan kun je ervoor kiezen om de ene variant permanent te verhuizen. Afhankelijk van hoeveel de pagina’s inhoudelijk overeenkomen, helpt een 301-redirect om de huidige ranking voor die pagina te behouden.

Op de lange termijn heeft een 301-redirect van identieke pagina’s naar één voorkeurspagina’s een positieve impact op je rankings. De linkwaarde wordt immers volledig doorgegeven naar één voorkeurspagina.

Naar de volgende pagina

Binnen een productsoverzichtspagina (POP) bestaan vaak meerdere pagina’s waarmee de bezoeker meer producten kan zien. Deze reeksen binnen POP’s kunnen gemarkeerd worden met de rel=“prev” en rel=“next” HTML tags. Door deze tags begrijpen zoekmachines om welke pagina het in de reeks gaat en wat de vorige en volgende pagina’s in de reeks zijn. Hierdoor wordt standaard de eerste pagina in de reeks als enige geïndexeerd en zullen crawlers correct omgaan met de doorstroom van linkwaarde.

 

Tip: lees hier meer over de technische richtlijnen.

 

Kortom…

Technische SEO is uitdagend, dus schakel je SEO-specialist in voor hulp. Maar deze blog geeft je wel inzicht in wat duplicate content en de problemen die eruit voortkomen. Ga ermee aan de slag kunt zodat je geen bezoekers meer misloopt!

 

Benchmark Q2 voor modewebwinkels

 

 

Blogger

Jens Olsthoorn, SEO consultant
Jens Olsthoorn, SEO consultant

E-mail: j.olsthoorn@ism.nl

Blogger

Jens Olsthoorn, SEO consultant

E-mail: j.olsthoorn@ism.nl

Contact

Direct één van onze e-mailmarketingspecialisten spreken?

Neem contact met ons op

Deel deze pagina