Een crawler, bot of spider, het komt allemaal op hetzelfde neer, een softwareprogramma dat een website crawlt en indexeert. Belangrijke websites worden vaker gecrawld, maar je kunt dit blokkeren door gebruik te maken van een robots.txt, noindex tag of een Canonical tag.
De Fetch as Google is een tool van Google Search Console om te zien hoe Google jouw website kan zien en hoe de website wordt gerenderd. Als er iets fout gaat dan geeft Google aan wat er fout gaat en je kunt dit aanpassen. Je kunt Google vragen om de website opnieuw te indexeren. Gebruikers zijn gelimiteerd tot 10 fetches per dag.
Hoe de websitestructuur is opgebouwd is van belang voor de gebruikservaring van de website. Verwijzingen naar een pagina in je eigen domein zijn interne links. Dit is de interne linkstructuur van jouw website. Waarom is de interne linkstructuur van groot belang? Het is voor de gebruiker fijn als deze gemakkelijk door jouw website kan navigeren en als deze gebaseerd is op een logische structuur en als ze autoriteit hebben vanuit verschillende pagina’s. Je wilt tenslotte een hoge gebruikerservaring creëren en daarnaast is het belangrijk voor een goede SEO—score als het navigeren soepel verloopt. Deel je linkstructuur in op een logische volgorde met logische categorieën. Het is voor jezelf handig en voor de gebruiker overzichtelijker. De opbouw van de linkstructuur zorgt ervoor dat de crawler een juiste waarde toekent aan jouw website-links. Zorg ervoor dat je hier geen grove fouten in maakt. Je kunt een piramidestructuur hanteren met daarin hoofdcategorieën en daaronder artikelen of producten met content. Vervolgens kun je nog een aantal subcategorieën toevoegen, maar zorg dat dit overzichtelijk is. Wil je het helemaal goed doen dan kun je het beste sitelinks gebruiken in de linkstructuur. Deze worden weergegeven onder de zoekresultaten van de website. Daarnaast kun je links op je pagina toevoegen in de header, sidebar en footer. Denk daarbij aan de algemene voorwaarden, privacyverklaring, copyrighttekst, contactgegevens en openingstijden. Google hecht waarde aan de betrouwbaarheid van een website en waardeert het als het geen spam is.
Google crawled elke dag een aantal pagina’s op je website. Dit aantal verschilt per dag en hier komt op een gegeven moment een regelmaat in. Hoeveel pagina’s worden gecrawled hangt af van de omvang van de website en het aantal links wat naar je website verwijst. Je kunt het Crawl budget vinden in de Search Console. Als je website snel te renderen is dan kan de crawler te website beter crawlen. Als er meer websites naar je website verwijzen dan controleert Googlebot de website vaker. Als er dus te weinig websites naar je website verwijzen dan daal je ook in de zichtbaarheid. Voorkom dat URL’s van zoekresultaten en bijvoorbeeld filters worden uitgesloten op het crawlproces. Dit doe je via het robots.txt bestand. Daarnaast kan duplicate content voorkomen. Dit betekent dat dezelfde inhoud op meerdere pagina’s wordt weergegeven. Dit resulteert in extra pagina’s die de crawlers bekijken en ten koste gaat van je crawlbudget. Voorkom interne verwijsfouten zoals de bekende 404-foutmelding. Verder wil je redirect fouten voorkomen en kruisverwijzingen naar dezelfde pagina. Ten slotte wil je de server logs analyseren om te zien hoe vaak de website wordt doorzocht en door wie. In dit geval kun je zien welke pagina’s Googlebot bezoekt. Hoe groter de website is, hoe zwaarder het belang van het crawlbudget weegt.
Het robot exclusion protocol (REP) heeft op site-niveau de mogelijkheid om bepaalde pagina’s niet te crawlen met behulp van het robots.txt. De juiste inrichting van dit bestand draagt bij aan het verbeteren van de SEO. Als je dit niet goed inricht dan gaat de crawler onnodige pagina’s crawlen. Zorg ervoor dat er geen vertrouwelijke informatie in dit bestand staat. Het voorkomt onnodig veel verzoeken op de server en het bespaart op het crawl budget. Voordat de crawler begint met de website scannen leest die eerst het robots.txt uit om te zien wat niet gecrawld hoeft te worden. Dit bestand helpt om de website beter te indexeren. In dit tekstbestand kun je de sitemap aangeven. Dit kan Google gebruiken als handleiding van de website. In dit bestand geef je intsructies om pagina’s wel of niet te crawlen met de allow en disallow teksten. Het is van belang om dit tekstbestand zorgvuldig te maken anders werkt het niet zoals je van te voren in gedachte hebt. Na 500 KB wordt de inhoud niet meer gelezen. Daarnaast heb je nog meta tags zoals± noindex, nofollow, follow, none, noarchive, nosnippet, notranslate, noimageindex, unaivalable?after en nog veel meer die je zeker niet mag vergeten als je het tekstbestand opstelt.
Een meta tag die ervoor zorgt dat de content niet door de zoekmachine van Google wordt geïndexeerd. Sluit nooit pagina’s uit via het robot.txt bestand met disallow en via noindex. Je bent dan onbereikbaar voor de zoekmachine.
Deze meta tag zorgt ervoor dat de link niet wordt gevold door crawlers en er geen waade aan toekent. Deze worden niet opgenomen in het algoritme en dit verandert dan niets aan de rang in de zoekresultaten. Het is bedoeld om spam te voorkomen en om sneller websites uit te lezen. Het tegenovergestelde is een dofollow en dat kan helpen in het ranken in Google. Hiermee kan je de bezoeker naar de juiste informatie leiden. Het gebruik van deze links kan lonen als je bezoekers naar de juiste website kan leiden.
Deze tag wordt gebruikt om aan te geven wat de originele url is en hiermee voorkom je duplicate content door de zoekmachine deze vermelding te geven. Google gebruikt deze tags om te zien wat zichtbaar moet zijn. In Google Search Console kun je zien welke pagina Google als canonical ziet.
Wil jij met jouw website zo goed mogelijk door de Googlebot laten crawlen, gebruik bovenstaande informatie om hoger in de zoekresultaten te komen. Gebruik het fetchen in Google, linkstructuren, crawlbudget, robot.txt-bestand, no-index tag, nofollow en canonical tag.