+45 7875 5001 kontakt@novosight.dk

Guide til Googles indeksering og gennemgang af hjemmesider

af | mar 25, 2016 | SEO, Teknisk Analyse |

At få sin hjemmeside korrekt indekseret i Google, kan være en stor udfordring, særligt hvis hjemmesiden er meget omfattende, med masser af indhold. Dette hænger sammen med den måde som Google gennemgår og indekserer hjemmesider på.

Google har sin egen unikke måde, at identificere, gennemgå og indeksere hjemmesider på. Denne metode bruges på at gennemgå mange millioner af forskellige servere på verdensplan hver eneste dag.

Google gennemgår hver måned trillioner af sider. Hele den metode der ligger bag dette kæmpe stykke arbejde, er enormt avanceret og det der danner grundlag for hele Googles forretningsplan.

Sagt med andre ord, er der ingen, undtagen Google selv, der ved hvordan denne metode og proces præcis fungerer.

Google har i grove træk afsløret i tidernes løb hvordan de identificerer, gennemgår og indekserer hjemmesider. Meget af den metodik læner sig op af String Theory. Men hvordan virker Google så?

Hvordan virker Google Indeks

Googles mission er, at indsamle og organisere alle oplysninger på internettet, så de bliver hurtigt og nemt tilgængelig.

Googles mål er, at fungere som et centralt arkiveringssystem, der gør det nemt for brugerne, at finde præcis den information de leder efter, i det øjeblik de søger den.

Hvilket betyder at Googles indeks fungerer ikke altid i real time, så hvis oplysningerne ændres på de respektive hjemmesider, skal Google først forbi og indsamle disse ændringer, for så at kunne opdatere deres indeks.

Det er kun på de mest populære hjemmesider med en høj frekvens af relevans, at dette sker fra sekund til sekund. Os andre må vente dage, uger og nogle gange måneder før Google kommer forbi.

Google anvender således webcrawlere (også nogen gange kaldet spiders/edderkopper). Den mest kendte crawler Google anvender kaldes for ”Googlebot”.

De webcrawlere som Google anvender, ser på indholdet på hjemmesider og følger de links der er på disse (ekstern og intern) – hvis ikke den får andet at vide i din kode og robots.txt-filen.

Disse webcrawlere bevæger sig således fra link til link og bringer dataene tilbage til Google, som de finder på de respektive sider som linksne fører til.

Det er på denne måde Google opbygger deres indeks.

Anvend indekset til analyse

Googles indeks kan også anvendes til, at analysere din egen hjemmeside. Dette kan blandt andet gøres ved, at anvende de søgeoperatører som Google stiller til rådighed for brugeren. Disse kan anvendes til, at tilpasse søgeresultaterne yderligere, til dine egne behov.

De der er særligt relevante i denne kontekst er:

  • site:
  • Cache:
  • Related:
  • Googlesøgning

 

Check indekset med Site:

En site:-søgning anvendes til, at synliggøre hvor mange sider, på din hjemmeside, som er indekseret i Google. Du kan således se hvor mange sider Google har fundet og hentet til dens indeks.

Den anvendes ved, at skrive i søgefeltet site:ditdomæne.dk. Hvis resultatet af denne søgning ikke matcher dine forventning betyder det, at Google har svært ved, at gennemgå din hjemmeside korrekt.

Der er selvfølgelig nogle røde flag du kan kigge efter med det samme. Disser er blandt andet

  • hvis der er færre indekserede sider end forventet,
  • hvis dit topdomæne ikke er på første pladsen,
  • hvis du går til den sidste resultatside og opdager en lignende besked som den på nedenstående billede.

Denne besked er et udtryk for, at en eller flere af dine sider ligger dobbelt. Hvilket kan forekomme af mange forskellige årsager, herunder blandt andet (men ikke begrænset til):

  • Titler
  • URL-struktur
  • Indhold på siderne
  • Du har samme indhold som der er på andre hjemmesider.

 

Pro Tip! Leder du efter specifikke sider i Google indeks kan du lave en site:-søgning på den specifikke under mappe, f.eks. site: www.dr.dk/sporten/ og man vil få vidst alle de sider som er indekseret i forlængelse af denne URL.

 

Se hvad Google ser med cache:

Ved at foretage en cache:-søgning af en specifik side, får du indblik i hvilken version af denne der er i Googles eget indeks. Det denne operatør gør er, at redirecte dig til indholdet i Googles webcache.

Du får ligeledes muligheden for, at se hvornår Googlebot var forbi den specifikke side. Hvilket kan variere fra side til side.

Det denne indsigt kan hjælpe dig til er, at finde ud af om Googlebot læser den specifikke side ordentligt – fx om den finder alle linksne eller kan læse alt teksten.

Det er vigtigt her, at bemærke, at denne indsigt ikke er facit, men et indblik i hvad Google læser på siden. Og det er sådan set også rigtig godt, at have den indsigt, blandt andet i forhold til at tjekke struktur og læsbarhed.

Google er dog blevet så avanceret, at den læser hjemmesider præcis som vi mennesker ser den. Så den kan altså læse og forstå meningen og relationen mellem billeder, tekst, farver og javascript.

 

Find tematik med related:

Related:-søgeoperatøren fortæller dig hvilke hjemmesider Google mener, relaterer sig til din hjemmeside. Dette vil således give dig indsigt i hvordan Google forstår tematikken på din hjemmeside.

Så hvis Google ikke viser dem som du mener er dine konkurrenter eller konkollegaer, bør du overveje hvilke signaler din hjemmeside sender, i modsætning til konkurrenterne.

 

Check brandsignaler med Googlesøgning

En Googlesøgning på dit eget brand giver dig indsigt i hvordan Google mener dit brand relaterer sig til den specifikke søgning. Ved mere nystartede virksomheder der ikke har stærke brandsignaler kan man sagtens opleve at man ikke er nummer et på sine brandsøgninger, på trods af at have et unikt navn.

Der kan således sagtens gå lang tid før Google lærer, at kende disse signaler og forbinde dem med dit brand. Du kan således gøre det, at oprette profiler på typiske platforme hvor brands i din branche er til stede.

Det er her vigtigt, at gå i dybden med, at sørge for, at være konsistent i anvendelsen af sit brandnavn og den måde man linker tilbage til sin hjemmeside. Derved bør du anvende det samme navn på tværs af platforme og sørge for, at linke til relevante specifikke sider.

Det sender derfor det stærkste brandsignal hvis din Facebook-side (eller hvad det nu måtte være, der er relevant for dig) hedder det samme som dit brandnavn. Så undgå så vidt muligt at kalde denne slags sider andet end det dit brandnavn er.

 

Google search console

Googles webmasterværktøj (også kaldet search console) er en gratis service som Google stiller til rådighed for webmastere og hjemmesideejere. I Googles webmasterværktøj kan du se om dine sider producerer en gennemgangsfejl for webcrawlerne. Denne oversigt finder du under Gennemgang > Gennemgangsfejl.

I dette værktøj kan du se hvordan din hjemmeside bliver indekseret og gennemgået af Googles webcrawlere. Dette vil sætte dig i stand til, at foretage de nødvendige tiltag, for at kunne optimere på din hjemmeside så denne proces bliver gjort optimalt.

For at anvende Google Webmasterværktøj skal du anvende dit Google login (har du ikke en Google konto skal denne oprettes). For at webmaster værktøjet skal fungere skal du bekræfte via en af disse metoder:

  • Google Analytics,
  • et stykke kode der indsættes i dit <head>-tag eller
  • ved at lægge en tekst-fil på din server.

Webmasterværktøjet hjælper dig med en lang række diagnosticeringsopgaver, herunder international målretning, mobilanvendelighed, links til din hjemmeside, interne links, indekseringsstatus og udfordringer ved gennemgang, samt meget mere.

Det vigtigste er at holde øje med hvem der linker til din hjemmeside, hvilke søgeforespørgsler din hjemmesider er synlig på, indekseringsstatus, mobilanvendelighed og sitemaps.

TIP! Opret alle dine versioner af din hjemmeside, hvilket vil sige med og uden www, samt med og uden http og https (sammenlagt 4 versioner). Dette vil hjælpe Google med, at forstå at indeksere din hjemmeside rigtigt.

 

Screaming Frog

Screaming frog er et program du downloader til din computer og anvender derefter programmet til at gennemgå din hjemmeside. Det er fordel at anvende Screaming Frog som et supplement til de data du får fra Googles webmasterværktøj.

Dette værktøj tillader at du kan gennemgå din hjemmeside i real time, hvor webmasterværktøjets data er et udtryk for sidste gang Googles webcrawlere var forbi.

Screaming Frog giver dig en masse data ved at gennemgå alle dine sider på din hjemmeside. Det du specifikt skal lede efter i denne sammenhæng er fanen med response codes.

Her ser du hvilket sider der melder hvilke statuskoder. Er der mange client errors og server errors bør du checke siderne for, at se om disse fejl kan rettes.

 

Kend din robots.txt

Robots.txt er et værktøj til, at forhindre søgerobotter i, at få adgang til hele eller en del af din hjemmeside. Du kan derfor styre hvilke sider på din hjemmeside som Google kan anvende i sin gennemgang og indeksering. Robots.txt-protokollen kan også anvendes sammen med siremaps og bør altid inkludere et link til dette.

Det du skal være særligt opmærksom på, i denne fil, er, at den ikke blokerer for korrekt gennemgang og indeksering af din hjemmeside. Denne fil anvendes oftest til dette formål, i forbindelse med redesign eller skabelse af hjemmesider. Derfor kan en forkert opsat robots.txt forhindre, at man kan konkurrere i søgeresultaterne.

 

Det du skal se efter er om der står

User-agent: *
Dissallow: /

 

Står der dette betyder det, at Googlebot vil se bort fra, at indeksere din hjemmeside. Ønsker du ikke dette, bør du slette dissallow: /, så der blot står:

user-agent: *

Oplever du at dine sider stadig væk ikke bliver indekseret og gennemgået korrekt så skal du checke din kode i <head>-tag’et om der står <meta name=”robots” content=”noindex” />. Gør der dette betyder det, at søgerobotterne ikke skal indeksere den respektive side, og ja ønsker du ikke dette så skal denne kode fjernes.

Dette kan gøres ved, at åbne den resektive side i enten chrome eller firefox for derefter, at trykke ctrl+u. Dette loader et nyt ’vindue’ med kildekoden i.

Herefter skal du trykke ctrl+f, hvilket åbner en søgeboks som du anvender til, at skrive noindex i. Dette vil fortælle dig om det respektive tag er tilstede på den specifikke side. Ønsker du ikke det er der skal du fjerne det.

Du kan checke og teste dit robots.txt i Googles webmasterværktøj, det finder du under gennemgang > test af robots.txt

 

Check dine http statuskoder

Http-statuskoder er de koder som sendes når nogen anmoder om indhold på dit website. Dette kan f.eks. være når en bruger åbner din side i en browser, eller når GoogleBot gennemgår siden. Denne giver således en statuskode på anmodningens status.

Disse statuskoder deles op i en numeriskværdi der starter fra 1xx og op til 5xx. Du kan se en komplet liste over dem her. Disse statuskoder fortæller således Googles webcrawler hvordan dine sider skal behandles og om der skal anvendes tid på at gennemgå dem.

Webcrawlere er dovne og stopper gennemgangen af din hjemmeside hvis de møder et stort antal af svarkoder inden for 301, 302, 4xx og 5xx. Du skal derfor holde øje med, at salgssider og andre vigtige sider ikke melder disse svarkoder, og rette fejlene hvis de er der.

Dette bunder i, at webcrawlere gennemgår milliarder af sider hver eneste dag og møder de mange fejl vælger de ikke, at blive ved med at forsøge. Spares der milisekunder her og der, spares der timer eller dage i det store billed – og derved ressourcer hos Google.

Det er enormt vigtigt, at du sætter dig ind i alle svarkoderne og hvad de betyder så du kan diagnosticere alle former for fejl for, at gøre det nemt for webcrawlere at gennemgå din side nemt og hurtigt. Du bør dog som absolut minimum holde øje med 301, 302, 404 og 503 svarkoder. Her er en hurtig gennemgang:

  • 301 redirect meddeler at indholdet er permanent flyttet til en anden URL. Denne vil du anvende hvis du ændrer i din url struktur eller hvis du flytter dit domænes indhold til et nyt. Derfor flyttes alt SEO-værdien til den nye URL.
  • 302 redirect meddeler at indholdet er midlertidigt flyttet, altså at indholdet vil returnere til den respektive URL. Derved flyttes SEO-værdien kun midlertidigt og er ikke et lige så kraftfuldt signal som en 301.
  • 404 fejl meddeler at der ikke er noget indhold på URL’en og at webcrawler ikke bør gennemgå siden. Det lidt mere bøvlet her er at selvom man kan se indholdet i sin browser når man åbner URL, er det ikke ensbetydende med at svarkoden ikke er 404.
  • 503 tjenesten er ikke tilgængelig. Denne svarkode bliver genereret når serveren ikke er tilgængelig, f.eks. fordi den er overbelastet eller under vedligehold.

Du kan checke alle disse i både Screaming Frog men også i Google Webmasterværktøjet.

 

XML Sitemap

Et XML sitemap anvendes til at fortælle webcrawlere hvordan din hjemmeside er struktureret og den relation siderne har til hinanden. Den består således af en liste af siderne på din hjemmeside. Dette bevirker, at webcrawlerne nemmere kan gennemgå din hjemmeside og indeksere den efterfølgende.

Et XML sitemap er særligt nyttigt hvis din interne linkstruktur er mangelfuld, da dette fortæller webcrawlerne hvordan alle siderne hænger sammen.Et sådant sitemap er også nyttigt hvis din hjemmeside er meget stor og Google ikke får fanget nye eller opdateret sider med det samme.

Dette er også en god mulighed for nye hjemmesider, som har ganske få eksterne links, at sørge for at webcrawlerne kommer rigtigt rundt i hele hjemmeside strukturen.Et xml sitemap indeholder ligeledes en masse metadata forbundet med de individuelle sider.

Denne slags data indeholder blandt andet informationer omkring hvornår siden sidst var opdateret, hvor ofte indholdet ændres, betydningen af siderne relativt til resten og hvilket sprog de respektive sider er på (særligt vigtigt hvis du har en stort international hjemmeside).

Når du opretter et sitemap kan du anvende en række forskellige værktøjer til, at hjælpe dig med det. Du har selvfølgelig også muligheden for at kode dette manuelt, men ved større hjemmesider er en automatiseret løsning klart at foretrække.

Anvender du en populær cms-løsning der tillader at man anvender plugins er sitemap funktionen standard i langt de fleste SEO-plugins. Hvis du f.eks. anvende Yoast’s WordPress SEO plugin vil du kunne finde dit sitemap ved at slå funktionen til under XML Sitemap.

Bedste praksis er at have sit sitemap i roden af sin server. Derfor bør sitemap’et ikke placeres i sub-folders. Dette er standard placeringen for de fleste SEO-værktøjer (hvis ikke dem alle?).

Du bør lave et sitemap for dit indhold, dine billeder og dine videoer. Dette er med til at sørge for, at Google bedre kan gennemgå og forstå hele din hjemmeside, og ikke kun dele af den.

Når du tilføjer dit sitemap til Google webmasterværktøjet får du ligeledes en oversigt over hvor og hvilke fejl som webcrawlerne møder samtidig med hvor mange der er indekseret.

 

Det skal du huske

Husk på at Google ikke er et real time billede af internettet, i hvertfald ikke på alle søgninger, men et indeks over alle de hjemmesider de har data på – i deres egne datacentre. Der vil være søgninger hvor Google prioriterer at opdatere hyppigere end andre. På disse søgninger vil Googles webcrawlere langt oftere komme forbi de respektive hjemmesider og særligt dem i toppen af deres indeks.

Vi kan anvende Google som analyseværktøj gennem en række forskellige metoder, at få tweaket søgeresultaterne. Dette gøres ved at anvende Googles søgeoperatører. For at kunne diagnosticere og finde ud af hvilke udfordringer Google har med ens hjemmeside kan vi anvende robots.txt, XML sitemap, http statuskoder, Google webmasterværktøj og screaming frog. Disse vil hjælpe dig med at forstå din hjemmeside bedre.

Vi anbefaler også

Shares
Share This