+45 7875 5001 kontakt@novosight.dk

[Guide] 3 nemme trin til analyse og fjernelse af duplikeret indhold

af | mar 15, 2016 | SEO, Teknisk Analyse |

Duplikeret indhold er en udfordring for både brugere og for Google. Denne udfordring har eksisteret siden internettets begyndelse. Google har prøvet at løse problemet med Panda opdateringen og det har virket forbavsende godt.

Googles håndtering af duplikeret indhold – også kaldet kopieret indhold – har udviklet sig dramatisk siden implementeringen af den første Panda opdatering i 2011. Duplikeret indhold er som sådan ikke noget nyt, men Googles håndtering og identificering har udviklet sig enormt.

Duplikeret indhold lægger ekstra arbejde til Googles webcrawlere og servere, samtidig med at det giver brugeren en dårlig oplevelse, når han eller hun bliver eksponeret for det samme indhold igen og igen. Google vil derfor helst undgå, at der er duplikeret indhold i deres indeks.

Duplikeret indhold bliver generelt opfattet af Google som et forsøg på at manipulere med placeringerne i søgeresultaterne og forringe brugeroplevelsen for målgruppen, eller kort sagt spamme.

Google Panda opdateringen har til formål at identificere og fjerne sider i Google-søgeresultater af dårlig kvalitet og med ’tyndt indhold’. Det betyder samtidig, at sider af høj kvalitet og med ’fyldigt indhold’ bliver belønnet. Det er netop det, vi skal fokusere på, når vi laver SEO – at skabe sider af høj kvalitet med ‘fyldigt indhold’.

Googles fokus på at producere endnu bedre søgeresultater til brugerne er dermed blevet skærpet i håbet om at kunne frasortere dem, der prøver at manipulere, og dem, der ikke prioriterer at skabe brugervenlige hjemmesider.

Med Google Panda opdateringen kom der således en langt større belønning til hjemmesider og domæner, der tilgodeser brugerens hensigt, og som derved sætter brugerens behov og ønsker i centrum.

Googles 3 største udfordringer i forbindelse med duplikeret indhold er:

  • Google ved ikke hvilke(n) version(er), der skal omfattes af eller udelukkes fra deres indeks.
  • Google ved ikke, hvordan fordelingen af linkværdien – dvs. tillid, autoritet, ankertekst, link juice etc. – til en side skal foregå, da der ikke er en klar adskillelse mellem flere versioner af samme indhold.
  • Google ved ikke, hvilken version(er), der skal rangeres i søgeresultater. Derfor vælger Google den URL, den mener er bedst, og det er ikke altid ønskværdigt.

Konsekvensen af duplikeret indhold kan være, at din hjemmeside både mister placeringer og værdifuld trafik. Det er i denne sammenhæng, man kan tale om en straf, det vender jeg tilbage til senere. Lad os starte med trin 1.

 

Trin 1. Få styr på hvad duplikeret indhold er

Lad os begynde med det helt basale: hvad duplikeret indhold er.

Duplikeret indhold opstår, når det samme indhold figurerer på flere forskellige hjemmesider. Det kan være på samme domæne, eller på tværs af forskellige domæner.

For at forstå, hvorfor duplikeret indhold forekommer, skal vi sætte os i GoogleBots sted. I modsætning til, hvad vi selv ofte forbinder med indhold, er indhold for GoogleBot det, der eksisterer på en unik URL. I en unik URL kan der således indgå en variation af små og store bogstaver eller sporingskoder (hvordan du identificerer og eliminerer denne udfordring for GoogleBot, kommer jeg ind på senere).

Men først…

I denne sammenhæng bør vi ikke betragte indhold som filer eller dokumenter på en server, men som det, der er tilknyttet en URL.

Lad mig tage dig med tilbage i tiden og introducere dig for nogle begreber, du måske ikke kender.

 

The Supplemental Index

I de tidlige dage, længe før Panda, havde Google noget, de kaldte “The Supplemental Index” eller det supplementære indeks. Google brugte det supplementære indeks til at løse udfordringer i forbindelse med duplikeret indhold og sider af meget lav kvalitet.

I slutningen af 2006 integrerede Google imidlertid det supplementære indeks med sit primære indeks. Det betyder, at vi nu kan møde nedenstående i søgeresultaterne.

søgeresultat fejl duplikeret indhold

 

Dit crawl-budget

Dit crawl-budget er det estimat, Google forbinder med det antal ressourcer, søgemaskinen vil bruge på at gennemgå – eller crawle – din hjemmeside. Hvor stort eller småt bugettet er, ved kun Google. Vi ved dog, at Google sjældent gennemgår eller helt stopper med at gennemgå hjemmesider, hvis de indeholder mange fejl og store mængder duplikeret indhold, eller helt stopper.

Det kan derfor have indflydelse på, om Google gennemgår alle dele af din hjemmeside korrekt, og samtidig sørger for at indeksere den. Så fylder du Googles indeks med ikke-brugbare duplikerede sider, får det indflydelse på, hvorvidt Google finder og indekserer mere betydningsfulde sider på din hjemmeside.

I Google Search Console kan du i din gennemgansstatistik se om Google bruger ressourcer på at gennemgå din hjemmeside.

crawl budget search console

 

Straffen

Der har altid eksisteret en debat om, hvorvidt man får en straf for duplikeret indhold eller ej. Denne debat er bestemt relevant, men for mig er diskussionen blot et spørgsmål om, hvordan man anskuer straf.

Hvorvidt det er Google i sig selv, der tildeler en straf, eller hvorvidt det er os selv, der gør det, ved at besværliggøre GoogleBots forståelse af vores hjemmeside, afhænger af hvem du spørger.

Jeg vil altid argumentere for det sidste. Det bunder blandt andet i, at Google aldrig har været ude og bekræfte, at de giver en decidereret straf. De har blot sagt, at der er mange faktorer, som kan påvirke gennemgangen og forståelsen af en hjemmeside, herunder duplikeret indhold. Under alle omstændigheder er konsekvensen og løsningsmodellen den samme, uanset hvilken anskuelse du har.

Siden Panda-opdateringens indtog har vægtningen af duplikeret indhold dog ændret sig. Førhen påvirkede duplikeret indhold kun det specifikke stykke indhold. Nu kan det påvirke hele din hjemmeside, at du har duplikeret indhold – uanset hvor det måtte forekomme, mere om det senere.

Duplikeret indhold påvirker således både Googles værdifastsættelse af domænet og de individuelle sider, og indekseringen af hele din hjemmeside. Det sker blandt andet på baggrund af, hvor meget duplikeret indhold du har.

Google vil, i tilfælde af at den opdager duplikeret indhold, fjerne den version den mener er kopien – eller den mest irrelevante om man vil. Derfor er det nødvendigt, at du sender et klart signal til Google, omkring hvilken af versionerne den bør foretrække.

 

Trin 2. Vid hvornår duplikeret indhold forekommer

Duplikeret indhold forekommer når overordnet set inden for tre forskellige kategorier (mere om det lige om lidt). Ved at forstå hvornår det forekommer, kan du være adoptere et præventivt adfærd, således at du kan fange duplikeret indhold før Google gør det.

Overordnet kan vi tale om tre kategorier af duplikeret indhold. De tre kategorier af duplikeret indhold er:

  • Ægte duplikater
  • Nær-duplikater og
  • Cross-domain-duplikater

 

Ægte duplikater

Et ægte duplikat er en hvilken som helst side, der er 100% identisk med en anden side rent indholdsmæssigt. Forskellen på siderne er blot, at de har forskellige URL’er.

Ægte duplikater kan fx forekomme, hvis det samme indhold kan vises på en URL med eller uden store bogstaver, eller hvis det samme indhold forekommer på to vidt forskellige URL’er på samme hjemmeside. I begge tilfælde vil Googlebot betragte det som duplikeret indhold.

 

Nær-duplikater

Et nær-duplikat er, når en eller flere side(r) kun adskiller sig fra hinanden på få punkter.

Nær-duplikater kan forekomme ved, at store dele af en hjemmesides tekst bliver genbrugt på tværs af forskellige URL’er, fx i mindre tekstafsnit og title-tags, metabeskrivelser, samt H-tags.

 

Cross-domain-duplikater

Cross-domain-duplikater forekommer, når det samme indhold optræder på tværs af forskellige hjemmesider. Cross-domain-duplikater kan udgøre et problem, selv når der er tale om legitimt duplikeret indhold, altså hvor man udgiver det samme indhold på forskellige hjemmesider.

Der er altså tale om, at præcis det samme indhold forekommer på to eller flere forskellige hjemmesider.

 

Trin 3: Analysér og fjern duplikeret indhold

Duplikeret indhold kan forekomme i mange forskellige størrelser, inden for de tre kategorier. I det følgende vil jeg gennemgå de mest almindelige, og forklare hvordan du identificerer og fikser dem.

 

Med og uden www

En af de største synder, du kan begå, er, at dit indhold kan vises på URL’er både med og uden www. Sker det, ligger alt indhold på din hjemmeside nemlig dobbelt. Der går rygter om, at Sankt Peter sender dig fluks ned til Hades, skulle din tid oprinde, før du har fået det fikset – så se at få det gjort!

Tjek det ved at åbne en vilkårlig side på din hjemmeside, og fjern eller tilføj www. Hvis der ikke sker en automatisk viderestilling – eller redirect – har du dette problem.

Fiks det ved at oprette en 301-redirect til din ønskede URL, med eller uden www, det bestemmer du. Ønsker du, at dine URL’er skal være med www. skal 301-redirects pege på URL’erne fra versionen uden www. Har du linkbuildet mere til den ene fremfor den anden, bør du vælge den, fx hvis du linkbuilder til www.-versionen, så er det den du skal foretrække.

Det er ikke nok at lave en 302 eller fikse det med en canonical. Dit bedste skud er at satse på en 301-redirect. Derudover kan du sende et stærkt signal til Google, om hvilken du foretrækker enten med www. eller uden www. i Google Webmastertools.

Det gør du ved klikke på møtrikken i højre hjørne og vælge ‘Indstillinger for website’ og til sidst vælge dit foretrukne domæne.

 

 

Pro Tip! Der er en lille udfordring med Google Webmastertools. Vil du sætte dit foretrukne domæne, skal du oprette en ejemdom for begge versioner.

 

Staging servere

Udfordringer forbundet med staging servere er ikke så almindelige som ovennævnte og er oftest forbundet med subdomæner eller sub-foldere.

Et typisk scenarie for staging servere er, når du arbejder på at lave et nyt hjemmesidedesign i forbindelse med et relaunch. Her kan udviklerne komme til at tillade, at GoogleBot må gennemgå og indeksere indholdet på deres test servere. Der vil derfor forekomme duplikeret indhold på subdomænet, eller det sted, hvor udviklerne skaber din nye hjemmeside.

Info! En staging server er en type server, der bruges til at teste en software, hjemmeside eller service i et produktions-lignende miljø – et udviklermiljø – før den er udgivet og offentligt tilgængelig.

Tjek det ved at søge på den specifikke URL, ved hjælp af søgeoperatoren site:. Du skal indtaste site:subdomæne.ditdomæne.dk og søge på det i Google. Derefter skulle du gerne få et tomt søgeresultat. Det betyder, at indholdet ikke findes i Google indeks.

Fiks det ved at indsætte enten <meta name=”robots” content=”noindex,nofollow”/> i head-filen, eller ved at blokere dem i din robots.txt-fil. Du kan også blokere dem direkte på serveren og bruge en localhost. Det er dog en noget teknisk bedrift, men dine udviklere kan sætte det op for dig.

Er uheldet ude, og finder du subdomænet i søgeresultaterne, eller det domæne, dine udvikler anvender, bør alle URL’erne fra dit udviklermiljø, redirectes til den nuværende side på din hjemmeside – og du bør implementere førnævnte koder.

 

Trailing slashes (/)

Trailing slashes bliver som kilde til duplikeret indhold mere og mere ubetydelig. Det bunder i, at nærmest alle browsere automatisk sætter et efterfølgende slash (skråstreg / ) og behandler begge versioner som én – uanset hvad.

Rent teknisk har trailing slashes sin oprindelse i HTTP-protokollen, og en URL med og uden en efterfølgende skråstreg bliver behandlet forskelligt – eller sådan var det i hvert fald tidligere.

Tjek det ved at indsætte eller fjerne skråstregen i slutningen af URL’en. Tjek derefter, om det samme indhold kan kaldes både med og uden skråstreg.

Fiks det ved at oprette en 301-redirect-regel, der tvinger serveren til at vise den ene fremfor den anden.

 

SSL-certifikat (https)

Hvis din hjemmeside har et SSL-certifikat aktiveret og tilknyttet din http-protokol, bør dit indhold kun kunne findes på URL’er med s’et i http. Det er ligeledes dette, der viser en hængelås i søgebaren i din browser.

Tjek det ved at indtaste din URL med et s til sidst i httpS://. Findes dit indhold på denne version, bør du tjekke, om du kan finde det samme uden at bruge et s. Lykkes det at finde det samme indhold både med og uden s i http, skal det fikses.

Fiks det ved at 301-redirecte alle URL til at bruge https-versionen. Google har tidligere været ude at sige, at de anvender https – dvs. SSL-cerifikatet – som en del af PageRank-algoritmen. Du kan derfor få et forspring i forhold til dine konkurrenter ved at implementere det.

 

Duplikeret forside

Selvom udfordringer med både https og med eller uden www kan skabe problemer for forsiden, kan der også opstå problemer med forsiden i sig selv. Problemerne kan opstå, når forsidens indhold kan findes på URL’er som:

  • ditdomæne.dk
  • ditdomæne.dk/index.htm
  • ditdomæne.dk/frontpage.html

Det betyder, at der kan opstå endnu flere versioner af forsiden.

Tjek det ved at anvende et SEO-værktøj som fx Screaming Frog. Ved at indtaste dit domæne i søgefeltet, får du en lang liste over alle de URL’er, værktøjet finder på dit domæne. På listen kan du lede efter de mest almindelige typer som ‘index’, ‘home’ og ‘frontpage’ .

Pro Tip! Dette kan også identificeres ved at klikke på menu-punkter eller billeder, på hjemmeside, der leder til forsiden.

 

screaming frog søgning

 

Fiks det ved at 301-redirecte URL’erne til forsiden, og sørg for, at placere et canonical-tag på forsiden. Derudover bør du ændre og rydde op i dine interne links, så de peger på den ønskede side. Dermed erstatter du de forkerte med det rigtige forsidelink.

 

Sessions ID’er

Det kan være en særlig stor udfordring for webshopejere at forhindre, at Google indekserer sessions ID’er. Webshop-systemer har en tendens til at tag’e alle nye besøgende med et tracking-parameter. Tracking-parametret ender fra tid til anden i søgeresultaterne og skaber duplikeret indhold.

Kompleksiteten i disse kan være enormt stor, relativt til alle de tags som webshopsystemet sætter på den individuelle session, som så bliver indekseret i Google. Det kan betyde, at man ender med mange tusinde versioner af samme indhold.

Disse versioner kan fx også opstå i forbindelse med affiliate tracking og lignende, men løsningen er den samme.

Tjek det ved at navigere rundt på din hjemmeside og se, om det er tilfældet der. Brug Screaming Frog og se listen igennem for at tjekke, om der er session ID’er. Søg derefter på URL’en i Google.

Fiks det ved at fjerne sessions ID’et helt, og sætte det op til at blive gemt i en cookie i stedet for. 301-redirect derefter sider med sessions-id’er til den canoniserede URL.

Er det ikke muligt at placere en cookie, er det næstbedste at anvende canonical-tag’et på samtlige sider. Hvis det bliver ved med at drille, eller du vil gå med livrem og seler, kan du også blokere dem i Google Search Console.

 

Duplikerede stier (URL’er)

Der er ikke noget fordækt i at have duplikerede stier til den samme side. Udfordringen opstår, hvis der kommer forskellige URL’er, hvor indholdet kan ses.

Vises fx den samme produktside, med det samme indhold, på tre forskellige URL’er, er det tegn på, at du skaber duplikeret indhold.

 

Tjek det ved at anvende Screaming Frog. Find dine duplikerede stier under kategorien URI.

Fiks det ved at undgå at have tags-sider indekseret, og at have det samme indhold på flere forskellige URL’er. Har du det allerede, bør du overveje at konsolidere siderne – altså merge/integrere dem sammen. Du kan også gøre siderne unikke, eller lave en internal cross page canonical, så værdien overføres, og siden fjernes fra indeks, men stadig kan findes på hjemmesiden.

 

Internationale duplikerede sider

Duplikeret indhold opstår i tilfælde, hvor de lande, du målretter din internationale hjemmesider til, anvender det samme sprog. Det kunne fx være USA, England og Australien, som vist nedenfor.

Tjek det ved at undersøge, om det samme indhold bliver brugt på tværs af markeder og dermed hjemmesider.

Fiks det ved at anvende rel=lang tag’et. Brug helst landespecifikke domæner (ccTLD), såsom .com, .co.uk og .au og geografisk schema mark-up. Hvis det er muligt, bør du skrive forskellige tekster til samtlige af dine sider, også selvom markederne anverder det samme sprog.

 

Søgeresultater

Har du en intern søgemaskine, kan det være en kæmpe gevinst for brugeren. Men lader man GoogleBot gennemgå og indeksere søgeresulaterne, kan du ende med en masse duplikeret indhold. Det skyldes, at brugeren kan anvende forskellige søgefiltre til at finde det samme indhold fx

 

Tjek det ved at undersøge, om du har en søgefunktion på din hjemmeside, hvis ja, om den kun bliver brugt ved meget specifikke ønsker som farve og størrelse. Brug eventuelt Google til at identificere, om søgeresultaterne bliver er indekseret. Anvend også Screaming Frog, og se listen igennem for URL’er med søgefraser i.

Fiks det ved at sørge for at alle søgeresultater bliver tilført et noindex i <head>-htmlkoden. Har GoogleBot allerede indekseret dine søgeresultatsider, bør du fjerne dem ved hjælp af Search Console, under Google-indeks > fjern webadresser, samt tilføje et noindex på dem.

 

Paginering

Paginering opstår på det tidspunkt, hvor det er muligt at gå til næste side i et søgeresultat på en blog, kategori, produktoversigt eller i artikler m.v. Der opstår derfor en relateret side, med næsten de samme egenskaber og det samme indhold som den tidligere side.

Tjek det ved at finde ud af, om det er muligt at bevæge sig til ‘næste side’ i søgeresultater, kategori, produktoversigt på en blog, tag m.v.

Fiks det ved at implementere html-tag’et Rel=prev og Rel=Next. Dette tag fortæller, hvilken der var før den foregående side, og hvilken, der kommer bagefter, dermed  sender du et klart signal om hierarkiet på din hjemmeside til Google. Dermed bliver GoogleBot i stand til at forstå relationen mellem siderne og sørge for så vidt muligt at indeksere den øverste i hierarkiet først.

 

Produktvariationer

Produktvariationer opstår som duplikater, i det øjeblik man har forskellige variationer af det samme produkt eller den samme side og anvender indholdet med ganske få minimale variationer, fx i forbindelse med farvevalg.

Det er vigtigt at bemærke, at statiske URL’er sagtens kan være dubletter, hvis indholdet ikke har en høj grad af unikhed.

Fiks det ved at anvende et rel=canonical-tag tilbage til den oprindelige side, og overvej, om det ikke vil give mere mening at konsolidere siderne, så indholdet kun findes på én URL.

 

Variationer med Geo-søgeord

Før 2013 var Local SEO kategoriseret ved, at man tog alle sine sider, kopierede dem mange hundrede gange og tilførte dem en geografisk placering. Det ville se nogenlunde sådan her ud:

Local SEO er heldigvis blevet langt mere sofistikeret, så sider forbundet med ovenstående praksis, bliver næsten altid forbundet med duplikeret indhold af Google.

Hvis du skal gøre dig forhåbninger om at være til stede i de lokale søgeresultater, er det derfor nødvendigt at lave unikke brugbare sider til hver lokation.

 

Scraped indhold

Teknikken scraped indhold er forbundet med, at man programmerer en ‘robot’ til at gennemgår andre sider og kopiere deres indhold over på sit eget domæne. Denne process foregår derfor automatisk.

Det gøres oftest uden at spørge hjemmesideejeren om lov. Det betyder, at der er stor risiko for, at man forbryder sig mod lovgivningen.

Der vil være enkelte undtagelser, hvor praksissen er nødvendig for ens forretningsplan og tilfører værdi til de besøgende. Men som udgangspunkt bør du undgå at bruge denne teknik, for at få indhold på din hjemmeside. I langt de fleste tilfælde vil Google nemt kunne regne ud, at du stjæler andres indhold.

Du kan tjekke, om nogen har stjålet dit indhold, ved at søge, med citationstegn, i Google, på hele sætninger fra dit indhold. Her kan det også være godt at bruge Google Alerts. Du kan også anvende services som CopyScape.

 

Afslutningsvis

Du har nu gennemgået de 3 trin til analysering og fjernelse af duplikeret indhold. Hvis du ikke har prøvet at bruge de forskellige teknikker, mens du læste artiklen, er det tid til at gå i gang med det nu. Får du fjernet eller gjort op med duplikeret indhold, kan din hjemmeside blive reddet fra glemmebogen. Google har nemlig fokus på duplikeret indhold – og det bør du også have.

Duplikeret indhold er en stor mundfuld at få kål på og kræver en del arbejde at få fjernet. Har du en levende hjemmeside, hvor der ofte bliver udgivet nyt indhold, vil duplikeret indhold være et tilbagevendende problem. Især duplikeret indhold, der er forbundet med nær-dupleter og cross-domain, er en konstant udfordring for hjemmesideejere.

Vi anbefaler også

Shares
Share This