Indexeringsbloat är när en webbplats har sidor i en sökmotors “index” som inte bör indexeras och kan orsaka problem om de inte övervakas och kontrolleras ordentligt.
Det är ett extremt vanligt SEO-problem och påverkar alla webbplatser, från små WordPress-bloggar till stora Hybris och Magento eCommerce-webbplatser.
De allvarligaste fallen av indexuppsvällning inträffar vanligtvis på e-handelswebbplatser eftersom de tenderar att använda filterlistor och lättanvända facetterad navigering, vilket gör att användare snabbt kan identifiera de produkter de vill ha.
Jag har sett förstahandsexempel på enkla Demandware- och Open Cart-webbplatser med bara några hundra produkter som har miljontals webbadresser som visas i Googles index eftersom produktfilter genererar webbadresser.
Varför är indexering ett problem?
Det är ett känt faktum att när Google och de andra sökmotorerna genomsöker din webbplats så genomsöker de inte hela din webbplats. Att tillåta och be dem att genomsöka onödiga webbadresser slösar bort den här resursen.
Om sökmotorer inte regelbundet genomsöker dina “pengar”-sidor och istället fastnar i andra kaninhål utan att ta emot uppdateringar, kan detta påverka din organiska prestanda.
Bloat kan också leda till problem med duplicerat innehåll. Även om duplicering av internt webbplatsinnehåll inte är ett lika allvarligt problem som extern duplicering, kan det försvaga en enskild sidas framträdande plats och relevans för söktermer om själva sidan, som sökmotorer, inte är osäker på vilka webbadresser som ska rangordnas för termer.
Identifiera problem med indexsvullnad
En tidig indikator på indexbloat är antalet sidor som visas i sökmotorresultat.
Det är viktigt att notera här att antalet sidor som normalt identifieras av plats: Operatören inom Google och Bing Search visar ofta andra siffror än vad du ser i Google Search Console och Bing Webmaster Tools; Detta är inget att oroa sig för.
Webbplatsövervakning
Även om det finns sätt att lösa index bloat, är det bästa sättet, enligt min erfarenhet, att hantera det att förhindra att det händer.
Genom att kontrollera Google Search Console och Bing Webmaster Tools månadsvis, särskilt på genomsökningsdata, kan du registrera vad som är och inte är typiskt beteende för din webbplats.
Onormala ökningar eller toppar i “Sidor genomsökta per dag” och “Kilobyte nedladdade per dag” kan vara indikatorer på att Google får åtkomst till fler webbadresser än tidigare.

På liknande sätt, skapa en webbplats: Genom att söka inom Google och Bing kan du se hur många webbadresser de har i indexet, och du kommer att veta ungefär hur många sidor din webbplats har.
Hur kan jag fixa indexeringsuppblåsthet?
Att identifiera att du har ett problem med indexsvullnad är bara steg ett, nu måste du fastställa vad som orsakar svullnaden.
Dessa är några av de vanligaste orsakerna till indexuppblåsthet, men det är inte heller ovanligt att ha mer än en av dessa orsaker.
- Domän-URL:er serveras via http- och https-protokollen
- Utskrivbara versioner av sidor som orsakar en dubblett av URL
- Parameterwebbadresser som utlöses av intern sökning
- Parameterwebbadresser som utlöses av produktfilter
- Paginering
- Blogg taxonomier
- sessions-id i url
- Injektion av skräppostsidor efter ett hack
- Gamla webbadresser omdirigeras inte korrekt efter en migrering
- Efterföljande snedstreck i webbadresser orsakar dubblering
- UTM-teckensnitt
Fixar med metarobotar
En metarobottagg på sidnivå är min föredragna metod för att hantera indexbloat och är särskilt användbar om den distribueras från servernivå till flera sidor samtidigt.
Metarobotar på sidnivå har också företräde framför siderings- och kanoniseringsdirektiv, såväl som robots.txt-filen (såvida de inte är blockerade i robots.txt-filen).
Dessa är också effektiva för att ta bort webbadresser som innehåller parametrar orsakade av produktfilter, facetterad navigering och interna sökfunktioner. Att blockera dem i robots.txt-filen är inte alltid bäst, eftersom det kan orsaka vissa problem mellan vad olika Google-användaragenter kan se, vilket kan påverka betalda sökkampanjer negativt.
Den bästa praxis skulle vara att använda “noindex, följ” – på detta sätt kommer alla bakåtlänkar som pekar till sidan fortfarande att överföra eget kapital till domänen.
Robots.txt-fil
Att blockera URL-parametrar i robots.txt-filen är en utmärkt förebyggande och reaktiv åtgärd, men det är inte en absolut lösning.
Allt en Robots.txt-fil gör är att uppmana sökmotorer att inte genomsöka en sida, men Google kan fortfarande indexera sidan om sidan är länkad internt eller från externa webbplatser. Om du vet var dessa interna länkar finns, lägg till en rel = “nofollow” dem.
Kanoniska taggar
Självrefererande kanonisering är vanligtvis bästa praxis, bortsett från uppsvällda webbadresser. E-handelsplattformar som Open Cart kan skapa flera webbadresser för samma produkt och kategori.
Att lägga till en kanonisk tagg i rubrikerna för onödiga kategori- och produktadresser som pekar på “föräldern” hjälper sökmotorer att förstå vilken version av sidan som ska indexeras.
Det kanoniska direktivet är dock bara ett direktiv och kan ignoreras av sökmotorer.
Paginering
Pagineringsproblem kan uppstå från blogginlägg och bloggkategorisidor, produktkategorisidor, interna sökresultatsidor; i princip alla delar av en webbplats som har flera sidor.
Eftersom dessa sidor kommer att innehålla samma metainformation, kan sökmotorer förvirra förhållandet mellan dem och kan avgöra om det är duplicerat innehåll.
Använder sig av rel = “nästa” och rel = “föregående” Pagineringsuppmärkning hjälper sökmotorer att förstå förhållandet mellan dessa sidor och, tillsammans med inställningarna i Google Search Console, bestämma vilka som måste indexeras.
Använda Google Search Console URL Parameters Tool
Verktyget för URL-parametrar kan användas för att tala om för Google vilka specifika parametrar som ska göras med innehållet på en sida (t.ex. sortera, begränsa, filtrera). Liksom andra metoder som nämns ovan måste du se till att du inte av misstag ber Google att inte indexera webbadresserna du vill ha i indexet och att du inte anger beteendet för en parameter felaktigt.
Google klassificerar sina parametrar i två kategorier; aktiv och passiv. En aktiv parameter är något som påverkar innehållet på en sida, så ett produktfilter och en passiv parameter är något som ett sessions-ID eller ett UTM-flöde.
Detta bör egentligen bara användas som en sista utväg och användas korrekt i kombination med andra metoder, annars kan detta påverka domänens organiska sökresultat negativt.
Innan du använder det här verktyget, se till att läsa den officiella Google-guiden och dokumentationen.
Verktyget för borttagning av webbadresser
Beroende på din domänbehörighet kan det ta lite tid för Google att känna igen och filtrera webbadresserna du vill ta bort. När du har implementerat något som säger åt Google att inte indexera webbadressen igen (en robotmetatagg på sidnivå), kan du begära att Google tar bort webbadressen från indexet via Google Search Console.
Detta är bara en tillfällig åtgärd eftersom den bara döljer webbadressen i 90 dagar från Googles sökresultat, men kommer inte att påverka Googles genomsökning eller indexering av webbadressen.
Detta är bra att använda om du inte vill att användare ska kunna hitta vissa sidor, men varje URL måste skickas in individuellt, så det här är ingen bra lösning om du har ett allvarligt index.
Indexsvullnad till följd av ett hack
Nu, om din webbplats har blivit hackad, kommer indexuppsvällning definitivt inte att vara ett prioriterat problem. Men uppsvällningen av ett hack kan orsaka problem för domänen.
Följande skärmdump är av en schweizisk domän (.ch) som verkar i Europa, veckor efter en attack:

Själva webbplatsen har bara cirka 50 sidor, men som du kan se indexerar Google för närvarande 112 000.
Detta innebär att bland annat dessa 50 produktsidor och produktinformationssidor nu går förlorade bland tusentals hackade webbadresser, så det kan ta veckor att lägga märke till alla uppdateringar av dessa sidor, särskilt om din webbplats inte har en bra genomsökning. budget.
En annan indikator på detta kan vara en plötslig ökning av söksynlighet (för irrelevanta termer):

Jag har tidigare arbetat på webbplatser där detta har varit den första indikatorn. Medan jag gjorde en rutinmässig månatlig kontroll på Google Search Console, hade en webbplats som handlade om dopklänningar börjat rangordnas efter “billiga NFL-tröjor” och andra amerikanska termer för sportkläder.
Dessa synlighetsspikar är vanligtvis kortvariga, men de kan förstöra förtroendet mellan Google och din domän under lång tid, så mycket kan sägas för att investera i cybersäkerhet bortom https.
Slutsats
Att minska indexsvullnad sker inte över en natt, så det är viktigt att ha tålamod.
Det är också viktigt att sätta en process eller ett ramverk på plats och ge äganderätten till den processen till någon att genomföra den regelbundet.
