Problem duplicate content

Marek

11 lat ago

Duplikat w kontekscie medium internetowego jest to treść, która pojawia się na różnych stronach, w różnych publikacjach więcej niż raz. Strony sprawdzane są przez wyszukiwarki pod względem duplicate content czyli powielanej treści i nakładany jest specjalny filtr na strony, w których został wykryty ten problem. Filtr ma na celu wykluczyć z indeksacji lub zmniejszyć widoczność tych stron. Poniżej opisujemy szerzej ten problem i zachęcamy do dzielenia się swoimi wiedzą i spostrzeżeniami.

Gdy w algorytmie wprowadzono reguły, które miały przeciwdziałać powielaniu treści oberwało się serwisom, w których nie było unikalnych tytułów, dobrej struktury strony i były oparte o gotowe cms'y. Dlatego dobrze zoptymalizowane strony miały przewagę nad stronami z wysokim Page Rank, obecnymi w sieci nawet kilka lat.

Problem duplicate content można podzielić na dwa rodzaje: występujący w obrębie jednej witryny (domeny) lub występujący na wielu domenach. Po znalezieniu dwóch stron o podobnej treści Google próbuje ustalić która z nich zawiera oryginalną treść. Najpierw odrzuca kopie, które pochodzą z farmy linków lub umieszczone są na czarnej liście adresów IP. Następnie przeprowadzana jest analiza pozostałych kopii biorąc pod uwagę PageRank, linki przychodzące czy autorytet poszczególnych witryn. Po analizie jakości i czasu indeksacji strony wyszukiwarka decyduje o tym, która publikacja to oryginał. Jeśli strona uznana zostanie za kopię strony z innej domeny to straci widoczność na pewne frazy i trudniej jej będzie osiągnąć wysokie miejsca w wynikach wyszukiwania a nawet może zostać wykluczona z indeksacji i nie będzie się już pojawiała w wynikach wyszukiwania. Jeśli natomiast strona jest kopią strony z tej samej domeny to nie należy się tym zbytnio przejmować ponieważ Google wybiera do indeksacji tylko jedną z nich. W takim przypadku również może dojść do zmian pozycji w wynikach wyszukiwania.
Jednym z często pojawiających się problemów duplikacji treści jest strona główna którą możemy znaleźć pod różnymi adresami np.:
strona.pl
strona.pl/index.html
www .strona.pl
www .strona.pl/index.html
i tym podobne.

Z technicznego punktu widzenia każdy ten adres URL jest unikatowy i robot indeksuje je jako kolejne podstrony. Choć Google wie że są to te same strony to jednak może to wywołać negatywne efekty. Problem ten można rozwiązać na kilka sposobów. Za pomocą narzędzia dla webmasterów, przekierowań 301 w pliku .htaccess, wykluczeń w pliku robots.txt lub dzięki użyciu rel canonical. Przekierowania 301 i atrybut rel="canonical" przenoszą wartość stron ze zduplikowaną treścią na stronę, na którą przekierowują. Problem może pojawić się również, gdy udostępniamy stronę do wydruku, umożliwiamy przeglądanie treści strony z zastosowaniem filtrów, widoków lub metod sortowania jak i gdy każdemu użytkownikowi jest przypisany inny identyfikator sesji, który jest przechowywany w adresie URL, prowadzimy drugą witrynę dla urządzeń przenośnych.

Jeśli chodzi natomiast o występowanie problemu na różnych domenach to może to być spowodowane udostępnianiem treści do przedruku lub kradzieżą treści. W pierwszym przypadku warto w umowie nałożyć na stronę przedrukowującą obowiązek umieszczania linku do oryginalnego tekstu lub blokowania publikacji przed indeksacją. W przypadku publikacji bez zgody autora zaleca się skontaktowanie z serwisem a w przypadku braku skuteczności zgłosić to do Google.

Źródła:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=66359

http://www.seomoz.org/learn-seo/duplicate-content

http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

http://www.ittechnology.us/usuwanie-duplicate-content-w-wordpress