Hotline: 0912.862.039 (Zalo)

Cộng đồng hỗ trợ Hoàng Nguyễn: info@hoangnguyen.edu.vn

Hoc phi uu dai MSB 1 1350x80



trung lap noi dung 2

6. Trùng lắp nội dung:

 Về mặt nội dung, cả người duyệt web và các SE đều mong muốn nội dung phải mới, duy nhất và có chất lượng. Tuy nhiên, trong quá trình phát triển nội dung website, chúng ta vẫn gặp những trường hợp trùng lặp nội dung một cách vô tình hay cố ý. Việc trùng lặp này gây nhiều tác hại đáng kể trong quá trình tối ưu hóa websitecùng với việc các bộ lọc nội dung của SE ngày càng hoàn thiện nên rất ít trường hợp trùng lặp nội dung được bỏ qua.

Trùng lặp nội dung là như thế nào?
Trùng lặp nội dung là có nhiều phiên bản nội dung giống nhau hoàn toàn hoặc tương tự (!?) nằm trên nhiều trang của cùng một website hoặc trên nhiều website.
Rất nhiều webmaster cũng như các chuyên gia SEO/SEM đã tìm hiểu nội dung tương tự thế nào thì sẽ bị đưa vào bộ lọc của các SE, tuy nhiên, các kết quả cho đến thời điểm này chỉ mang tính dự đoán.
Tuy nhiên, để phát hiện 2 nội dung trùng lặp hoàn toàn thì dễ nhưng để xác định trong trường hợp chúng tương tự nhau, ai là nguyên bản, ai là bản sao thì rất khó và đó là việc trong tương lai.

Các kiểu trùng lặp nội dung:
Trong Webmasters/SiteOwnersHelp
(http://www.google.com/support/webmasters/bin/answer.py?answer=66359), Google xác định các kiểu sau đây là nội dung trùng lặp không có tác hại:
• Các diễn đàn thảo luận hoặc các website lớn thường có 2 phiên bản nội dung. Một cho người duyệt web bằng máy tính & một cho người duyệt web bằng PDA hoặc smartphone.
• Mục lưu trữ của các diễn đàn.
• Phiên bản dùng để in của các website.
Bên cạnh đó, Google cũng đã xác định được những yếu tố trùng lặp thông qua thanh điều hướng, tiêu đề chính, các quảng cáo trong nội dung, văn bản ở footer và các liên kết tham khảo trong nội dung. Những trường hợp trùng lặp này sẽ không bị ban nhưng spider sẽ bỏ qua (không index).
Các trường hợp cố tình nhân bản nội dung trên nhiều tên miền khác nhau để thao túng bảng xếp hạng được coi là cực kỳ độc hại. Cụ thể là tạo ra nhiều landingpage khác nhau nhưng cùng nội dung để thu hút người duyệt web, tạo ra nhiều subdomain và ngay cả trên cùng 1 trang với nội dung lặp đi lặp lại.
Trong nhiều trường hợp, các bạn rất khó có thể bị ban nếu không cố tình nhân bản nội dung. Tuy nhiên, chúng ta cũng phải nắm vững kiến thức này để đảm bảo không sử dụng nội dung trùng lặp độc hại hoặc vô tình kích hoạt bộ lọc nội dung cho website của chúng ta. Ví dụ, nếu trang web của các bạn có 2 phiên bản nội dung: một để hiển thị bình thường và một là phiên bản in thì SE chỉ chọn một trong số chúng.

SE sẽ làm thế nào với những nội dung trùng lặp?

Hầu hết các webmaster/SEOer đều hiểu rằng các SE không thích trùng lặp nội dung. Vậy các SE sẽ làm thế nào khi có nhiều trang giống nội dung? Các SE sẽ dựa vào những yếu tố như liên quan nhất, duy nhất, nội dung đầu tiên – nguyên thủy, ... để trả về trang kết quả cho người dùng, những trang web có qua nhiều yếu tố giống nhau so với các trang trên sẽ được loại bỏ dần tùy theo mức độ giống nhau.

Nói một cách khác, bộ lọc nội dung trùng lặp là một thuật toán so sánh giữa trang này với trang khác. Nếu bộ lọc xem xét một hoặc 2 trang có quá nhiều yếu tố trùng lặp, nó chỉ giữ một trang trong danh sách chỉ mục chính, các trang còn lại sẽ được di chuyển vào danh sách chỉ mục bổ sung.
Hình phạt (ban) sẽ phát sinh khi các bạn cố tình sao chép hàng trăm hoặc hàng ngàn nội dung của các trang khác từ những domain khác nhau về website của mình hoặc tạo ra một nội dung giống nhau hoàn toàn từ trang khác.

SE và thẻ Canonical
Như các bạn đã biết, các SE đã nhận một trách nhiệm khó khăn là loại bỏ các kết quả trùng lặp trong danh sách chỉ mục của họ và tất nhiên các SE không thể nào giải quyết trọn vẹn vấn đề này, vì thế, một xu hướng mới cần đến sự trợ giúp của các webmaster/SEOer của những site đặc biệt là các site thương mại điện tử với danh sách những sản phẩm khổng lồ nhưng lại trùng lặp nhau. Và giải pháp đó là thẻ Canonical.
Nếu các bạn có nhiều URL cùng chỉ đến 1 trang như http://abc.com/index.php?item=1 hoặc http://www.abc.com/index.php?item=1 hoặc http://abc.com/item-name.html, bạn chỉ cần xác định URL “chủ” là có thể giúp các SE giảm bớt khối lượng công việc cũng như loại trừ khả năng chính website của mình bị lỗi trùng lặp nội dung. Đơn giản chỉ cần thêm thẻ Canonical như ví dụ bên dưới trong phần HEAD của trang HTML:

Làm thế nào tránh trùng lặp nội dung?
1/ Không đánh cắp thông tin từ các site khác.
2/ Liên tục kiểm tra xem có trùng lặp nội dung trên chính website của mình hay không?
3/ Kiểm tra xem có ai lấy cắp nội dung của mình không? (dùngCopyscapehttp://www.copyscape.com/ để kiểm tra).
4/ Nếu các bạn có nhiều URL trên cùng một domain trỏ đến cùng một nội dung, hãy chọn một URL để được spider đánh chỉ mục, các URL còn lại dùng robots.txt ngăn chặn.

Những điểm cần lưu ý:

·         Tạo ra nội dung duy nhất và nguyên bản thay vì đánh cắp từ các website khác.

·         Dùng công cụ kiểm tra trùng lặp nội dung để xem có ai lấy cắp nội dung từ website của các bạn.

·         Loại bỏ các trang trùng lặp nội dung trên website hoặc ít nhất là ngăn chặn chúng được đánh chỉ mục bởi spider.

 



·         Hãy thử gia tăng các chỉ số này cho những từ khóa đã chọn trên nội dung trang web của các bạn sao cho tự nhiên nhất đối với người duyệt web.

ĐỐI TÁC CỦA HOÀNG NGUYỄN