Nội dung trùng lặp

    Nội dung trùng lặp

    Thuật ngữ nội dung trùng lặp đề cập đến sự xuất hiện của một và cùng một phần nội dung hoặc nội dung rất giống nhau dưới một số URL.

    Tại sao nội dung trùng lặp có thể có hại cho SEO

    Nội dung trùng lặp có thể dẫn đến các vấn đề về SEO với nội dung tốt khác, vì các công cụ tìm kiếm như Google không đánh giá nội dung bị ảnh hưởng là duy nhất . Tuy nhiên, vì nội dung độc đáo và chất lượng cao là một yếu tố quan trọng trong việc đánh giá chất lượng trang web của Google, nó có thể gây ra những hậu quả tiêu cực cho trang web của bạn về mặt SEO.

    Một vấn đề khác với nội dung trùng lặp là như sau: nếu Google thu thập thông tin nhiều trang có cùng nội dung, Google sẽ không biết trang nào trong số các trang bị ảnh hưởng có liên quan hơn và sẽ xuất hiện trong kết quả tìm kiếm. Do đó, mức độ liên quan được “phân chia” giữa các trang tương ứng hoặc Google chọn một trang để hiển thị trong kết quả tìm kiếm có thể là trang không chính xác cho chiến lược SEO của bạn.

    Tại sao nội dung trùng lặp có thể có hại cho SEO

    Tại sao nội dung trùng lặp có thể có hại cho SEO

    Ngoài ra, nội dung trùng lặp là một vấn đề đối với SEO liên quan đến xây dựng liên kết ngược , bởi vì nếu cùng một nội dung có thể truy cập được dưới một số URL, có thể xảy ra trường hợp các trang web khác không liên kết đến phiên bản nội dung mong muốn . Điều này có nghĩa là các tham chiếu có giá trị cho SEO bị mất hoặc tồn tại hai hoặc nhiều trang chỉ được tham chiếu một chút thay vì một trang được liên kết tốt.

    Do đó, nội dung trùng lặp phân phối vốn liên kết đến các trang bị ảnh hưởng, điều này có thể tác động tiêu cực đến xếp hạng của các trang riêng lẻ trên Google.

    Trong trường hợp cố tình thao túng, nội dung trùng lặp thậm chí có thể bị Google trừng phạt. Đây là trường hợp, ví dụ: nếu nội dung bị đánh cắp từ các trang bên ngoài hoặc nếu bạn cố gắng được hiển thị thường xuyên hơn trong kết quả tìm kiếm bằng cách có nhiều trang về cùng một chủ đề, do đó tăng số lượng khách truy cập vào trang web của bạn.

    Tuy nhiên, nội dung trùng lặp không phải lúc nào cũng có hại cho SEO . Đôi khi nó thậm chí có thể cần thiết, ví dụ như thông tin pháp lý phải được lặp lại trên một số trang. Google cũng biết điều này, đó là lý do tại sao nội dung trùng lặp về nguyên tắc không bị trừng phạt. Thay vào đó, Google đánh giá mức độ phù hợp của nội dung trùng lặp trong từng trường hợp cụ thể.

    Các loại nội dung trùng lặp

    Đầu tiên, bạn phải phân biệt giữa nội dung trùng lặp bên trong và bên ngoài . Nội dung trùng lặp nội bộ được định nghĩa là nội dung tồn tại trên một số URL của cùng một trang web . Mặt khác, nội dung trùng lặp bên ngoài xảy ra khi có thể tìm thấy cùng một nội dung trên các trang web khác nhau .

    Nó có thể được gây ra, ví dụ, do thông qua các thông cáo báo chí hoặc do đạo văn. Việc tạo ra các trang web riêng biệt cho các dự án riêng lẻ của một công ty cũng có thể gây ra nội dung trùng lặp bên ngoài nếu các trang web này sao chép nội dung từ trang web chính của công ty.

    Ngoài ra, có nhiều mức độ nội dung trùng lặp khác nhau. Một bản sao chính xác tồn tại nếu hai URL chứa cùng một nội dung. Điều này không nhất thiết đòi hỏi sự bình đẳng 100%, vì ngay cả khi các tiêu đề trang khác nhau, ví dụ: các trang có cùng nội dung / văn bản vẫn được Google công nhận là trùng lặp.

    Tuy nhiên, ngoài các bản sao chính xác như vậy, cũng có thể xảy ra trường hợp các trang chứa (bao gồm) nội dung hoàn chỉnh của một trang khác (ngoài nội dung khác). Sự cố này thường xảy ra trên các nhật ký web, khi văn bản hoàn chỉnh của một bài báo được hiển thị trên trang chủ hoặc trên các trang thẻ.

    Các loại nội dung trùng lặp

    Các loại nội dung trùng lặp

    Một loại nội dung trùng lặp quan trọng khác là nội dung gần trùng lặp. Thuật ngữ SEO này mô tả sự xuất hiện của cùng một nội dung trên một số trang nhưng được xây dựng và chỉnh sửa khác nhau trong từng trường hợp. Một ví dụ về điều này sẽ là xuất bản hai bài báo khác nhau về “SEO” bao gồm các khía cạnh giống nhau về mặt nội dung.

    Mặc dù đây không phải là các trang giống hệt nhau, nhưng có một vấn đề về việc hủy cân bằng từ khóa vì cả hai bài viết đều về cùng một chủ đề. Do đó, chúng nhắm mục tiêu các từ khóa giống nhau và do đó làm giảm thứ hạng của nhau trong kết quả tìm kiếm.

    Nội dung trùng lặp xảy ra khi nào?

    Nội dung trùng lặp xảy ra khi nội dung giống hệt nhau có thể truy cập được dưới các URL khác nhau. Điều này có thể do nhiều nguyên nhân, chẳng hạn như:

    • Nội dung có thể truy cập được bằng hoặc không nhập “www.” (tên miền phụ) vào tìm kiếm của Google
    • Một trang web có thể truy cập được qua HTTP cũng như qua HTTPS
    • Một trang chủ có thể được truy cập có hoặc không có “index.html” trong URL
    • Nội dung giống hệt nhau được liên kết với các thông số URL khác nhau (ví dụ: các sản phẩm của một cửa hàng trực tuyến được sắp xếp theo các thông số khác nhau, nhưng có cùng kết quả)
    • ID phiên trong một URL được sử dụng để theo dõi hành vi của người dùng
    • Thay đổi miền và sử dụng cùng một nội dung trên miền mới
    • Sở hữu các tên miền hoặc phần mở rộng khác nhau có cùng nội dung (ví dụ: một công ty sở hữu và điều hành cả miền www.companyabc.com , www.company-abc.com và www.company-abc.info để ngăn các bên thứ ba chiếm giữ các miền này )
    • Các trang danh mục và thẻ , ví dụ: trên blog, nơi các bài báo hoàn chỉnh được liệt kê bên dưới nhau
    • Phân trang (đánh số trang), ví dụ: bình luận
    • Phiên bản in của các trang riêng lẻ
    • Sử dụng đồng thời URL viết hoa và viết thường (ví dụ: trang web của công ty có thể được truy cập cả tại www.company.com và www.Company.com )
    • Các phiên bản ngôn ngữ khác nhau của một trang (không có vấn đề gì đối với SEO nếu Google có thể nhận ra rằng các phiên bản dành cho các quốc gia khác nhau, ví dụ: dựa trên thuộc tính hreflang )
    • Phiên bản di động của một trang web có cùng nội dung
    • Sử dụng nội dung và văn bản giống hệt nhau từ các trang bên ngoài hoặc trang của chính bạn (ví dụ: chấp nhận trực tiếp các mô tả sản phẩm từ trang chủ của nhà sản xuất)

    Cách giải quyết các vấn đề về nội dung trùng lặp

    Nếu bạn đã gặp vấn đề về SEO với nội dung trùng lặp trên trang web của mình, bạn có thể sử dụng các giải pháp sau để giải quyết vấn đề này. Tuy nhiên, bạn cũng có thể sử dụng các phương pháp này để ngăn chặn sự xuất hiện của nội dung trùng lặp ngay từ đầu.

    Trước hết, bạn có thể thiết lập chuyển hướng HTTP , tốt nhất là với mã trạng thái HTTP 301 – “Đã di chuyển vĩnh viễn” – cho các URL không nên xuất hiện trong kết quả tìm kiếm. Chuyển hướng tự động chuyển hướng người dùng (và tất cả các bot) đến URL “đúng” và giải quyết vấn đề nội dung trùng lặp.

    Tuy nhiên, bạn phải đảm bảo rằng người dùng luôn được chuyển hướng đến trang con tương ứng chứ không phải trang chủ của bạn chẳng hạn. Nếu không, người dùng phải tìm lại đúng trang và trải nghiệm người dùng của họ bị ảnh hưởng tiêu cực.

    Một cách khác để giải quyết các vấn đề về nội dung trùng lặp là sử dụng các liên kết chuẩn . Đây là những thẻ được chèn vào mã nguồn của một trang web để tham chiếu đến nguồn nội dung ban đầu của trang. Bằng cách này, bạn cho các công cụ tìm kiếm như Google biết URL nào được ưu tiên (= URL chuẩn) và do đó, nên xuất hiện trong kết quả tìm kiếm.

    Tuy nhiên, nói chung bạn không thể biết liệu chuyển hướng HTTP hay liên kết chuẩn là giải pháp phù hợp vì điều này phải được quyết định tùy thuộc vào từng trường hợp cụ thể. Ví dụ: sử dụng liên kết chuẩn phù hợp hơn trong trường hợp phiên bản in, trong khi chuyển hướng HTTP nên được sử dụng cho các thay đổi miền.

    Một giải pháp khác là sử dụng ” noindex ” để cho Google biết rằng một trang cụ thể không nên được lập chỉ mục, điều này cũng giúp chống lại vấn đề nội dung trùng lặp.

    Cách giải quyết các vấn đề về nội dung trùng lặp

    Cách giải quyết các vấn đề về nội dung trùng lặp

    Thông tin thêm về cách tránh nội dung trùng lặp

    Để tránh trùng lặp nội dung ngay từ đầu, bạn không nên sử dụng cùng một nội dung nhiều lần trên các trang khác nhau. Thay vào đó, khi thiết lập một trang web, mục tiêu của bạn nên là tạo ra nội dung độc đáo và chất lượng cao cho người dùng và tránh sử dụng các mô-đun văn bản lặp lại, vì điều này không chỉ bị các công cụ tìm kiếm mà còn cả người dùng đón nhận.

    Nếu bạn không thể tránh sử dụng nội dung đã có trong một số trường hợp, bạn nên luôn liên kết đến nguồn khi cố tình sao chép nội dung bên ngoài, để các công cụ tìm kiếm như Google nhận ra phiên bản nào là bản gốc.

    Hơn nữa, có một số khía cạnh kỹ thuật bạn nên xem xét nếu muốn tránh nội dung trùng lặp:

    • Tất cả các trang của bạn phải chuyển hướng đến các URL có hoặc không có www. với mã trạng thái 301 – “đã di chuyển vĩnh viễn” (không cho phép cả hai!).
    • Trong trường hợp thay đổi miền, bạn phải thiết lập chuyển hướng từ miền cũ sang miền mới. Ở đây, bạn cũng nên đảm bảo rằng bạn luôn chuyển hướng đến các trang con tương ứng chứ không phải trang chủ của bạn.
    • Bạn nên giới hạn URL ở phiên bản chữ thường.
    • Danh sách, v.v., có thể được sắp xếp theo các tham số khác nhau, nên được giới hạn ở một biến thể thông qua liên kết chuẩn.
    • Tốt nhất là chỉ định một liên kết chuẩn cho mỗi trang. Theo cách đó, các thông số khó chịu trong URL (ví dụ: /index.html?source=web&refer=google), có thể do liên kết bất cẩn, v.v., không thể tạo bản sao.
    • Kiểm tra xem danh sách kết quả trên trang web của bạn có đủ khác biệt hay không. Ví dụ: nếu tất cả các bài báo từ danh mục A cũng thuộc danh mục B, các trang danh mục hoặc danh sách kết quả này có thể sẽ giống hệt nhau, ngay cả khi chúng có thứ tự khác nhau.
    • Với các trang danh mục và thẻ (ví dụ: trên blog), tốt hơn là chỉ giới thiệu văn bản của các bài báo riêng lẻ (thay vì hiển thị toàn bộ) và cung cấp nút đọc thêm. Điều này không chỉ ngăn nội dung trùng lặp mà còn tăng lượt xem trang trên mỗi người dùng.