Drupal SEO - Vấn đề vẫn là trung lặp nội dung (duplicate content)



drupal seo duplicate contentNói đến Drupal, một số có thể cho rằng nó quá phức tạp để phát triển website vì lý do những thuật ngữ được sử dụng trong drupal khác rất nhiều so với joomla và wordpress. Nhưng có 1 điều chúng ta phải thừa nhận rằng, trong thế giới SEO thì drupal sẻ là 1 lựa chọn hoàn hảo nhất cho việc phát triển webstie mã nguồn mở. Ngoài một bộ sườn uyển chuyển, drupal còn hỗ trợ rất tốt heading tag, tagling keyword là đặc biệt là url sef.

Nhưng vẫn còn đó một số vấn đề cần giải quyết đối với việc làm SEO cho một website drupal. Một vấn đề mà các bạn thường hay mắc phải nhất chính là trùng lặp nội dung (duplicate content), đặt biệt là với Drupal. Website drupal sử dụng khá nhiều các mặc định giúp tối ưu hóa công cụ tìm kiếm, những một số chức năng mặc định ấy chính là nguyên nhân dẫn đến việc duplicate content. Hy vọng rằng với một số thủ thuật nhỏ ở bài viết này, SEO Việt Nam sẻ giúp bạn giải quyết ổn thỏa vấn đề này.

Vấn đề duplicate của drupal:

Hãy nhìn vào 2 đường link dưới đây:

http://www.drupal.com/article/duplicate-content/

http://www.drupal.com/article/duplicate-content

Với một website drupal thông thường, được bất chức năng clear url thì việc tạo ra nhưng url vô cùng friendly như trên là hoàn toàn có thể. Những url kiểu này giúp ích rất nhiều trong cả việc SEO tối ưu hóa trên mạng tìm kiếm lẫn hạn chế lỗi 404 cho người đọc. Nhưng nó vẫn còn đó 1 vấn đề đó là duplicate, cả 2 url cùng cho ra 1 kết quả giống nhau, điều này có thể tốt cho người đọc những thật sự là ko tốt cho website của bạn 1 chút nào.

May thay, thủ thuật nhỏ với việc sử dụng .htaccess này sẻ giúp bạn loại bỏ hoàn toàn vấn đề trên.

Redirect drupal với .htaccess:

Chắc hẳn các bạn đã phần nào hiểu được sức mạnh của .htaccess trong việc chuyển hướng server, tác dụng của .htaccess đã giúp những website joomla cũng như wordpress có thể tạo ra những url cực kì SEF giống SEO Việt Nam Wink

Và với drupal chúng ta cũng sẻ sử dụng .htaccess như một công cụ giúp tránh trùng lặp nội dung. Cách giải quyết ở đây là chúng ta sẻ chuyển hướng tất cả các url có dạng:

http://www.drupal.com/article/duplicate-content/

thành những url có dạng :

http://www.drupal.com/article/duplicate-content

Với việc sử dụng 301 redirect ở trường hợp này, chúng ta có thể yên tâm rằng sẻ ko còn tồn tại bất cứ link nào có dạng http://www.drupal.com/article/duplicate-content/ mà mọi truy vấn đến đường link này sẻ được tự động redirect về http://www.drupal.com/article/duplicate-content

Tất cả việc bạn cần làm là thêm đoạn code sau vào file .htaccess trên server:

#get rid of trailing slashes
RewriteCond %{HTTP_HOST} ^(www.)?seovietnam\.org$ [NC]
RewriteRule ^(.+)/$ http://%{HTTP_HOST}/ [R=301,L]

Tham khảo thêm bài viết: .htaccess và redirect 301

Sử dụng file robots.txt để ẩn đi nội dung trùng lặp:

Không chỉ có những url như trên, một website drupal còn có thể tồn tại thêm một dạng url như sau:

http://www.seovietnam.org/articles/duplicate-content
http://www.seovietnam.org/node/44

Và điều chúng ta cần làm trong trường hợp này là thêm đoạn code sau vào file robots.txt

Disallow: /node/

Việc làm này sẻ giúp chúng ta quy định các bọ tìm kiếm không quét nhứng phận nội dung trên thư mục /node/, vì vậy các bọ tìm kiếm sẻ ưu tiên index những url có cùng nội dùng khác thay vì url có chứa thư mục /node/

Đây sẻ không phải là vấn đề của bạn nến bạn sử dung module pathautoGlobal Redirect, 2 module này sẻ giúp bạn trong việc loại bỏ url chứa biến /node/. Riêng về phần tôi thì tôi sẻ sử dụng chức năng của .htaccess và robots.txt thay vì những module mở rộng thêm, vì phần nào những module mở rộng cũng sẻ hạn chế một phần tốc độ của website bạn.

Hy vọng rằng với những thủ thuật nhỏ trong việc sử dụng .htaccess và robots.txt phía trên, sẻ phần nào giúp các bạn tối ưu hóa webiste drupal của mình tối hơn.

Tham khảo thêm các bài viết:

  1. Cách tránh lỗi duplicate content.
  2. Duplicate content và cách phát hiện mới của google.
  3. Canonical - Hạn chế trùng lặp nội dung.

Chúc các bạn may mắn.

Minh Đại - SEO Việt Nam
(Yêu cầu ghi rõ nguồn khi sử dụng bài viết này)


Bình Luận  

0Angel2009-05-15 23:05#
Rất hay, vừa tạo được link đẹp, vừa tránh được duplicate content.
Lâu lắm mới vô lại SEO Việt Nam, không ngờ web phát triển nhanh đến vậy.
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0Thế Hồng2009-05-18 06:57#
Hm, Google không đủ thông minh để hiểu http://www.drupal.com/article/duplicate-content/ và http://www.drupal.com/article/duplicate-content là một sao?
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0SEO2009-05-18 20:20#
Không đâu, thuật toán của google sẻ hiểu sự thay đổi kí tự trên url sẻ dẫn đến 1 kết quả khác nhau. Như chúng ta thường thấy sự khác biệt giữa .htm và .html là ko lớn nhưng để google suy sét thì nó sẻ là 2 kết quả trùng lặp.

Nói lại chuyện / và không / trên url, khi ở tầng thư mục thì / và ko / là rất quan trọng giả sử chúng ta có thư mục Drupal-SEO, google sẻ hiểu http://www.seovietnam.org/Drupal-SEO/ là thư mục chủ của http://www.seovietnam.org/Drupal-SEO/duplicate-content.html.

Vậy tốt nhất ta nên quy định rõ ràng có / và ko có / trong việc thiết lập url cho website
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0Beetbe.com2009-07-22 15:26#
Bài viết về drupal seo của bạn khá hay
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0aBlogz2009-08-21 20:22#
Trong trường hợp cái file .htaccess của tôi có dạng sau ,tôi phải thêm như thê nào bạn nhỉ ?

# BEGIN WordPress

RewriteEngine On
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]


# END WordPress
RewriteCond %{HTTP_HOST} ^domain.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.domain.com$
RewriteRule ^/?$ "http://domain.com" [R=301,L]

Cám ơn bạn
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0SEO2009-08-22 17:27#
Tương tự như trên, nhưng thay SEOvietnam bằng domain của bạn. Wordpress thì không mắc phải lỗi này, nên không cần phải khắc phục đâu.
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0Phan Văn Lân2009-12-05 09:51#
Nếu muốn seo tốt hơn có thể dùng module seochecklist http://drupal.org/project/seo_checklist giúp bạn liệt kê các vấn đề seo của website và chỉ cách khắc phục.
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0SEO2009-12-05 13:05#
Thanks for share, Drupal hình như vẫn còn quá phức tạp đối với người dùng Vietnam thì phải. Mình thấy rất ít người dùng.
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0Tom Tran2011-03-07 10:57#
Drupal Vietnam bắt đầu phát triển nhanh trong hơn đấy. Đây là professional Drupal Vietnam network trên LinkedIn, mời các bạn tham gia và nhìn nhóm này grow và mang lại công việc cho a em.

Bạn mà chuyên về Drupal SEO thì cũng có thể chia sẻ đc vài kinh nghiệm.
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0Anh Le2011-03-31 15:18#
Sao không thấy link vậy bạn?
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm
0Kiều2011-06-24 09:57#
Bài viết hay.
Trả Lời | Trả Lời + Đính Kèm | Đính Kèm

Thêm Bình Luận


Mã Chống Spam


Refresh