Meta Search Engine - Máy tìm kiếm liên hợp |
|
|
|
Số lượng máy tìm kiếm có thể cạnh tranh với Google chỉ có thể đếm trên đầu ngón tay. Khi không thể cạnh tranh theo kiểu “trực diện”, meta search engine - tạm dịch là máy tìm kiếm liên hợp - là một giải pháp mà nhiều người muốn nhắm đến. Một máy tìm kiếm (search engine) thường có 3 thành phần chính:
Ví dụ, giả sử bạn muốn tìm các tin tức cập nhật và các bài bình luận Euro mới nhất thông qua máy tìm kiếm XYZ, thì công cụ thu thập tin của máy tìm kiếm XYZ phải có khả năng cập nhật ngay các thông tin vừa xuất hiện trên Internet. Một vấn đề khác đó là phương pháp lưu trữ bởi vì lưu trữ thông tin của cả trăm tỉ trang web (Google mới thông báo họ đã xử lí đến 1.000 tỉ trang web vào tháng 7/2008) sao cho an toàn và đáp ứng nhanh nhất cho nhu cầu tìm kiếm là việc không đơn giản. Một trong những lí do mà Google thống trị thị trường tìm kiếm hiện nay là khả năng thu thập trang web cực nhanh, đồng thời có hệ thống lưu trữ phân tán cực lớn (450.000 server theo số liệu không chính thức năm 2000). Chính vì lí do này mà trên thế giới, số lượng các máy tìm kiếm có thể cạnh trạnh với Google chỉ có thể đếm trên đầu ngón tay gồm Yahoo, Microsoft, Ask. Khi không thể cạnh tranh kiểu này, meta search engine - tạm dịch là máy tìm kiếm liên hợp () - là một giải pháp khác mà nhiều người muốn nhắm tới. Giới thiệu về máy tìm kiếm liên hợp Meta Search EngineThế nào là meta search engine ?Một máy tìm kiếm liên hợp không tự xây dựng bất cứ thành phần nào trong ba thành phần kể trên của một máy tìm kiếm thông thường. Thay vào đó, với mỗi câu truy vấn của người dùng, máy tìm kiếm liên hợp sẽ chuyển nó đến các máy tìm kiếm khác (tạm gọi là máy tìm kiếm nguồn) như Google, Yahoo và sau đó xử lí kết quả trả về từ các máy tìm kiếm này trước khi đưa ra kết quả cho người dùng. Điểm mạnh![]() Hình 1: Minh họa một meta search engine .
Điểm yếu
Các bước xây dựng một máy tìm kiếm liên hợpChọn các máy tìm kiếm nguồn![]() Hình 2: Minh họa hoạt động của dùng Yahoo BOSS Các máy tìm kiếm nguồn là các máy mà sẽ gửi các câu truy vấn của người dùng đến đó và sau đó xử lí kết quả trả về từ các máy tìm kiếm này. Các máy tìm kiếm nguồn mạnh như Google, Yahoo và Microsoft thường là một trong những lựa chọn đầu tiên khi xây dựng một máy tìm kiếm liên hợp. Tuy nhiên, như đã nói ở trên, với các máy tìm kiếm rất mạnh như vậy, nếu không có thuật toán xử lí kết quả hiệu quả sẽ rất khó thuyết phục người dùng sử dụng máy tìm kiếm liên hợp thay cho các máy tìm kiếm nguồn trên. Một giải pháp khác là chọn các lĩnh vực chuyên biệt như sức khỏe (ví dụ Mamma Health Search Engine). Ngoài ra, để đảm bảo máy tìm kiếm liên hợp có thể cung cấp kết quả toàn diện hơn việc chỉ dùng một máy tìm kiếm, nên chọn các máy tìm kiếm nguồn sao cho kết quả trả về từ chúng càng đa dạng càng tốt. Các máy tìm kiếm thông dụng hiện nay như Google, Yahoo và Microsoft đều cung cấp các API (chuẩn lập trình giao tiếp ứng dụng) để người dùng có thể gửi câu truy vấn và nhận kết quả về dưới dạng các đối tượng đã được đóng gói sẵn giúp cho việc truy xuất các thành phần dữ liệu thuận tiện hơn. Các API thông dụng gồm có Google Ajax API của Google, Yahoo Search BOSS (Build Your Own Search Service) của Yahoo và Live Search SOAP API của Microsoft. Xử lí kết quả trả về từ các máy tìm kiếm nguồnKhi người dùng tìm đến máy tìm kiếm, họ cần tìm thông tin phù hợp cho nhu cầu của mình một cách nhanh nhất. Việc chỉ dùng một máy tìm kiếm có thể cho kết quả không đầy đủ (vì phần còn lại có thể nằm ở máy tìm kiếm khác), hoặc kết quả phù hợp không nằm ở trên cùng (ví dụ, một vài trang đầu tiên). Phát triển các thuật toán sáng tạo và hiệu quả để xử lí các kết quả trả về từ các máy tìm kiếm nguồn là điểm nhấn tạo nên sự khác biệt của các . Phạm vi của các thuật toán này có thể liệt kê:
Máy tìm kiếm tùy chỉnh Google (Google CSE - Custom Search Engine)![]() Hình 3: Giao diện của Dogpile. Google vừa cung cấp một công cụ với tên gọi Google CSE, cho phép người dùng tự tay xây dựng một máy tìm kiếm cho chính mình dựa trên công nghệ tìm kiếm của Google. Nói một cách đơn giản, với mỗi câu truy vấn, bạn sẽ nhận được kết quả trả về từ Google để xử lí. Với những gì Google CSE cung cấp, bạn có thể xây dựng cho mình một meta search engine chỉ trong vài phút. Bạn có thể giới hạn lại những site nào bạn quan tâm trong meta search engine của bạn (Google CSE cho phép bạn chỉ định tối đa 5.000 sites). Hạn chế khi dùng Google CSE là bạn chỉ có thể có được tối đa 32 kết quả trả về cho một câu truy vấn, đồng thời phải giữ nguyên kết quả trả về (kể cả quảng cáo) từ phía Google mà không được gộp chung với các kết quả của các máy tìm kiếm khác. Google rất khôn ngoan khi đưa ra giải pháp này. Bản chất là Google đã “tận dụng” công sức của bạn trong việc tinh chỉnh kết quả tìm kiếm cho phù hợp với người dùng, từ đó thu hút người dùng và quảng cáo một cách gián tiếp cho Google. Helios - Máy tìm kiếm liên hợp mã nguồn mởHelios là máy tìm kiếm liên hợp mã nguồn mở được các nhà khoa học Ý và Mỹ phát triển. Helios hỗ trợ hầu hết các công đoạn xử lí của một máy tìm kiếm liên hợp như thu thập, phân tích, xử lí và trình bày kết quả. Số lượng các máy tìm kiếm nguồn mà Helios hỗ trợ lên đến 16 và khá đa dạng từ tìm kiếm thông thường trên web như Google, Yahoo, đến tìm kiếm tin tức, sách và tài liệu khoa học. Một số máy tìm kiếm liên hợp thông dụngMáy tìm kiếm DogpileDogpile là sản phẩm của InfoSpace. Đặc điểm của Dogpile là khả năng phân loại rất tốt các link trả tiền và không trả tiền, đồng thời công nghệ IntelliFind rất hiệu quả trong việc xử lí các kết quả trả về để cho kết quả phù hợp với người dùng. Máy tìm kiếm Clussty![]() Hình 4: Giao diện của Clusty. Clusty là sản phẩm của Vivisimo. Đặc điểm nổi bật của Clusty và các sản phẩm khác của Vivisimo là thuật toán gom cụm các kết quả tìm kiếm. Với các nhóm được gom lại, người dùng có thể có được cái nhìn rộng hơn về các chủ đề mà họ đang tìm kiếm. Máy tìm kiếm KartOO![]() Hình 5: Giao diện của KartOO. Đặc điểm nổi bật của KartOO so với các máy tìm kiếm liên hợp khác là khả năng cung cấp kết quả dưới dạng giao diện hình ảnh trực quan. Các máy tìm kiếm liên hợp khácCó thể kể ra ở đây bao gồm : SurfWax, Mamma, Jux2, IxQuick, qbSearch, Excite, Search.com. Tương lai nào cho máy tìm kiếm liên hợpNếu bạn có hứng thú với việc xây dựng các máy tìm kiếm liên hợp các câu hỏi sau cần được đặt ra và phân tích một cách nghiêm túc:
Bản Quyền thuộc về searchvn.blogspot.com
|
Meta Search Engine - Máy tìm kiếm liên hợp




Từ Khóa






Comments
Bạn chịu khó để ý đến các quy định của google về website và các thẻ meta tag. Nếu có gì không hiểu liên hệ trực tiếp với mình, mình sẻ hướng dẫn cụ thể hơn
Bạn tham khảo thêm bài viết này: 7 bước làm tăng tốc độ index của google