Google Caffeine – hệ thống đánh chỉ mục mới của Google

Google Caffeine – hệ thống đánh chỉ mục mới của Google

09/06/2010 Google chính thức đăng đàng thông báo về sự ra đời của hệ thống index mới này, điều này có thể đem đến một tương lai không mấy tốt đẹp cho giới SEO và webmaster với khối lượng công việc phải tiến hành cho việc quảng bá cho một website có thể tăng gấp 3 đến 5 lần.
Với hệ thống đánh chỉ mục mới này Google sẽ loại bỏ hoàn toàn tư tưởng “sống lâu lên lão làng” của các website lâu đời. Khả năng nhận được index và sếp hạng của các là ngang nhau nếu tính theo độ “tươi” của nội dung hiển thị trên website.

Lý giải cho sự ra đời của Caffeine, Google cho rằng các thông tin trên internet sẽ ngày càng giản nở. Nó sẽ phồng lên theo khối lượng và số lượng thông tin mà người dùng đưa lên internet hằng này. Đó là còn chưa kể tới sự gia tăng dân số, kéo theo việc lượng người sử dụng internet ngày một tăng cao. Với khối lượng thông tin cực lớn và khồng ngừng phìm to, thị hệ thông đánh chỉ mục cũ của Google không thể đáp ứng đủ nhu cầu của người dùng về độ “nóng” của các thông tin họ tìm kiếm. Ngoài ra sự ra đời của hàng loạt các công cụ tìm kiếm thời gian thực, cũng đem đến một sự quan ngại đối với Google vì phần lớn những nội dung họ từng index đều có tuổi đời khá lâu và không thường xuyên được cập nhất.

Theo dỏi hình dưới bạn sẽ thấy sự khác biệt mà Caffeine đem lại.

seo11a

Phần hình bên tay trái là bộ máy index cũ. Những tầng thông tin được xếp chống lên nhau tính theo độ tuổi được đánh chỉ mục. Một số trong cùng một lớp tuổi được cập nhật vài lần 1 tuần, những một số thì người lại thông tin của nó chỉ được cập nhật vài tuần một lần. Nhưng để đánh giá lại chỉ số index cho website hệ thông của Google phải phân tích lại toàn bộ website và đem so sánh với những website trong cùng 1 lớp, như vậy độ trể của các kết quả là rất cao. Và với cấu trúc này người dùng sẽ rất dễ dàng nhận được những thông tin không như họ mong đợi do, cấu trúc dữ liệu đã được cố định sẵn theo hệ thống của Google và tính tương tác ở đây là hoàn toàn không có.

Với hình bên tay phải, bạn sẽ thấy sự khác biệt rõ ràng. Hệ thống caffeine sẽ cập nhận và phân tích website trên những phần nhỏ (website sẽ được chia nhỏ ra) và cập nhật các chỉ mục tìm kiếm liên tục và trên một diện rộng. Như vậy khi các googlebot đến những trang mới, có thông tin mới thì những thông tin này được xếp ngang hàng với các thông tin trên các website cũ. Như vậy người dùng sẽ dễ dàng tìm được thông tin “tười” 100% mà không bắt gặp phải bất cứ rào cản nào về thời gian và website mà nó được xuất bản.

Tất nhiên để đem lại khả năng hoạt động khủng như vậy Google Caffeine cũng sẽ phải tiêu tốn của Google một lượng tài nguyên cũng rất “khủng”. Theo tính toán của Google một giây hệ thống Caffeine có khả năng phân tích và index tầm 100 ngàn trang trong cùng 1 thời điểm. Nếu tính sơ sơ mỗi trang trên website là 1 tờ giấy A4 thì mỗi giây caffeine sẽ làm cho đống giấy này dài thêm 3 … dặm. Hệ thống Caffeine chiềm gần 100 triệu Gigabye lữu trữ trong một cơ sở dữ liệu và nó lớn lên theo tộc độ hằng trăm ngàn gigabyte mỗi này. Bạn sẽ cần 625.000 chiếc Ipod lớn nhất để lưu trữ thông tin một ngày caffeine cập nhật.

Sự thật thì các kỹ sư của Google muốn xây dựng Caffeine như là một hệ thống có khả năng hoạt động tốt trong tương lai 5 đên 10 năm nữa. Khi mà khối lượng thông tin trên internet và sự khó tính của người dùng đòi hỏi Google phải trở thành một bộ máy tìm kiếm nhanh, mạnh và toàn diện hơn nữa mới có thể đám ứng đủ nhu cầu.

Về phần SEO & webmaster có lẽ các bạn cũng hiểu được khối lượng công việc cần phải làm cho chiến dịch quảng bá 1 website sẽ tăng như thế nào nhỉ. 3 đến 5 lần chỉ là một con số mà mình dự đoán :D, có thể chúng ta cần nhiều hơn con số đó, nhưng cũng có thể không cần phải làm nữa mà nên tập trung phát triển website càng hay càng tốt.

Chia sẻ bài viết này