Google làm việc như thế nào?

Cập nhật ngày 6, Tháng Sáu, 2013, Thuộc Học Làm SEO nhanh qua ví dụ

Bài này thuộc chuyên đề Học Làm SEO nhanh qua ví dụ , bạn có thể click vào để xem các bài khác cùng chuyên đề này

Như đã trình bày trong bài trước, Nguyên tắc và quy trình làm SEO, tôi nói về các nguyên tắc cơ bản khi làm SEO, giới thiệu quy trình làm SEO cũng như một số khái niệm trong nghề SEO mà cụ thể là SEO Google.

Bài này, tôi nói tiếp về nguyên tắc hoạt động của Google, một công cụ tìm kiếm trên internet phổ biến nhất hiện nay. Đây là một điều không thể thiếu cho các SEOer, không thể làm SEO Google mà chẳng biết Google đang làm cái quái gì để cho ra kết quả trên SERP (Trang kết quả tìm kiếm, Search Engine Response).

Trong từng cơ chế của Google, tôi sẽ cố gắn có những kết luận liên quan đến việc làm SEO nhằm giúp bạn nắm và áp dụng vấn đề một cách sâu sắc hơn.

Trước đây, thời sơ khai của các công cụ tìm kiếm, hình thức tổ chức thường gặp của một bộ máy tìm kiếm là Directory (danh mục), tức là bộ máy tìm kiếm sẽ tạo ra hệ thống danh mục chứa các đường dẫn có các nội dung phù hợp. Khi có người dùng tìm kiếm, nó sẽ dựa vào hệ thống danh mục mà cho ra kết quả.

Khi các nội dung web ngày càng nhiều và nhu cầu tìm kiếm ngày càng cao, cách thức này bộc lộ nhiều yếu điểm, và thay thế vào đó là cách thức mới, và cũng là cách thức mà Google đang sử dụng. Tôi muốn nói đến hệ thống đánh chỉ mục,gọi là Index mà tôi sẽ mô tả dưới đây, và là nội dung chính của bài này, Google làm việc như thế nào.

Một cách tổng quát, Bộ máy tìm kiếm Google hoạt động dựa trên 4 cơ chế. Hãy nhìn thật kỹ hình dưới đây nhé, tôi sẽ giải thích sau.

Bộ Máy tìm kiếm hoạt động như thế nào

Bộ Máy tìm kiếm hoạt động như thế nào

Bộ Máy tìm kiếm hoạt động như thế nào

Bộ Máy tìm kiếm hoạt động như thế nào

Cơ chế 1: Crawl (thu thập dữ liệu): Đầu tiên, Google dùng các robot chuyên dụng của mình, gọi là Googlebot để truy cập vào các URL, tải và đọc nội dung rồi lấy các thông tin liên quan. Chức năng của nó giống như một trình duyệt web vậy.

Cơ chế 2: Index (Đánh chỉ mục): Sau khi crawl, Google đã có các nội dung và thông tin, đến bước này, Google phân loại từng phần trong trang web như text, image, css, javascript, header, footer, main content,… rồi lưu lại trong hệ thống máy chủ của Google theo một cách thức tổ chức bí mật.

Cơ chế 3: Analysis (Phân tích): Sau khi lập chỉ mục xong, Google tiến hành xử lý các dữ liệu và lập thống kê các số liệu liên quan đến URL này. Nhìn chung gồm có 2 phần đó là các thông số thống kê toàn cục (Số liên kết trỏ về, uy tín,…) và các thông số thống kê cục bộ (Kích thước, số từ, số câu, số đoạn, in đậm, in nghiêng, liên kết,…)

Cơ chế 4: Result (Kết quả): Cuối cùng, Google đã có một hệ thống dữ liệu lưu lại thông tin các trang web, khi có người dùng tìm kiếm, Google sẽ trả về kết quả theo thứ tự xếp hạng với các thuật toán bí mật.

Chi tiết về các cơ chế này sẽ được mô tả rõ trong 2 luồn làm việc mà tôi sẽ mô tả ngay sau đây. Một là cách thức Google làm việc khi thu thập dữ liệu, hai là cách thức Google làm việc khi cung cấp kết quả tìm kiếm cho người dùng.

1. Cách Google thu thập dữ liệu website

Khi bạn xuất bản một webpage và URL của nó được Google biết đến, quá trình thu thập dữ liễu sẽ diễn ra.

Toàn bộ cách thức Google làm việc khi thu thập dữ liệu được mô tả chi tiết trong hình dưới đây. Tôi đã vẽ nó đủ chi tiết và tổng quan để bạn có thể đọc một cách dễ dàng.

Quy trình phân tích một URL của Website

Quy trình phân tích một URL của Website

Quy trình phân tích một URL của Website

Quy trình phân tích một URL của Website

Giai đoạn 1: Đầu tiên, khi phát hiện có một URL mới, Google sẽ tiến hành cho Googlebot vào Crawl thu thập dữ liệu.

Làm sao Google biết URL để mà vào crawl? Rất đơn giản, bằng nhiều cách như 3 ví dụ dưới đây:

Ví dụ 1:  Google đang Crawl URL https://www.trungtamtinhoc.edu.vn và phát hiện trong nội dung có đặt URL2 https://www.trungtamtinhoc.edu.vn/khoa-hoc-hoc-lam-seo-nhanh/ thì ngay lập tức Google sẽ đồng thời cho Googlebot vào Crawl URL2 này.

Ví Dụ 2: Google đang Crawl website Vnexpress.net và phát hiện có URL2 https://www.trungtamtinhoc.edu.vn/nguyen-tac-co-ban-va-quy-trinh-lam-seo/, Googlebot cũng  sẽ đồng thời Crawl URL2 này.

Ví Dụ 3: Có một tập tin sitemap.xml tuân theo cấu trúc như được mô tả tại http://www.sitemaps.org/protocol.html. Khi Google biết đến tập tin này trên website của bạn, nó sẽ lấy các URL trong sitemap.xml làm điểm khởi đầu và Crawl các URL trong đó.

 

Nắm bắt được nguyên tắc cũng như các ví dụ trên, ta hoàn toàn có thể tăng khả năng được Googlebot vào crawl hay nói cách khác, làm giảm khoảng thời gian từ lúc xuất bản webpage và đến khi có mặt trên Google. Nói một cách đơn giản hơn, Giúp Google biết đến webpage của bạn sớm hơn :). Bằng cách tìm cách để lại liên kết của webpage mình một cách tự nhiên trên các website khác, nhất là các website có nội dung cùng chủ đề. Người ta gọi là Link building 

Giai đoạn 2&3 : Sau đó, Google sẽ tiến hành Index rồi phân tích các thông số của website như tôi đã nói ở trên. Trong quá trình index, Google sẽ có lưu lại bản cache, bạn có thể truy cập bản cache này bằng cách vào Google, sử dụng toán tử cache theo cấu trúc sau: cache:URL_của_bạn. Một điểm bạn nên lưu ý là Google index  từng phần trong trang web như title, description, keywords, text, image, css, javascript, header, footer, main content,… rồi lưu vào database của nó.

Giai đoạn 4: Hết sức cẩn thận, Google có giai đoạn Check again nhằm kiểm tra lại các thông số xem có hợp lý không, có giả mạo không bằng nhiều hình thức: Quality team, Webspam team, Social review, Report,…

Và đến lúc này, URL của bạn đã được lưu trữ hầu như trọn vẹn thông tin trong cơ sở dữ liệu của Google. Một phần thông tin còn lại sẽ được bổ sung trong quá trình người dùng tìm kiếm -> xem kết quả ->  click vào liên kết và sử dụng webpage của bạn. Đó hầu như là các thông tin thống kê, và là cực kì quan trọng, ảnh hưởng mạnh đến thứ hạng của webpage trên SERP.

Google thường xuyên cập nhật các thuật toán để cải thiện cho tốt hơn quá trình index và phân tích dữ liệu webpage cũng như thỉnh thoảng làm mới lại dữ liệu index trong database của Google. Một số thuật toán làm điên đảo các anh em làm SEO (nhất là các SEOer có sử dụng một số chiêu thức nhằm qua mặt Google) có thể kể đến thuật toán Panda và Penguin.

Vì vậy, các bạn làm SEO đừng hòng qua mặt Google mà hãy chăm lo phát triển nội dung thật tốt, làm sao cho người dùng yêu thích webpage và tương tác với webpage nhiều hơn, dễ dàng hơn.

Kết luận:

Trong phần này, bạn sẽ biết thêm một điều rằng không phải ngay khi bạn xuất bản trang web là lập tức webpage của bạn có mặt trên Google, mà phải mất một khoảng thời gian nhất định để Google bắt được URL và index nó, đưa nó vào datatbase. Khoảng thời gian đó có thể là vài giây, vài phút, vài giờ, vài ngày, vài tháng hoặc thậm chi là không bao giờ được Google index :)

Người làm tối ưu Google nói chung và bộ máy tìm kiếm nói riêng cần thấu đáo các bước này nhằm tránh gây khó khăn cho Googlebot trong quá trình thu thập dữ liệu, giúp Google hiểu đúng về webpage của bạn hơn.

2. Cách Google trả kết quả tìm kiếm

Ngay sau khi chúng ta gõ từ khóa tìm kiếm trong Google, Google lập tức, sau vài mili giây cho ta hàng triệu kết quả với các kết quả phù hợp nhất ở vị trí đầu. Phần này tôi sẽ trình bày cho các bạn cách thức và các yếu tố ảnh hưởng đến quá trình hiện và sắp xếp kết quả trên SERP.

Toàn bộ cách thức Google làm việc khi tìm và hiển thị kết quả được mô tả chi tiết trong hình dưới đây. Tôi đã vẽ đủ chi tiết và tổng quan để bạn có thể đọc một cách dễ dàng.

Quy trình trả về kết quả của Google

Quy trình trả về kết quả của Google

Quy trình trả về kết quả của Google

Quy trình trả về kết quả của Google

Giai đoạn 1: Đầu tiên, khi Bạn gõ một từ khóa vào ô tìm kiếm tức là bạn đã gửi một yêu cầu đến Google (Query Google) ra lệnh Google: “Ê Google, hãy tìm trong cơ sơ sổ dữ liệu của mày xem, mày có những gì mà mày nghĩ là phù hợp với từ tao đang tìm”

Các bạn chú ý câu lệnh trên nhé, là “tìm trong cơ sơ sổ dữ liệu của Google” chứ không phải “tìm trên Internet”, như tôi đã mô tả trong phần 1.

Ngay khi bạn gõ, Google đồng thời hiện các gợi ý, gọi là Google Suggest, những cụm từ khóa mà nó nghĩ là bạn đang muốn (căn cứ vào số người tìm, vào xu hướng, vào các từ hay bị viết nhầm, từ đồng nghĩa,…)

Giai đoạn 2: Sau đó Google sẽ lục lọi trong cơ sở dữ liệu và cho ra dãy các kết quả phù hợp với từ khóa bạn tìm (Initial result).

Giai đoạn 3: Tiếp theo, để hiện những kết quả phù hợp nhất lên đầu, Google qua bước sắp xếp, Sort Display. Dựa vào trên 200 yếu tố bí mật và hàng nghìn thuật toán. Có thể kể đến các yếu tố như:  Mức uy tín của website (Authority), Pagerank, Các thống kê người dùng,…

Đến đây Gogole hầu như đã có dãy các kết quả phù hợp, được xếp thứ tự ưu tiên và sẵn sàng hiển thị. Người học làm SEO hay quan tâm đến điểm này để ráng tác động vào các yếu tố, nhằm được Google “để ý” và thăng hạng trong SERP .

Giai đoạn 4: Để thuận lợi cho người dùng với giao diện trực quan, có điểm nhấn, Google hiển thị ra kết quả trên giao diện cuối cùng thông qua bước Filter. Bước này, Google sẽ phân loại (news, Book, Video,…) và hiển thị các Richsnippets, hiển thị đánh dầu nổi bật xu hướng (trending), nhóm cụm các kết quả, hiển thị  sitelinks,…

Khâu này rất quan trọng, người tối ưu bộ máy tìm kiếm thường để ý để giúp kết quả của mình hiển thị đẹp hơn, nổi bật hơn, nhằm tăng tỉ lệ click vào kết quả của mình .

Đó là lý do mà trên SERP,  đôi khi bạn thấy có những kết quả được trình bày lạ, có kết quả thì có kèm hình, kèm ngôi sao rating, kèm thumb của video,… Một số mẫu bạn có thể thấy như các hình dưới đây:

Kết quả Google SERP có avata của author, có địa chỉ của shop quanaosi.com

Kết quả Google SERP có avata của author, có địa chỉ của shop quanaosi.com

Kết quả Google với Google suggest

Kết quả Google với Google suggest

Kết quả Google SERP có ngôi sao rating và link trong Description

Kết quả Google SERP có ngôi sao rating và link trong Description

Kết quả Google có Sitelink

Kết quả Google có Sitelink

Kết quả Google có thumb video

Kết quả Google có thumb video

 

Bài kế tiếp, bài 3: Phương pháp nghiên cứu từ khóa trong SEO

Trần Triệu Phú – Trungtamtinhoc.edu.vn

 

Click Xem thêm: , , , , , ,