Skip links
유출된 구글 알고리즘 문서의 검색 순위 알고리즘 작동 원리

2024년 5월 구글 알고리즘 유출 문서의 검색 순위 알고리즘 핵심

지난 5월 말 구글의 검색 순위 알고리즘 내용이 있는 문서가 유출되었습니다. 이 문서에는 구글은 뉴스, YMYL, 개인 블로그 등 사업 모델을 식별하는 알고리즘을 갖고 있고, 가장 중요한 요소는 navBoost, NSR, ChardScores로 추측되고 있습니다. 또한 크롬 브라우저의 데이터와 클릭 데이터를 사이트 순위 요소로 사용한다는 내용을 담고 있습니다.

전 세계적으로 구글을 비롯한 빙, 네이버 등과 같은 검색 엔진에 대해서 높은 순위를 차지하기 위해 많은 관심과 노력을 하고 있습니다. 그 검색 엔진의 알고리즘 역시 파악하기 위해 많은 시간과 비용을 쓰고 있죠.

그런데 베일에 쌓여있는 알고리즘 문서가 유출이 되었습니다.

세계 최대, 최고의 검색 엔진의 구글 알고리즘 문서가 유출이 된 내용에 대해서 다뤄보도록 하겠습니다.

구글 알고리즘 문서 유출의 파장

한국과 해외 SEO 업체 및 단체, 커뮤니티들은 이번 유출 사건에 대해 매우 큰 관심을 쏟고 있습니다. 14,000개 이상의 구글 순위 원리 내용이 있는 알고리즘 문서가 유출이 되었습니다. 

2023년 Yandex의 검색 순위 알고리즘이 유출되었던 사건이 있었는데 이때 약 1,900개의 검색 순위 요소가 유출이 되었던 사건에 비하면 이번 구글 알고리즘 문서 유출은 매우 큰 사건이라고 할 수 있습니다.

검색 엔진이란 것은 사용자들이 검색을 통해 해당 검색에 대한 답변 또는 정보들을 알려주는 엔진을 검색 엔진이라고 합니다. 한국의 네이버, 다음, 네이트 등이 있고, 외국엔 구글, 빙, 야후 등이 있습니다.

이 검색 엔진의 알고리즘이 유출된 것이 큰 이슈인 이유를 알기 위해 먼저 검색 엔진의 큰 원리를 알아야합니다.

검색 엔진의 검색 엔진 결과 페이지(SERP)사용자의 검색 의도를 파악하고, 어떤 내용을 원하는지 어떠한 정보를 원하는지 고도로 발달된 알고리즘에 의해 검색 결과 순위를 매겨 사용자에게 노출 시켜 줍니다. 쉽게 말하면 정확한 정보, 가치 있는 정보를 전달하는 것이 검색 엔진의 본질이자 목표 입니다. 하지만 이 검색 노출 순위를 인위적으로 조작이 가능하다면, 잘못된 정보나 스팸 정보를 높은 노출 순위에 노출을 시켜버리면 사용자들은 잘못된 정보를 얻게 되는 상황이 생기게 됩니다.

그래서 구글과 같은 검색 엔진들은 이 알고리즘을 고도로 발달 시키고, 꾸준히 업데이트하여 더욱 정확하고, 사용자에게 가치가 있는 정보를 전달하기 위해 노력합니다.

그렇기 때문에 이러한 중요한 순위 알고리즘 요소가 유출이 되었다는 것은 한국을 비롯해 전 세계적으로 큰 이슈입니다.

이번 유출 사건으로 인해 많은 SEO 업계에 종사하시는 분들은 SEO 캠프를 많이 바뀔 것으로 예상이 됩니다.

이 문서는 매우 방대한 내용을 담고 있어 전문가도 파헤치고 분석하려면 꼬박 며칠 밤을 새워야 할 정도 입니다. 일반인은 내용 자체를 이해하기가 어려울 정도로 많은 내용을 담고 있습니다.

구글 검색 순위 요소 핵심 포인트

  • 구글에선 7가지 유형의 페이지랭크(PageRank)가 언급 되었고, 이 언급된 유형 중 하나는 많이들 아시는 ToolBarPageRank 입니다.
  • 구글은 뉴스, YMYL(Your Money Your Life), 개인 블로그(소규모 사이트), 전자상거래, 비디오 스트리밍 사이트 등 사업 모델을 식별하는 알고리즘을 갖고 있습니다.
  • 구글 알고리즘의 가장 중요한 요소는 navBoost, NSR, chardScores 로 추측 됩니다.
  • 구글은 크롬(Chrome)브라우저의 트래픽을 비롯해 사이트 전체 권한 측정 항목과 일부 사이트 전체 권한 시그널을 사용합니다.
  • 구글의 순위 점수를 매기는 기능에 페이지 임베딩, 사이트 임베딩, 사이트 포커스 및 사이트 반경을 사용합니다.
  • 구글은 배드 클릭(Bad Clicks), 굿 클릭(Good Clicks, 라스트 롱거스트 클릭(Last Longest Clicks), 사이트 전체 노출을 측정 요소로 사용합니다.

구글은 항상 도메인이나 사이트 권한 측정 요소( TF, CF, DA, Domain Age 등)을 사용하지 않으며, 클릭 데이터는 순위 요소에 사용하지 않는 다고 공개적으로 발표 해왔습니다. 하지만 이번 유출 사건으로 인해 지금까지 위 데이터를 비롯해 수 많은 데이터들을 사용하는 것을 알게 되었죠.

YMYL는 'Your Money or Your Life'의 약자로, 사용자의 삶에 중요한 영향을 미칠 수 있는 웹 페이지를 말합니다. 예를 들어 금융 정보, 건강 정보, 법률 정보와 같은 것들을 말합니다.

예시: 건강 관련 웹사이트 (예: 메이오 클리닉), 금융 조언 웹사이트 (예: 은행 웹사이트), 법률 상담 웹사이트.

navBoost는 구글 검색 알고리즘의 한 요소로, 사용자의 클릭 로그를 기반으로 페이지의 중요도를 재평가하는  기능입니다. 사용자가 검색 결과를 클릭한 후의 행동 데이터를 분석해 페이지의 실제 유용성을 평가하고, 검색 결과의 순위를 재조정 합니다.

구글이 사람들이 검색 결과를 클릭한 후 그 페이지에서 얼마나 오래 머무르고, 얼마나 많이 상호작용하는지를 보고, 그 페이지가 정말 유용한지 판단하여 순위를 다시 매기는 것.

NSR (Normalized Site Rank)은 구글의 검색 알고리즘에서 사이트 전체의 신뢰성과 권위를 평가하는 중요한 지표입니다. 이 지표는 개별 페이지가 아닌 사이트 전체를 평가하여, 검색 결과에서 해당 사이트의 순위를 결정하는 데 도움을 줍니다.

트래픽, 외부 링크, 사용자 행동 데이터 등의 다양한 신호를 수집하여 NSR을 계산

chardScores는 페이지의 품질을 평가하는 점수입니다. 여기에는 페이지의 콘텐츠 품질, 텍스트의 명확성, 정보의 깊이 등이 포함됩니다. 구글은 이 점수를 사용하여 페이지가 사용자에게 얼마나 유용한지를 판단합니다.

구글이 페이지의 글이 얼마나 잘 쓰여졌고, 얼마나 유용한지 등을 점수로 매기는 것.

페이지 임베딩은 페이지 내 텍스트와 콘텐츠를 숫자로 표현하여 페이지의 의미와 관련성을 평가하는 방법입니다. 이를 통해 구글은 페이지가 어떤 주제에 대해 이야기하고 있는지 더 잘 이해할 수 있습니다.

구글이 페이지의 내용을 숫자로 변환해서 그 페이지가 어떤 주제에 대해 이야기하는지 이해하는 방법.

사이트 임베딩은 전체 사이트의 콘텐츠를 숫자로 변환하여 사이트의 전반적인 주제와 관련성을 평가하는 방법입니다. 이를 통해 구글은 사이트 전체가 어떤 주제에 대해 집중하고 있는지 파악할 수 있습니다.

구글이 사이트 전체의 내용을 숫자로 변환해서 그 사이트가 어떤 주제에 집중하고 있는지 이해하는 방법.

사이트 초점은 사이트가 특정 주제에 얼마나 집중되어 있는지를 나타냅니다. 사이트 반경은 사이트 내 페이지들이 주제적으로 얼마나 일관성이 있는지를 측정합니다. 구글은 이를 통해 사이트의 주제 일관성을 평가합니다.

사이트 초점은 사이트가 하나의 주제에 얼마나 집중되어 있는지를 보는 것이고, 사이트 반경은 그 사이트의 모든 페이지가 얼마나 비슷한 주제에 대해 이야기하고 있는지를 보는 것.

구글 순위 노출 알고리즘 문서의 핵심적인 발견 내용

구글은 PQ 즉, PageQuality 라는 페이지의 품질에 대한 것이 존재 합니다. 이 PQ가 눈길을 끄는 이유는 구글은 LLM(Large Language Model)을 사용해 콘텐츠 페이지에 대한 ‘노력’을 추정한다는 것입니다. 이 노력이란 값은 구글이 해당 페이지를 쉽게 복제가 가능한지 여부를 판단하는데 사용 됩니다.

즉, 이미지나 비디오 등과 같은 시각적 자료, 타 권위 있는 웹 사이트내에 있는 고유한 정보 등을 사용하고 적절하게 인용함으로써 이 노력이라는 값을 추정한다는 것 입니다. 조금 더 쉽게 말하자면 이 콘텐츠를 읽는 사용자에게 만족감을 주는 것을 ‘노력’ 이라고 칭한다는 것 입니다.

그리고 토픽 경계와 토픽 권위가 실제로 요소로 작용한다는 것 입니다. 토픽 권위는 특허 연구를 기반으로 한 개념으로, 특허를 읽어본다면 SEO가 특허에서 수집한 많은 전문가들의 의견들이 이번 유출로 인해 뒷받침한다는 것을 알게 됐습니다.

알고리즘 유출에서 사이트 포커스 스코어(siteFocusScore), 사이트 반경(Site Radius), 사이트 임베딩(Site Embeddings), 페이지임베딩(Page Embeddings)이 구글 검색 순위에서 사용된다는 것을 볼 수 있습니다.

이 내용들이 핵심적인 이유는 임베딩 알고리즘을 안다면 페이지를 최적화해 구글 알고리즘이 더욱 잘 이해할 수 있는 방식으로 콘텐츠를 제작할 수 있다는 것 입니다.

LLM은 'Large Language Model'의 약자입니다. 이는 대형 언어 모델을 의미하며, 매우 큰 데이터셋을 학습하여 자연어 처리를 수행하는 인공지능 모델을 지칭합니다. 구글과 같은 회사들은 LLM을 사용하여 텍스트의 의미를 이해하고, 다양한 언어 작업을 수행합니다.

LLM은 구글 페이지 품질을 평가할 때 사용하는 대형 언어 모델로, 페이지 또는 콘텐츠가 얼마나 잘 작성되어 있는지, 얼마나 고유한 정보를 제공하는지 평가하는데 사용 됩니다. 관련 이미지나 비디오를 사용한다면 페이지의 품질을 높게 본다는 것

siteFocusScore는 구글 검색 알고리즘의 한 요소로, 사이트가 특정 주제에 얼마나 집중되어 있는지를 평가하는 점수입니다. 이 점수는 구글이 사이트의 내용을 이해하고, 해당 사이트가 특정 주제에서 얼마나 전문적이고 신뢰할 수 있는지를 판단하는 데 도움을 줍니다.

siteFocusScore는 사이트가 특정 주제에 얼마나 집중되어 있는지를 점수로 나타낸 것

페이지 임베딩은 페이지 내 텍스트와 콘텐츠를 숫자로 표현하여 페이지의 의미와 관련성을 평가하는 방법입니다. 이를 통해 구글은 페이지가 어떤 주제에 대해 이야기하고 있는지 더 잘 이해할 수 있습니다.

구글이 페이지의 내용을 숫자로 변환해서 그 페이지가 어떤 주제에 대해 이야기하는지 이해하는 방법.

사이트 임베딩은 전체 사이트의 콘텐츠를 숫자로 변환하여 사이트의 전반적인 주제와 관련성을 평가하는 방법입니다. 이를 통해 구글은 사이트 전체가 어떤 주제에 대해 집중하고 있는지 파악할 수 있습니다.

구글이 사이트 전체의 내용을 숫자로 변환해서 그 사이트가 어떤 주제에 집중하고 있는지 이해하는 방법.

사이트 초점은 사이트가 특정 주제에 얼마나 집중되어 있는지를 나타냅니다. 사이트 반경은 사이트 내 페이지들이 주제적으로 얼마나 일관성이 있는지를 측정합니다. 구글은 이를 통해 사이트의 주제 일관성을 평가합니다.

사이트 초점은 사이트가 하나의 주제에 얼마나 집중되어 있는지를 보는 것이고, 사이트 반경은 그 사이트의 모든 페이지가 얼마나 비슷한 주제에 대해 이야기하고 있는지를 보는 것.

이미지 품질 :ImageQualityClickSignals

ImageQualityClickSignals는 클릭 데이터로 이미지의 품질을 측정합니다.

이미지 품질 데이터 모듈에서 자세한 내용을 확인할 수 있습니다.

호스트 NSR :HOST Normalized Site Rank

NSR은 ‘Normalized Site Rank’의 약어로 구글의 검색 알고리즘에서 사이트 전체의 신뢰성과 권위를 평가하는 중요한 지표입니다.

호스트 NSR은 사이트 섹션에서 계산되는 사이트 랭크로, 도메인의 일부를 측정해 사이트 랭크를 측정하는 시스템입니다. 구글은 페이지별, 문단별 및 토픽 별로 이미 이 지표를 사용하고  있습니다.

NavBoost

NavBoost에 대해서는 다른 의견들이 더 나와야하지만, 이번 유출 문서에서 가장 많이 언급되고 있는 순위 요소  중 하나 입니다. NavBoost는 사용자의 클릭 로그를 기반으로 순위를 재조정합니다. 구글은 이미 여러번 공개적으로 클릭데이터는 사용하지 않는다고 했지만, 구글 법원 소송에서 해당 부분이 언급이 되며, 이 데이터에 어느 정도 중요성이 있다는 것이 증명됐습니다.

그리고 이 클릭 데이터, 사용자 데이터는 크롬 브라우저의 데이터가 사용된 다는 것을 알 수 있습니다.

구글의 특허 내용에 보면 클릭 데이터가 유출 문서와 관계가 있음을 알 수 있습니다.

물론 어디까지나 추측이고, 구글의 공개 발표가 아니지만, 어느 정도 데이터로 확인이 되며, 이번 유출 내용에서 판다, 베이비 판다, 베이비 판다 V2가 언급되는 것을 보면 어느 정도 신빙성이 있어 보입니다.

그리고 아래에서 다시 한번 이야기 하겠지만, 이 클릭 데이터를 통해서 사이트 순위 하락 요소에도 사용이 된다는 것 입니다.

HOST AGE

도메인 나이(Domain Age)는 아마 자주 들어보셨을 거리라 생각합니다. 도메인 나이는 들어봤지만 호스트 나이는 처음 들으실 수 있습니다. 호스트 나이(Host Age)는 웹 사이트의 서버나 도메인의 나이을 의미 하는데, 구글의 알고리즘에서 웹 사이트의 나이는 직접적인 순위를 측정하는 점수에 고려되지 않지만, 호스트 연령은 중요한 역할을 할 수 있습니다. 특히, 새로운 스팸 사이트를 감지 하고 샌드 박스를 처리하는데 사용됩니다.

이 도메인 나이와 호스트 나이는 비슷한 개념을 갖고 있지만 약간의 차이가 있습니다.

도메인 나이도메인이 처음 등록된 시점을 기준으로 경과한 시간이며, 도메인의 나이는 오래 될 수록 신뢰도가 높아질 수 있지만, 단순히 오래되고 나이가 많은 도메인이라고 해서 무조건 높은 노출 순위를 보장하지 않습니다.

호스트 나이사이트가 호스팅된 서버의 나이나 도메인 나이를 포함한 개념으로, 새로 만들어진 사이트가 검색 결과에서 샌드박스 처리되는데 사용됩니다. 스팸 방지 목적입니다.

즉, 호스트 나이는 웹사이트의 서버나 도메인이 얼마나 오래되었는지를 의미합니다. 구글은 새로운 사이트가 스팸인지 아닌지를 판단하기 위해 초기에는 낮은 랭킹을 주는 샌드박스 처리를 할 수 있습니다. 시간이 지나면서 사이트가 신뢰할 수 있음을 입증하면 랭킹이 상승할 수 있습니다.

샌드박스는 새로운 웹 사이트가 구글 검색 결과에서 일정 기간 동안 낮은 순위를 유지하는 현상을 말합니다. 주로 스팸 사이트를 방지하기 위한 매커니즘으로 생각할 수 있습니다.

웹 페이지의 모든 버전 기록

어디까지나 추측이지만, 어느정도 논리적으로 들어맞는 신빙성이 있습니다.

이번 유출된 문서에서 나오는 내용은 구글은 웹 페이지의 모든 버전을 기록한다는 것 입니다. 즉, 5월1일에 게시한 내용과 5월 15일에 게시한 내용을 기록한다는 것 입니다.

페이지를 업데이트 하고 크롤링을 기다린 후 색인되는 과정을 20번 반복하면 페이지의 특정 버전이 밀어내기 식으로 기록된다는 것 입니다. 이전 내용의 버전이 다양한 가중치 및 점수와 연관되어 있다는 것을 가정한다면 유용하게 써먹을 수 있는 정보 입니다. 

유출 문서에서는 중요한 업데이트와 업데이트라는 두 가지 형태의 업데이트를 기록하고 있다고 하지만, 추측에 불과합니다.

구글 검색 순위 시스템

머스탱(Mustang)구글의 기본 점수 시스템으로 검색 결과 순위를 재조정 이전에 순위를 매기는데 사용됩니다. 8가지의 요소가 있는데, 각 요소의 설명입니다.

어떻게 구글이 웹 페이지를 크롤링하고, 인덱싱과 효율적으로 검색 결과에 순위를 매기는지 알 수 있습니다.

Freshness/Twiddler는 페이지의 신선도를 기반으로 재랭킹을 수행합니다. 최신 콘텐츠를 선호하며, 업데이트된 페이지는 더 높은 점수를 받을 수 있습니다.

최근에 게시되거나 업데이트된 뉴스 기사나 블로그 포스트가 있습니다.

Fresh Docs는 신선도 링크 곱셈기를 사용하여 페이지의 랭킹에 영향을 미칩니다. 새로운 페이지에서 오는 링크는 기존 페이지에서 오는 링크보다 더 높은 가치를 가집니다.

게스트 포스트나 새로운 페이지에 추가된 링크가 더 높은 점수를 받을 수 있습니다.

Homepage Trust는 구글이 홈 페이지에 대한 신뢰도를 기반으로 링크의 신뢰도를 평가합니다. 신뢰할 수 있는 홈 페이지에서 오는 백링크는 더 높은 가치를 가집니다.

관련성 있는 콘텐츠를 가진 신뢰할 수 있는 사이트에서의 백링크가 있습니다.

Document Length,구글은 최대 문장 부호와 단어 수를 가지고 있으며, 이를 통해 문서의 길이를 평가합니다. 중요한 콘텐츠를 문서 초반에 배치하는 것이 중요합니다.

중요한 정보를 문서의 앞부분에 배치하여 검색엔진이 더 쉽게 인식할 수 있도록 합니다.

Navboost는 사용자의 클릭 로그를 기반으로 재랭킹을 수행합니다. 사용자 행동 데이터를 분석하여 페이지의 실제 유용성을 평가합니다.

사용자가 검색 결과에서 특정 페이지를 클릭한 후 오랜 시간 머무를 경우, 해당 페이지의 랭킹이 상승할 수 있습니다.

Avg. Term Weight는 용어의 중요성을 높이기 위해 굵게 표시된 단어들이 점수에 영향을 미칩니다. 굵게 표시된 용어는 해당 용어의 중요성을 증가시킵니다.

키워드를 굵게 표시하여 검색엔진이 해당 키워드의 중요성을 더 잘 인식하도록 합니다.

Short Content Score는 원본성에 기반하여 평가됩니다. 짧은 콘텐츠가 반드시 얕은 콘텐츠를 의미하지는 않습니다. 오히려 고유하고 관련성 높은 정보를 제공할 수 있습니다.

간결하지만 유용한 정보를 제공하는 블로그 포스트가 있습니다.

Title Match Score는 제목이 검색 쿼리와 얼마나 잘 일치하는지를 평가합니다. 제목이 검색 쿼리와 밀접하게 관련되어 있을수록 더 높은 점수를 받습니다.

사용자가 입력한 검색어와 일치하거나 유사한 제목을 가진 페이지가 있습니다.

인덱싱 매커니즘

구글의 인덱싱 매커니즘은 가장 중요한 콘텐츠와 정기적으로 업데이트 되는 콘텐츠를 저장하는 플래시 드라이브, 비교적 덜 중요한 콘텐츠를 저장하는 SSD, 불규칙적으로 업데이트 되는 콘텐츠를 저장하는 스탠다드 하드 드라이브 이렇게 총 3개의 계층 구조가 있습니다.

구글의 인덱싱 시스템의 이름은 알렉산드리아(Alexandria)로 수집된 웹 페이지를 구조화하고 저장하며, 검색 쿼리에 응답할 때 효율적으로 제공하기 위해 사용 됩니다. 인덱스된 모든 문서와 데이터를 관리하고, 검색 엔진이 빠르고 정확하게 정보를 제공할 수 있도록 하는 역할을 합니다. SegIndexerTeraGoogle으로 두 가지의 인덱서가 널리 사용됩니다.

문서를 인덱싱해 계층으로 분류하는 SegIndexer, 오랜 기간 동안 보관이 필요한 문서를 저장하고 관리하는 TeraGoogle이 있습니다.

가장 중요한 콘텐츠와 정기적으로 업데이트되는 콘텐츠를 저장하며, 빠른 접근이 필요한 중요한 데이터를 저장해 검색 엔진의 성능을 최적화하는 역할을 합니다.

비교적 덜 중요한 콘텐츠를 저장하며, 플래시 드라이브보다는 덜 중요하지만 여전히 빠른 접근이 필요한 데이터를 저장하는 역할을 합니다.

불규칙적으로 업데이트되는 콘텐츠를 저장합니다. 덜 중요한 데이터나 자주 업데이트 되지 않는 데이터를 저장하는 역할을 합니다.

SegIndexer는 문서를 인덱싱해 계층으로 분류하는 시스템으로 중요한 문서일수록 상위 계층에 배치가 되며, 덜 중요한 문서는 하위 계층에 배치되는 방식으로 작동합니다.

TeraGoogle은 장기 문서(Long-Term Documents)를 위한 인덱서로 오랜 기간 동안 보관이 필요한 문서를 저장하고 관리하며, 대규모 데이터 저장소로 장기 보관이 필요한 문서들을 효율적으로 관리합니다.

짧은 콘텐츠 도 높은 순위가 될 수 있음

대부분, 아니 거의 모두가 콘텐츠가 길면 길 수록 정보의 깊이가 길고, 훌륭한 콘텐츠라고 생각했을 겁니다.

하지만 이번 문서를 내용을 보면 의외로 짧은 콘텐츠로도 순위를 매길 수 있다는 것이 밝혀졌습니다. 단, 여기서 말하는 짧은 콘텐츠는 얕은 콘텐츠와는 다릅니다.

정리가 잘되어 있으며, 명확한 정보를 전달하고, 독창적이면서 관련성이 높다면 짧은 콘텐츠로도 순위가 매겨집니다.

품질 NsrNsrData (Quality NsrNsrData)

아래는 문서 중 NsrNsrData 항목에서 가장 핵심적인 검색 순위 점수 요소입니다.
품질 NsrNsrData는 구글의 검색 알고리즘에서 사이트와 페이지의 품질을 평가하기 위해 사용되는 다양한 점수 요소들을 포함한 데이터입니다. 이 데이터는 검색 결과의 순위를 결정하는 데 중요한 역할을 합니다.  NsrNsrData 문서에서 언급된 주요 점수 요소들입니다.

titlematchScore는 사이트 전체의 제목이 사용자 검색어와 얼마나 잘 일치하는지를 평가하는 점수입니다. 이 점수는 사이트 전체의 타이틀이 사용자 검색 쿼리와 얼마나 잘 맞는지를 나타내는 신호로 사용됩니다.

사이트의 모든 페이지 제목이 사용자가 입력한 검색어와 얼마나 잘 맞는지를 평가하는 점수를 말합니다.

사용자가 ‘최고의 요리법’을 검색했을 때, 사이트 내의 모든 페이지 제목이 이 검색어와 얼마나 관련성이 있는지를 평가합니다.

site2vecEmbedding은 word2vec과 유사하게 사이트 전체를 벡터화하여 표현하는 방법입니다. 이 벡터는 사이트의 콘텐츠를 숫자 벡터로 변환하여, 사이트가 어떤 주제에 대해 이야기하고 있는지 이해하는 데 도움을 줍니다.

사이트의 모든 콘텐츠를 숫자로 변환하여 그 사이트가 어떤 주제에 집중하고 있는지를 이해하는 방법을 말합니다.

요리 사이트는 요리 관련 용어들로 구성된 벡터를 가지게 되어, 구글은 이 사이트가 요리에 관한 것임을 쉽게 이해할 수 있습니다.

pnavClicks는 사용자 클릭 데이터에서 파생된 탐색 정보를 참조하는 점수로 추정됩니다. pnav가 정확히 무엇을 의미하는지는 명확하지 않지만, 사용자 행동 데이터를 기반으로 한 클릭 정보를 의미할 가능성이 높습니다.

사용자가 사이트에서 어떻게 클릭하고 탐색하는지를 보여주는 데이터를 말합니다.

사용자가 사이트 내에서 특정 링크를 많이 클릭하면, 그 링크가 중요하다고 판단할 수 있습니다.

chromeInTotal은 사이트 전체에서 크롬(Chrome) 브라우저를 통한 조회 수를 의미합니다. 이는 특정 페이지가 아닌 사이트 전체에 걸친 데이터를 사용하여 평가됩니다.

사이트가 크롬 브라우저에서 얼마나 많이 조회되었는지를 평가하는 지표입니다.

사이트의 페이지들이 크롬 브라우저에서 많이 열리면, 그 사이트의 전체 신뢰도가 높아질 수 있습니다.

chardVariance와 chardScoreVariance는 Google이 사이트나 페이지의 품질을 콘텐츠 기반으로 예측하는 점수입니다. 이는 사이트나 페이지의 품질이 얼마나 일관성 있게 유지되는지를 평가하는 데 사용됩니다.

사이트나 페이지의 품질이 얼마나 일관성 있게 유지되는지를 평가하는 점수입니다.

한 페이지가 고품질 콘텐츠를 제공하고 있지만 다른 페이지들은 그렇지 않다면, chardVariance 점수가 높아질 수 있습니다. 일관성 있게 모든 페이지가 고품질 콘텐츠를 제공하는 사이트는 더 좋은 점수를 받을 것입니다.

NSR, Qstar

Qstar에는 사이트 권한과 NSR 관련 점수가 모두 적용되는 것으로 보여집니다. 구글의 검색 알고리즘에서 사이트의 권위와 신뢰성을 평가하는 중요한 요소로써, 이 두 요소는 전반적인 품질을 평가하고, 검색 결과에서 해당 사이트의 순위를 결정하는데 중요한 역할을 합니다.

NSR은 사이트를 전체적으로 평가하고, 다양한 신호를 사용해 사이트의 중요도를 평가하는 역할을 하고, Qstar는 NSR과 관련된 여러 점수들을 종합해 웹 사이트의 전반적인 점수를 계산하고 검색 결과에 반영하는 역할을 합니다.

NSR의 주요 역할을 개별페이지가 아닌 사이트 전체를 종합적으로 평가하는데, 사이트가 얼마나 신뢰할 수 있고 권위 있는지를 판단하는데 사용합니다. 예를 들어 뉴스 사이트의 모든 기사를 평가해 해당 뉴스 사이트를 전체적으로 신뢰할 수 있는지 판단합니다. 이때 NSR은 트래픽 데이터, 외부 링크, 사용자 행동 데이터 등 다양한 신호를 사용해 사이트의 중요도를 평가합니다. 그리고 사이트를 평가할 때는 여러 섹션으로 나누어 각 섹션의 중요도를 평가하기 때문에 사이트의 다양한 부분을 종합적으로 평가가 가능합니다.

Qstar는 NSR과 관련된 여러 점수를 종합해 웹 사이트의 전반적인 점수를 계산하는 시스템인데, 각 섹션의 NSR 점수를 종합해 전체 사이트의 Qstar 점수를 계산합니다. 그리고 NSR뿐만 아니라 다른 품질 평가 요소들을 통합해 종합적인 점수를 계산합니다.

titlematchScore, site2vecEmbedding, pnavClicks, chromeInTotal, chardVariance 및 chardScoreVariance 등 요소들이 여기에 포함될 수 있습니다.

이를 통해 점수를 계산하고 구글 검색 결과에서 사이트의 순위를 결정하는 직접적인 역향을 미치는 시스템입니다.

스팸(Spam)

구글의 스팸 필터링 시스템으로 다양한 요소를 고려해 웹 페이지와 링크의 품질을 평가하고, 스팸을 감지하는데 사용됩니다. 이 시스템은 검색 결과에서 사용자에게 신뢰할 수 있는 정보를 제공하기 위한 시스템으로 문서에는 7가지 요소가 언급되어있습니다.

gibberishScores는 저품질의 회전되는 콘텐츠(스피너), 필러 AI 콘텐츠 및 아무런 의미가 없는 내용을 감지 하는 점수로 구글은 이런 유형의 콘텐츠를 식별하고 검색 결과에서 낮은 점수를 매갑니다.

콘텐츠 텍스트의 논리가 일관되는지, 문법적으로 정확한지 등을 분석을 합니다.

PhraseAnchorSpamPenalty는 앵커 텍스트와 관련된 스팸을 감지해 점수를 감점하는 패널티 입니다. 링크 자체나 링크 권위에 대한 강점이 아닌 앵커 텍스트 자체에 대한 감점입니다.

앵커 텍스트가 자연스러운지, 관련성이 있는지를 감지해, 스팸으로 판단이 될 경우 해당 링크의 신뢰도를 낮춥니다.

 

 

trendSpam는 클릭율(CTR) 조작과 관련된 스팸을 감지하는 점수로 트렌드 스팸 쿼리수를 기반으로 타 사이트나 이 평균치에 대비해 비정상적으로 높은 클릭율을 감지해 스팸인지 여부를 식별합니다.

keywordStuffingScore는 키워드 스터핑(과도한 키워드를 삽입)를 감지하는 점수 입니다.

특정 키워드를 무분별하고 과도하게 반복해 사용하는 스터핑 행동을 감지하는데 이때 페이지 내의 키워드 빈도를 분석합니다.

spamBrainTotalDocSpamScore는 구글의 스팸 감지 시스템인 SpamBrain이 식별한 스팸 점수로 0에서 1까지의 범위로 부여됩니다.

SpanBrain은 머신 러닝 알고리즘을 사용해 페이지의 스팸 여부를 평가 합니다.

 

spamRank는 문서가 알려진 스패머와 연결된 가능성을 측정하는 점수로 0과 65535 사이 값으로 부여 됩니다. 링크 프로필과 연관된 데이터를 분석해 이 점수를 계산합니다.

spamWordScore는 특정 단어가 스팸과 관련이 있을 때 부여되는 점수로 주로 앵커 텍스트와 관련되어 있습니다. 텍스트 내의 특정 단어의 사용 빈도와 콘텐츠의 맥락을 분석합니다.

구글 검색 순위 알고리즘 유출 문서 에서 알 수 있는 9가지의 필수 체크 리스트

유출된 문서의 내용에 보면 몇 가지의 중요한 요소들이 있는 것을 알 수 있었습니다. 이 요소들 중 잘 이용한다면 SEO, 구글 상위 노출과 관련해서 더욱 이점을 볼 수 있지 않을까 합니다.

NavBoost에 맞게 최적화할 수 있도록 직관적인 구조와 디자인을 설계되었는지 체크 해봐야합니다.

사용자가 쉽게 사용할 수 있는 명확한 구조와 디자인을 갖춘 웹 사이트는 사용자 경험을 향상시킬 수 있도 클릭 로그를 기반으로 하는 NavBoost 점수에 중점을 두어야 합니다.

  • 간단하고 명확한 메뉴 구조를 설계 할 것
  • 사용자가 원하는 정보가 있는 콘텐츠에 접근할 수 있도록 쉽게 메뉴를 설계 할 것
  • 반응형 디자인을 통해 다양한 기기에서도 쾌적한 사용을 가능하게 할 것

예를 들어 SEO에 관한 사이트라면 SEO에 관련이 없는 콘텐츠와 페이지는 삭제 해야 합니다. 사이트의 주제를 일관성 있게 유지하는게 중요 합니다.

  • 사이트의 주제를 명확히 하고, 해당 주제와 관련이 없는 콘텐츠나 페이지를 확인해 삭제 할 것
  • 주제가 다양하다면, 이 주제를 상황에 맞게 잘 연결 시켜 연관성을 유지 할 것
  • 각 페이지의 내용은 주제에서 벗어나지 않으면서 고품질의 콘텐츠를 작성할 것

임베딩은 페이지별로, 사이트 전체에서 사용되는 요소이기 때문에 이 쿼리에 대한 제목과 내용을 최적화해야 합니다.

  • 키워드 분석을 통해 사용자들이 자주 검색 하는 키워드를 파악 할 것
  • 제목에는 꼭 주요 키워드를 포함시켜서 구성하고, 내용에는 주요 키워드와 이와 연관된 키워드를 사용해서 내용을 작성할 것

클릭수와 노출수는 사이트의 주제 별로 집계 및 적용되므로 더 많은 노출수와 클릭수를 얻을 수 있는 콘텐츠를 작성해야 합니다.

  • 사용자가 관심을 가질 만한 유익하고 재미있는 콘텐츠를 작성할 것
  • 클릭을 일으키는 과감하고 직관적인 제목과 설명을 사용할 것
  • 정기적으로 콘텐츠를 꾸준하게 업데이트해 최신성을 유지할 것

비정기적으로 업데이트 되는 콘텐츠는 구글 인덱싱 매커니즘 저장소에 가장 낮은 우선 순위로 저장됩니다.

꾸준하게 최신 정보의 콘텐츠를 게시하면 우선 순위가 높은 저장소에 저장 됩니다.

  • 고유한 정보, 새로운 이미지, 동영상 등을 콘텐츠에 추가해 콘텐츠의 품질을 높일 것
  • 콘텐츠를 가볍게 작성하지 말고, 정보 탐색을 통해 정확한 정보와 깊이가 있게 작성할 것

바로 위에서도 잠시 말했듯이 콘텐츠의 품질은 매우 중요 합니다. 가볍게 작성하지 말고, 깊은 정보를 담아 콘텐츠를 작성 합니다.

  • 고품질 콘텐츠를 작성할 것
  • 사이트의 모든 페이지, 모든 글이 모두 품질이 뛰어나도록 작성하고 수정할 것

웹 사이트의 노출수는 NSR 데이터에서 매우 중요한 요소 입니다. 노출이 많을 수록 사이트의 권위, 신뢰성을 높일 수 있습니다.

  • 더 많은 콘텐츠를 작성해 주제의 연관성을 높일 것
  • 사이트 맵을 꾸준히 업데이트해 검색 엔진에서 지속적으로 웹 사이트를 크롤링할 수 있도록 할 것

엔터티는 고유한 이름이나 특정할 수 있는 것을 말합니다. 사람으로 치면 '일론 머스크', '워렌 버핏'을 말하고, 장소일 경우 '대한민국', '뉴욕', 사물일 경우 '아이폰', '그래픽 카드', 개념의 경우 'AI', '암호화폐' 등 이렇게 특정할 수 있는 명확한 것을 말합니다.

이렇게 명확한 것을 언급하며 콘텐츠를 작성할 경우 관련성을 높다고 평가 받을 수 있습니다.

  • 콘텐츠에서 중요한 엔터티를 명확하게 표시하고 설명할 것
  • 구조화된 데이터를 사용해 검색 엔진이 내용을 잘 이해할 수 있도록 할 것

노출이나 클릭이 매우 저조한 페이지나 콘텐츠는 미련 없이 삭제 합니다. 사이트의 신뢰를 떨어뜨려 순위 점수에서 부정적입니다.

  • 구글 서치 콘솔, 구글 애널리틱스 등 툴을 활용해 실적이 저조한 페이지나 콘텐츠는 삭제 할 것
Telegram
Home
Search