SEO 是否低估了 Yandex 洩漏？

已發表: 2023-04-01

許多 SEO 很快就排除了 Yandex 源代碼洩漏的問題。他們缺少什麼嗎？還是 SEO 低估了洩漏可以幫助他們學習和理解 SEO 的內容？

這是一個小背景故事：

據報導，在 2023 年 1 月底，一些黑客獲得了大約 45GB 的 Yandex 源代碼，包括它們的係數（權重）和排名因素列表。

這相當於找出谷歌的搜索算法。圍繞它有很多炒作，SEO 社區的很大一部分一直在夜以繼日地工作，試圖解碼這些材料。

然而，這並非沒有一些懷疑 Thomas，他很快用以下論點駁回了洩密事件：

Yandex 不是谷歌
我們無法確定洩漏是否真實
這種對排名因素的痴迷是什麼？
那隻是一個副本。 Yandex 抓取了谷歌。
洩漏只是 Yandex 源代碼的一小部分。它沒有說明 Yandex 如何對網站進行排名。
這裡沒有什麼新鮮事。
代碼回購已過時

這是在尖叫無知，還是他們是對的？

洩漏可能不全面，但仍然有幫助。即使代碼已過時，它也揭示了搜索引擎是如何演變的。

我們大多數人從未遇到過對現代搜索引擎如何工作的更好見解。我們所知道的很多都是純粹的猜測。

我們的看法：我們看到的反應主要是基於對未知的恐懼、錯誤、解釋空間較小以及浪費時間和精力。

謹慎是可以的，但徹底駁回洩漏是無知的尖叫。

不要掉隊——讓我們深入探索。

Yandex 源代碼洩漏最常見的反對意見

The Most Common Objections to the Yandex Source Code Leak | MediaOne Marketing Singapore

一些 SEO 很快就忽視了這種洩漏的可能性，並提出了一些有趣的反對意見。讓我們檢查一下這些論點，看看它們是否站得住腳。

反對意見 1：Yandex 不是 Google

Yandex 和 Google 確實是兩個截然不同的搜索引擎。但是當你比較他們的搜索結果時，你會發現一些重疊。

讓我們運行一些搜索查詢並比較結果。例如，在 Yandex 和 Google 上搜索“最好的信用卡”。

以下是前十名的結果：

最佳信用卡
	谷歌	Yandex
位置 1	2023 年新加坡最佳信用卡 \| 現在申請！ – 精明理財	2023 年新加坡最佳信用卡 \| 現在申請！ – 精明理財
位置 2	2023 年新加坡最佳信用卡 – 價值冠軍	滿足所有需求的新加坡 5 大最佳信用卡計劃（2021 年）——Bestinsingapore
位置 3	新加坡最佳信用卡促銷（2023 年 3 月）——Sing Saver	2023 年新加坡最佳信用卡 \| Finder 新加坡 – finder.com
位置 4	2023 年新加坡最佳信用卡 – Seedly	比較新加坡最好的信用卡 [2023] – Finty
位置 5	新加坡最佳信用卡開卡獎勵（2023 年 3 月）– Suite Smile	新加坡總支出最佳的 5 張信用卡（2023 年）——即時貸款
位置 6	比較新加坡最好的信用卡 [2023] – Finty	新加坡信用卡：2023 年 2 月優惠 \| 歌保
位置 7	比較新加坡信用卡 – 星展銀行	2021 年新加坡 5 大最佳信用卡 – YouTube
位置 8	申請信託信用卡 \| 新加坡信託銀行	網上購物和移動支付的最佳信用卡 - 價值冠軍

如您所見，一半的結果是相同的。

1/10 的結果保持相同的位置。

現在讓我們對其他關鍵字做同樣的事情，看看它們是如何疊加的：

關鍵詞	前 10 名中相似結果的數量	相同位置的結果數
新加坡最好的信用卡	5/10	1/10
紐約最好的酒店	6/10	0/10
最好的 CRM 軟件	2/10	0/10
如何在 Git 中刪除一個分支	3/10	1/10
如何訓練小狗如廁	1/10	1/10
莫斯科 3 居室公寓	5/10	0/10
普通感冒症狀	2/10	0/10

你可以爭論哪個結果更好，但重疊告訴我們一些有趣的事情。這表明兩個搜索引擎中都存在相似的排名因素，而且它們並不完全不同。

因此，Yandex 不是 Google 的事實並不意味著洩漏無關緊要。

異議 2：我們無法確定洩漏是否真實

Yandex 官方確認洩漏，所以毫無疑問它發生了（來源）。

但如果您不相信，請查看代碼的存儲庫。您可以將它與其他項目進行比較，看看結構、格式和語法如何與您對專業代碼的期望相匹配。

異議 3：這種對排名因素的痴迷是什麼？

當您考慮投入 SEO 的時間和金錢時，對排名因素的痴迷是可以理解的。想要在競爭中佔據優勢是很自然的。

另請閱讀如何啟動在線學習學院？

了解排名因素可以幫助您更好地優化網站。它讓您了解搜索引擎的工作原理，並使您能夠相應地定制您的內容。

反對意見 4：那隻是一個副本。Yandex 抓取了谷歌

從 Yandex 洩漏中發現的一些排名因素與穀歌使用的因素相匹配。但這並不意味著 Yandex 複製了他們的算法。

獲取谷歌排名廣告

這兩個搜索引擎使用不同的方法來計算內容相關性。 Yandex 有自己獨特的方法，您可以在代碼庫中看到。

Yandex 可能藉鑑了 Google 的一些最佳實踐，但代碼中仍有許多獨特的賣點。

異議 5：洩漏只是 Yandex 源代碼的一小部分

這可能是真的，但它仍然讓我們深入了解 Yandex 的工作原理。源代碼是難題的重要組成部分；了解它可以提供有價值的信息。

大多數 SEO 提出的論點是，只有一個存儲庫被洩露，這樣一個巨大的搜索引擎不能歸結為一個單一的代碼存儲庫。

好吧，儘管 Google 的大部分搜索引擎都基於單個存儲庫，但它仍然是世界上最強大的搜索引擎。

來源

反對意見 6：這裡沒有什麼新鮮事

事實上，從 Yandex 源代碼洩漏中發現的大多數排名因素都不是開創性的。它們是我們已經知道並且多年來一直在談論的事情。

但事實並非如此：

我們聲稱已經知道的純粹是推測。

我們通過經驗、實驗、理論研究、軼事等了解 SEO。

直到現在，我們還從未在源代碼中看到過這些排名信號。這是專業人士第一次能夠證實這些理論並有真實的證據來支持它們。

Yandex 源代碼的 SEO 亮點

一些 SEO 自行研究源代碼並分解他們發現的內容。

這兒是一些精彩片段：

#1。Martin MacDonald 的 Yandex 排名因素列表

Web Marketing School 的作者兼創始人Martin MacDonald從源代碼洩漏中編制了一份 Yandex 排名因素列表。

他發現有超過 1922 個單獨的排名因素，從頁面排名 (PR) 開始，然後轉向基於文本/內容的元素、元標記、鏈接結構等。

Ben Wills 仔細檢查了代碼併計算了實際數字。事實證明， Yandex 有 17854 個排名因素。

#2。19% 的排名因素關注用戶信號，6% 關注內容相關性，6% 關注鏈接（作者：Malte Landwehr）

Idealo 的 SEO 負責人 Malte Landwehr 徹底分析了源代碼並提取了一些有價值的信息。

他發現Yandex 的排名因素中有 19% 關注用戶信號（例如跳出率），6% 關注內容相關性（例如關鍵字密度），6% 關注鏈接（例如入站鏈接質量）。

Malte 的發現似乎證實了 SEMrush 在發布排名因素研究時報告的內容，該研究表明網站的流量具有最高的排名係數。 SEO 社區迅速抨擊了他們，但 Malte 的發現與他們的說法一致。

#3。代碼中大約有 40 個與質量相關的排名因素 (Malte Landwehr)

從他的分析中，Malte Landwehr 還發現該代碼有大約 40 個與質量相關的排名因素。

這些排名因素分為三個：

主持人
頁
文本

站點/主機/質量

Yandex 關注網站細節。他們會查看內容的平均新鮮度、平均文本質量和內容的歷史表現（10 多個因素）。然後，他們繼續將託管站點分類為質量低、可接受、良好或優秀。

他們的 YMYL 規則是特定於主機的，而不是特定於文檔的。換句話說，Yandex 會整體查看您網站的內容，而不是逐頁查看。

頁面質量

Yandex 還會查看頁面本身的質量。

他們會查看嵌入或鏈接內容的 404 狀態代碼。如果找不到內容，他們會將您的頁面標記為低質量。

損壞的視頻文件是最糟糕的；如果檢測到，Yandex 會將您的頁面標記為低質量。

文本質量

Yandex 還會查看頁面上的文本。

首先，他們將研究動詞、代詞、形容詞、名詞、副詞和其他詞類的自然出現。

他們還採用各種方法來檢測自動生成的內容和剽竊的內容。

排名因素是特定於查詢的

長期以來，人們一直認為排名因素越來越特定於類別。

谷歌和其他搜索引擎都是如此，但 Yandex 更進一步。

他們不僅會查看類別或關鍵字，還會查看查詢本身。

另請閱讀新加坡熱門在線購物應用

他們的源代碼包括靜態、二進制和特定於查詢的排名因素。

靜態因素適用於網站，動態因素適用於查詢，用戶因素與用戶的語言、搜索歷史、位置和其他數據相關。

17854排名因素

Martin MacDonald、Ben Wills 和 Malte Landwehr 都同意 Yandex 具有令人印象深刻的排名因素。

結合起來，他們計算出有 17854 個單獨的排名因素。

這些排名因素是圍繞不同的模式建立的。但是，由此看來，只有 1922 沒有被棄用。

就像人類不善於理解複利的影響一樣，估計這些算法的結果也非常困難。將梯度和二進制、特定於查詢和特定於用戶的排名因素添加到組合中，您將遇到算法噩夢。

逆向工程變得幾乎不可能。事實上，有這麼多活動部件，不要忘記網絡生態系統，使得 Yandex 的算法成為一個巨大的難題。這也令人鼓舞，因為它表明搜索引擎巨頭正在考慮網站的不同方面來確定其排名，而不是只關註一個或兩個方面。

Yandex 似乎遵循與 Google 類似的信息檢索最佳實踐

雖然他們的算法非常複雜且難以逆向工程，但與穀歌的最佳實踐有相似之處，例如倒排索引或嵌入。

Yandex 還使用不同的模型（如神經網絡 MatrixNet）來確定它們的排名係數。請記住，在 2007 年 CatBoost 取代它之前，MatrixNet 還是一個東西。

了解 MatrixNet 在其算法中的使用方式和位置將使您了解現代搜索引擎在調整和微調其排名模型方面做了多少工作。

那麼，SEO 是否低估了 Yandex 洩漏？

要了解 Yandex 算法洩漏的真正含義，SEO 需要開始像研究人員一樣思考。

想像一下，如果研究人員擁有小鼠癌症的完整 DNA 序列。使用 SEO 用來駁回 Yandex 洩漏的相同推理，他們會爭辯說老鼠不是人類並且 DNA 序列毫無用處嗎？

當然不是。

現在是 SEO 站出來意識到 Yandex 洩漏不僅僅是一組排名因素的時候了。這是一個從內到外了解搜索引擎算法的機會。

我們從 Yandex 源代碼洩漏中學到的 10 件事

總之，這裡有十件事可以從 Yandex 洩露的排名因素中學到：

#1。矩陣網

MatrixNet 於 2009 年首次發布。CatBoost 將在 2007 年取代它。

Yandex 在其排名因素中提到了它。

但是，這進一步證實了這是一個過時的存儲庫的說法。

最初，MatrixNet 是作為 Yandex 的 SERP 的新核心算法引入的。它考慮了數千個排名因素，根據搜索查詢、用戶的位置和感知的搜索意圖分配權重。

Yandex 的 MatrixNet 比 Google 的 RankBrain 早六年推出，被認為是最先進的搜索算法之一。

其他算法已建立在 MatrixNet 之上。 2016 年，Yandex 推出了使用深度神經網絡生成更準確結果的 Palekh 算法，而 Pinet 算法則專注於減少假陽性結果。

Palekh 算法一次可以處理 150 個網頁，使其成為有史以來最強大的版本之一。 2017 年，Yandex 發布了一個更高級的版本，稱為 Korolyov update，一次處理 200,000 個頁面，甚至考慮了頁面的深度。

#2。URL 和頁面級因素

Yandex 在對網頁進行排名時會考慮許多 URL 和頁面級別的因素。這些包括：

URL 中存在數字
尾部斜杠的存在和數量（您是否過度使用它們？）
URL 中大寫字母的存在和數量

Yandex 還會考慮頁面的年齡和最後更新的日期。眾所周知，Google 重視新鮮內容，Yandex 也不例外，尤其是與新聞相關的搜索查詢。

洩漏還表明，Yandex 使用時間戳，不是為了排名，而是為了重新排序。不過，他們不再使用它。

在該算法的棄用版本中，URL 中使用了關鍵字。當然，他們不再使用它，但您仍然可以使用它來了解他們如何對頁面進行排名。

#3。抓取深度

谷歌公開表示抓取深度並不是明確的排名因素。然而，Yandex 在其算法中有一段活躍的代碼考慮了頁面的抓取深度。

抓取深度是指用戶從主頁到達特定頁面所需的點擊次數。

可以從主頁輕鬆訪問的 URL 的排名將高於那些需要更多點擊的 URL。這是因為 Yandex 認為靠近主頁的頁面可能更重要且與使用相關。

另請閱讀Instagram 貨幣化：Instagram 貨幣化需要知道的 15 件事

它反映了約翰·穆勒 (John Muller) 的說法，即谷歌對靠近主頁的頁面給予了更多的權重。

洩露的代碼還有一個特定的令牌，用於加權孤立頁面，即未鏈接到網站上任何其他頁面的頁面。

#4。點擊率和點擊率

Yandex 在 2011 年寫了一篇博文，討論了他們如何使用點擊次數和點擊率作為排名因素。

他們還談到了 SEO 可能會如何利用這個排名因素來操縱他們的排名。

洩漏中突出顯示的特定點擊因素讓我們深入了解以下內容：

鏈接獲得的點擊次數相對於搜索結果中所有點擊次數的比例
與上述相同，但按地區細分
用戶點擊搜索結果頁面的頻率如何？
從洩漏中，我們可以看到 Yandex 在其搜索引擎中對頁面進行排名時考慮了點擊數據。

頁面獲得的點擊次數越多，它的排名就越高。它是一個間接的排名因素，但它確實對排名有影響。

#5。單擊操作

多年來，點擊操縱一直是 SEO 界感興趣的話題。也稱為“點擊劫持”，這種做法涉及人為地增加鏈接的點擊次數以提高其排名。

看起來 Yandex 意識到了這一點，並正在積極努力防止它發生。

他們有一個過濾器（PF 過濾器），可以主動掃描並識別可疑的點擊模式。

看起來，如果一個鏈接有不自然的點擊模式，它將在排名中受到懲罰。

#6。用戶行為

洩漏的用戶行為部分特別有趣。

多年來，不擇手段的 SEO 一直在試圖玩弄系統，從鏈接購買到關鍵字堆砌。

但 Yandex 正在打擊所有這些做法，並積極嘗試獎勵真正提供出色用戶體驗的網站。

Yandex 使用 PF 過濾器（與它用於點擊操作的過濾器相同）來識別故意試圖操縱用戶行為的網站。

它會查看在頁面上花費的時間、訪問的頁面數量和其他指標，以確定頁面是否提供真正的價值。

#7。停留時間

停留時間是用戶在頁面上花費的時間。

在他們的 102 個排名因素之一中，Yandex 有這個標籤“TG_USERFEAT_SEARCH_DWELL_TIME”。

他們還參考了設備、用戶持續時間和平均停留時間。

他們棄用了其中約 39 個因素，但停留時間仍然是他們算法中的一個排名因素。

Bing 首次使用術語“停留時間”（在他們 2011 年的博客文章中）。

然而，谷歌表示他們不使用停留時間或類似的交互信號作為排名因素。

#8。YMYL

YMYL，即您的金錢，您的生活，是一個術語，用於描述包含與金錢、健康和安全交易相關的信息的網站。

洩漏涉及醫療、金融和法律網站的特定排名因素。

沒什麼新鮮事——2019 年，在 Yandex 網站管理員會議期間，他們宣布了 Proxima 搜索質量指標。

那麼，您應該如何探索 Yandex 洩漏？

So, How Should you Go About Exploring the Yandex Leak? | MediaOne Marketing Singapore

考慮將 Yandex 排名因素作為 SEO 測試假設的基礎是解決此漏洞的最佳方法。

雖然你不能孤立個別的排名因素，尤其是那些係數低的因素，但你可以了解他們算法的整體趨勢，並嘗試將它們應用到你自己的網站上。

當然，這不是一門完美的科學，但至少在測試新的 SEO 策略和策略時，您可以使用一些東西。測試、測量和調整，直到找到成功的公式。

例如，我們在分析鏈接配置文件時從不查看鏈接時效，但 Yandex 會。因此，開始查看鏈接年齡並將其作為做出鏈接決策的一個因素對我們來說很有意義。

僅僅因為 Yandex 有 17854 個排名因素並不意味著您必須全部檢查。放眼大局，尋找模式。

即使搜索引擎改變並採用類似聊天 GPT 的模型，您難道不想知道這些年來的製勝法寶是什麼嗎？

一些總結

很明顯，Yandex 已經超越了基本的常規 SEO 策略，並利用其豐富的數據來獎勵提供出色用戶體驗的網站。

此次洩密揭示了 Yandex 算法的內部運作方式，似乎 SEO 可能忽略了一些重要的排名因素。