Os SEOs estão subestimando o vazamento do Yandex?

Publicados: 2023-04-01

Muitos SEOs foram rápidos em descartar o vazamento do código-fonte do Yandex. Há algo que eles estão perdendo? Ou os SEOs estão subestimando o que o vazamento poderia ajudá-los a aprender e entender sobre SEO?

Aqui está uma pequena história:

No final de janeiro (2023), foi relatado que algum hacker conseguiu cerca de 45 GB de código-fonte Yandex, incluindo seus coeficientes (pesos) e lista de fatores de classificação.

Isso é o equivalente a descobrir os algoritmos de busca do Google. Houve muito hype em torno disso, e uma grande parte da comunidade de SEO tem trabalhado dia e noite tentando decodificar o material.

No entanto, isso não aconteceu sem algumas dúvidas de Thomas, rápido em descartar o vazamento com argumentos como:

  • Yandex não é o Google
  • Não podemos verificar se o vazamento é real
  • O que é essa obsessão com fatores de classificação?
  • Isso é apenas uma cópia. Yandex raspou o Google.
  • O vazamento é apenas uma pequena fração do código-fonte do Yandex. Não diz nada sobre como o Yandex classifica os sites.
  • Não há nada de novo aqui.
  • O repositório de código está desatualizado

Isso grita ignorância ou eles estão certos?

O vazamento pode não ser abrangente, mas ainda é útil. Mesmo que o código esteja desatualizado, ele revela como os mecanismos de busca evoluíram.

A maioria de nós nunca encontrou informações melhores sobre como os mecanismos de pesquisa modernos funcionam. Muito do que sabemos é pura especulação.

Nossa opinião: a reação que vemos é baseada principalmente no medo do desconhecido, estar errado, ter menos espaço para interpretação e desperdiçar tempo e esforço.

Ser cauteloso é bom, mas descartar o vazamento abertamente grita ignorância.

Não fique para trás - vamos mergulhar e explorar.

As objeções mais comuns ao vazamento do código-fonte do Yandex

The Most Common Objections to the Yandex Source Code Leak | MediaOne Marketing Singapore

Alguns SEOs foram rápidos em ignorar o potencial desse vazamento, com algumas objeções interessantes. Vamos examinar esses argumentos e ver se eles se sustentam.

Objeção 1: Yandex não é Google

Yandex e Google são de fato dois mecanismos de pesquisa muito diferentes. Mas você encontrará algumas sobreposições ao comparar os resultados da pesquisa.

Vamos executar algumas consultas de pesquisa e comparar os resultados. Por exemplo, pesquise “os melhores cartões de crédito” no Yandex e no Google.

Aqui estão os dez primeiros resultados:

Melhores cartões de crédito
Google Yandex
Posição 1 Melhores cartões de crédito Singapura 2023 | Aplique agora! – MoneySmart Melhores cartões de crédito Singapura 2023 | Aplique agora! – Dinheiro Inteligente
Posição 2 Melhores cartões de crédito em Cingapura 2023 - Campeão de valor 5 melhores planos de cartão de crédito em Cingapura para todas as necessidades (2021) – Bestinsingapore
Posição 3 Melhores promoções de cartões de crédito em Cingapura (março de 2023) – Sing Saver Melhores cartões de crédito em Cingapura para 2023 | Finder Singapura – finder.com
Posição 4 Melhores cartões de crédito em Cingapura 2023 – Seedly Compare os melhores cartões de crédito em Cingapura [2023] – Finty
Posição 5 Melhores bônus de inscrição de cartão de crédito em Cingapura (março de 2023) – Suite Smile 5 melhores cartões de crédito em Cingapura para gastos gerais (2023) – empréstimo instantâneo
Posição 6 Compare os melhores cartões de crédito em Cingapura [2023] – Finty Cartões de crédito em Cingapura: ofertas de fevereiro de 2023 | SingSaver
Posição 7 Comparar cartões de crédito Singapura – DBS Bank Os 5 melhores cartões de crédito em Singapura 2021 – YouTube
Posição 8 Candidate-se a um Cartão de Crédito da Trust | Trust Bank Singapura Melhores cartões de crédito para compras on-line e pagamentos móveis – Campeão de valor

Como você pode ver, metade dos resultados são os mesmos.

1/10 dos resultados mantém a mesma posição.

Agora vamos fazer o mesmo com outras palavras-chave e ver como elas se comparam:

Palavras-chave O número de resultados semelhantes no top 10 O número de resultados com a mesma posição
Os melhores cartões de crédito em Singapura 5/10 1/10
Os melhores hotéis em Nova York 6/10 0/10
O melhor software de CRM 2/10 0/10
Como excluir uma ramificação no Git 3/10 1/10
Como Potty-treinar um cachorro 1/10 1/10
Apartamento de 3 Quartos em Moscou 5/10 0/10
Sintomas de resfriado comum 2/10 0/10

Você poderia discutir quais resultados são melhores, mas as sobreposições nos dizem algo interessante. É um sinal de que existem fatores de classificação semelhantes em ambos os mecanismos de pesquisa e que não são totalmente diferentes.

Portanto, o fato de o Yandex não ser o Google não significa que o vazamento seja irrelevante.

Objeção 2: Não podemos determinar se o vazamento é real

Yandex confirmou oficialmente o vazamento, então não há dúvida de que aconteceu ( fonte ).

Mas se você não acredita nisso, veja o repositório do código. Você pode compará-lo com outros projetos e ver como a estrutura, a formatação e a sintaxe correspondem ao que você espera de um código profissional.

Objeção 3: O que é essa obsessão com fatores de classificação?

A obsessão com os fatores de classificação é compreensível quando você considera quanto tempo e dinheiro são gastos em SEO. É natural querer uma vantagem sobre a concorrência.

LEIA TAMBÉM Como lançar uma academia de aprendizado on-line?

Conhecer os fatores de classificação pode ajudá-lo a otimizar melhor seu site. Dá-lhe uma compreensão de como funcionam os motores de busca e permite-lhe adaptar o seu conteúdo de acordo.

Objeção 4: Isso é apenas uma cópia.Yandex raspou o Google

Alguns dos fatores de classificação descobertos no vazamento do Yandex correspondem aos usados ​​pelo Google. Mas isso não significa que Yandex copiou seu algoritmo.

obter anúncio de classificação do google

Os dois mecanismos de pesquisa usam métodos diferentes para calcular a relevância do conteúdo. O Yandex tem sua própria abordagem exclusiva, que você pode ver no repositório de código.

O Yandex pode ter adotado algumas das práticas recomendadas do Google, mas ainda há muitos pontos de venda exclusivos no código.

Objeção 5: o vazamento é apenas uma pequena fração do código-fonte do Yandex

Isso pode ser verdade, mas ainda nos dá uma ideia de como o Yandex funciona. O código-fonte é uma grande parte do quebra-cabeça; entendê-lo pode fornecer informações valiosas.

O argumento feito pela maioria dos SEOs é que apenas um repositório vazou e que um mecanismo de busca tão gigante não pode ser reduzido a um único repositório de código.

Bem, embora a maior parte do mecanismo de pesquisa do Google seja baseado em um único repositório, ainda é o mecanismo de pesquisa mais poderoso do mundo.

fonte

Objeção 6: Não há nada de novo aqui

De fato, a maioria dos fatores de classificação descobertos no vazamento do código-fonte do Yandex não são inovadores. São coisas que já sabíamos e sobre as quais falávamos há anos.

Mas isso não é verdade:

O que afirmamos já saber tem sido puramente conjecturas.

Conhecemos o SEO a partir de nossas experiências, experimentos, estudos teóricos, anedotas, etc.

Nunca vimos esses sinais de classificação no código-fonte até agora. Esta é a primeira vez que os profissionais podem confirmar essas teorias e ter evidências reais para apoiá-las.

Destaques de SEO do código-fonte Yandex

Alguns SEOs se encarregaram de estudar o código-fonte e detalhar o que encontraram.

Aqui estão alguns dos destaques:

#1.Lista de fatores de classificação Yandex por Martin MacDonald

Martin MacDonald , autor e fundador da Web Marketing School, compilou uma lista de fatores de classificação Yandex do vazamento do código-fonte.

Ele descobriu que existem muito mais do que 1.922 fatores de classificação individuais, começando no Page Rank (PR) e passando para elementos baseados em texto/conteúdo, meta tags, estrutura de links e muito mais.

Ben Wills examinou o código e calculou o número real. Acontece que o Yandex tem 17854 fatores de classificação.

#2.19% dos fatores de classificação se concentram nos sinais do usuário, 6% na relevância do conteúdo e 6% nos links (por Malte Landwehr)

Malte Landwehr, chefe de SEO da Idealo, analisou minuciosamente o código-fonte e extraiu algumas informações valiosas.

Ele descobriu que 19% dos fatores de classificação do Yandex se concentram nos sinais do usuário (por exemplo, taxa de rejeição), 6% na relevância do conteúdo (por exemplo, densidade de palavras-chave) e 6% em links (por exemplo, qualidade do link de entrada).

As descobertas de Malte parecem confirmar o que o SEMrush relatou quando publicou seu estudo de fator de classificação, que mostrou que o tráfego para um site tinha o coeficiente de classificação mais alto. A comunidade de SEO rapidamente os criticou, mas as descobertas de Malte concordam com sua afirmação.

#3.Havia cerca de 40 fatores de classificação relacionados à qualidade no código (Malte Landwehr)

A partir de sua análise, Malte Landwehr também descobriu que o código tinha cerca de 40 fatores de classificação relacionados à qualidade.

Esses fatores de classificação foram divididos em três:

  • Hospedar
  • Página
  • Texto

Site/Host/Qualidade

Yandex presta atenção aos detalhes do site. Eles analisam a atualização média do conteúdo, a qualidade média do texto e o desempenho histórico do seu conteúdo (mais de 10 fatores). Em seguida, eles categorizam o site de hospedagem como qualidade baixa, aceitável, boa ou excelente.

Suas regras YMYL são específicas do host, não específicas do documento. Em outras palavras, o Yandex analisa o conteúdo do seu site de forma holística, e não página por página.

Qualidade da página

Yandex também analisa a qualidade da própria página.

Eles examinarão o código de status 404 do conteúdo incorporado ou vinculado. Eles marcarão sua página como de baixa qualidade se o conteúdo não for encontrado.

Arquivos de vídeo quebrados são os piores; O Yandex marcará sua página como de baixa qualidade se uma for detectada.

Qualidade do Texto

O Yandex também analisa o texto em uma página.

Primeiro, eles observarão a ocorrência natural de verbos, pronomes, adjetivos, substantivos, advérbios e outras classes gramaticais.

Eles também empregam vários métodos para detectar conteúdo gerado automaticamente e conteúdo plagiado.

Os fatores de classificação são específicos da consulta

Há muito se argumenta que os fatores de classificação são cada vez mais específicos da categoria.

Isso é verdade para o Google e outros mecanismos de pesquisa, mas o Yandex vai além.

Eles não apenas analisam a categoria ou a palavra-chave, mas também analisam a própria consulta.

LEIA TAMBÉM Principais aplicativos de compras on-line em Cingapura

Seu código-fonte inclui fatores de classificação estáticos, binários e específicos de consulta.

Os fatores estáticos se aplicam ao site, os fatores dinâmicos se aplicam à consulta e os fatores do usuário estão conectados ao idioma do usuário, histórico de pesquisa, localização e outros dados.

Os 17854 fatores de classificação

Martin MacDonald, Ben Wills e Malte Landwehr concordam que o Yandex tem fatores de classificação impressionantes.

Combinados, eles calcularam que existem 17.854 fatores de classificação individuais.

Esses fatores de classificação são construídos em torno de diferentes modalidades. No entanto, a partir disso, apenas 1922 não é preterido.

Da mesma forma que os humanos são ruins em entender o impacto dos juros compostos, é incrivelmente difícil estimar o resultado desses algoritmos. Adicione gradiente e fatores de classificação binários, específicos de consulta e específicos do usuário à mistura e você terá um pesadelo algorítmico.

A engenharia reversa torna-se quase impossível. O fato de haver tantas partes móveis, para não esquecer o ecossistema da web, torna o algoritmo do Yandex um grande enigma. Também o torna encorajador porque mostra que os gigantes dos mecanismos de pesquisa estão considerando diferentes aspectos de um site para determinar sua classificação, em vez de se concentrar em apenas uma ou duas facetas.

Yandex parece seguir práticas recomendadas de recuperação de informações semelhantes às do Google

Embora seu algoritmo seja incrivelmente complexo e difícil de fazer engenharia reversa, há semelhanças com as práticas recomendadas do Google, como índice invertido ou incorporações.

Yandex também usa modelos diferentes, como a rede neural MatrixNet, para determinar seus coeficientes de classificação. Lembre-se de que MatrixNet era uma coisa antes de CatBoost substituí-lo em 2007.

Saber como e onde o MatrixNet é usado em seu algoritmo lhe dará uma ideia sobre o quanto os mecanismos de pesquisa modernos ajustam e ajustam seus modelos de classificação.

Então, os SEOs estão subestimando o vazamento do Yandex?

Para entender as verdadeiras implicações do vazamento algorítmico do Yandex, os SEOs precisam começar a pensar como pesquisadores.

Imagine se os pesquisadores tivessem a sequência completa de DNA do câncer em camundongos. Usando o mesmo raciocínio que os SEOs usam para descartar o vazamento do Yandex, eles argumentariam que os ratos não são humanos e as sequências de DNA são inúteis?

Claro que não.

É hora de os SEOs intensificarem e perceberem que o vazamento do Yandex é mais do que apenas um conjunto de fatores de classificação. É uma oportunidade de aprender sobre os algoritmos do mecanismo de pesquisa de dentro para fora.

10 coisas que aprendemos com o vazamento da fonte do Yandex

Em resumo, aqui estão dez coisas para aprender com os fatores de classificação vazados do Yandex:

#1.MatrixNet

O MatrixNet foi anunciado pela primeira vez em 2009. O CatBoost o substituiria em 2007.

Yandex o menciona em seus fatores de classificação.

No entanto, isso valida ainda mais a alegação de que este é um repositório desatualizado.

Originalmente, o MatrixNet foi introduzido como um novo algoritmo central para o SERP do Yandex. Ele considerou milhares de fatores de classificação, atribuindo pesos com base na consulta de pesquisa, na localização do usuário e na intenção de pesquisa percebida.

Lançado seis anos antes do RankBrain do Google, o MatrixNet da Yandex foi considerado um dos algoritmos de busca mais avançados.

Outros algoritmos foram construídos sobre MatrixNet. Em 2016, Yandex lançou o algoritmo Palekh que usava redes neurais profundas para gerar resultados mais precisos, enquanto o algoritmo Pinet se concentrava em reduzir os resultados falsos positivos.

O algoritmo Palekh pode processar 150 páginas da web por vez, tornando-se uma das versões mais poderosas já lançadas. Em 2017, Yandex lançou uma versão ainda mais avançada chamada atualização Korolyov, que processou 200.000 páginas de uma só vez e chegou a considerar a profundidade da página.

#2.Fatores de nível de página e URL

O Yandex considera muitos fatores de nível de página e URL ao classificar as páginas da web. Esses incluem:

  • A presença de números na URL
  • A presença e o número de barras finais (você as está usando excessivamente?)
  • A presença e o número de letras maiúsculas no URL

Yandex também considera a idade da página e a data da última atualização. Todos nós sabemos que o Google valoriza novos conteúdos e o Yandex não é diferente, principalmente para consultas de pesquisa relacionadas a notícias.

O vazamento também mostra que o Yandex usou timestamps, não para classificação, mas para reordenação. Eles não usam mais, no entanto.

Na versão obsoleta do algoritmo, palavras-chave foram usadas na URL. Claro, eles não o usam mais, mas você ainda pode usá-lo para ter uma ideia de como eles classificam as páginas.

#3.Profundidade de rastreamento

O Google está registrado dizendo que a profundidade do rastreamento não é explicitamente um fator de classificação. No entanto, o Yandex possui um código ativo em seu algoritmo que considera a profundidade de rastreamento de uma página.

Por profundidade de rastreamento, queremos dizer o número de cliques que um usuário leva para chegar a uma página específica da página inicial.

Os URLs que são facilmente acessíveis a partir da página inicial terão uma classificação mais alta do que aqueles que exigem mais cliques. Isso porque Yandex acredita que as páginas mais próximas da página inicial provavelmente serão mais importantes e relevantes para o uso.

LEIA TAMBÉM Monetizando o Instagram: 15 coisas que você precisa saber para monetizar o Instagram

Isso reflete a afirmação de John Muller de que o Google dá um pouco mais de peso às páginas mais próximas da página inicial.

O código vazado também possui um token específico para ponderação de páginas órfãs, ou seja, páginas não vinculadas a nenhuma outra página do site.

#4.Clique e CTR

Yandex escreveu uma postagem de blog em 2011 discutindo como eles usam cliques e taxas de cliques como fatores de classificação.

Eles também falaram sobre como o SEO pode ser tentado a usar esse fator de classificação para manipular suas classificações.

Os fatores de clique específicos destacados no vazamento nos fornecem uma visão sobre o seguinte:

  • A proporção de cliques que o link recebe em relação à proporção de todos os cliques no resultado da pesquisa
  • O mesmo que o anterior, mas dividido por região
  • Com que frequência os usuários clicam nas páginas dos resultados da pesquisa?
  • Pelo vazamento, podemos ver que o Yandex considera os dados de cliques ao classificar as páginas em seu mecanismo de pesquisa.

Quanto mais cliques uma página recebe, mais alta ela se classifica. É um fator de classificação indireto, mas tem um impacto nas classificações.

#5.Clique em Manipulação

A manipulação de cliques tem sido um tópico de interesse nos círculos de SEO há anos. Também conhecido como “click-jacking”, a prática envolve aumentar artificialmente os cliques em um link para aumentar sua classificação.

Parece que o Yandex está ciente disso e está tentando ativamente impedir que isso aconteça.

Eles têm um filtro (o Filtro PF) que verifica e identifica ativamente padrões de cliques suspeitos.

Parece que se um link tiver um padrão não natural de cliques, ele será penalizado no ranking.

#6.Comportamento do usuário

A seção de comportamento do usuário do vazamento é particularmente interessante.

SEOs sem escrúpulos vêm tentando burlar o sistema há anos, desde a compra de links até o preenchimento de palavras-chave.

Mas Yandex está reprimindo todas essas práticas e tentando ativamente recompensar sites que realmente fornecem uma ótima experiência ao usuário.

O Yandex usa o filtro PF, o mesmo filtro usado para manipulação de cliques, para identificar sites que tentam deliberadamente manipular o comportamento do usuário.

Ele analisa o tempo gasto em uma página, o número de páginas visitadas e outras métricas para decidir se uma página oferece valor real.

#7.Tempo de permanência

O tempo de permanência é a quantidade de tempo que um usuário gasta em uma página.

Em um de seus 102 fatores de classificação, o Yandex tem esta tag “TG_USERFEAT_SEARCH_DWELL_TIME”.

Eles também fazem referência ao dispositivo, duração do usuário e tempo médio de permanência.

Eles depreciaram cerca de 39 desses fatores, mas o tempo de permanência continua sendo um fator de classificação em seu algoritmo.

O termo Dwell Time foi usado pela primeira vez pelo Bing (em sua postagem no blog de 2011).

No entanto, o Google disse que não usa tempo de permanência ou sinais de interação semelhantes como fator de classificação.

#8.YMYL

YMYL, ou Your Money, Your Life, é um termo usado para descrever sites que contêm informações relacionadas a transações financeiras, de saúde e segurança.

O vazamento aborda fatores de classificação específicos para sites médicos, financeiros e jurídicos.

Nada de novo - em 2019, durante a conferência Yandex Webmaster, eles anunciaram a Proxima Search Quality Metric.  

Então, como você deve explorar o vazamento do Yandex?

So, How Should you Go About Exploring the Yandex Leak? | MediaOne Marketing Singapore

Pensar nos fatores de classificação do Yandex como base para as hipóteses de teste de SEO é a melhor maneira de lidar com esse vazamento.

Embora você não possa isolar fatores de classificação individuais, especialmente aqueles com coeficientes baixos, você pode entender as tendências gerais em seu algoritmo e tentar aplicá-los ao seu próprio site.

Claro, não será uma ciência perfeita, mas pelo menos você terá algo com o que trabalhar ao testar novas estratégias e táticas de SEO. Teste, meça e ajuste até encontrar uma fórmula vencedora.

Por exemplo, nunca consideramos a idade do link ao analisar os perfis do link, mas o Yandex sim. Portanto, faz muito sentido começarmos a olhar para a idade do link e usá-la como um fator ao tomar decisões sobre links.

Só porque o Yandex tem 17854 fatores de classificação não significa que você deve passar por todos eles. Olhe para a foto maior e encontre padrões.

Mesmo que os mecanismos de busca mudassem e adotassem o modelo do Chat GPT, você ainda não gostaria de saber qual foi a fórmula vencedora todos esses anos?

Alguns resumos

É claro que o Yandex foi além das táticas básicas de SEO comuns e está aproveitando sua riqueza de dados para recompensar sites que oferecem uma ótima experiência ao usuário.

O vazamento lança alguma luz sobre o funcionamento interno do algoritmo do Yandex e parece que os SEOs podem ter ignorado alguns fatores importantes de classificação.