SEO-специалисты недооценивают утечку Яндекса?

Опубликовано: 2023-04-01

Многие SEO-специалисты быстро отмахнулись от утечки исходного кода Яндекса. Есть что-то, чего им не хватает? Или SEO-специалисты недооценивают то, что утечка может помочь им узнать и понять о SEO?

Вот небольшая предыстория:

К концу января (2023 г.) сообщалось, что какой-то хакер получил в свои руки около 45 ГБ исходного кода Яндекса, включая их коэффициенты (веса) и список факторов ранжирования.

Это эквивалентно изучению поисковых алгоритмов Google. Вокруг него было много шумихи, и большая часть SEO-сообщества круглосуточно работала над расшифровкой материала.

Однако это не обошлось без нескольких сомневающихся Томасов, которые быстро отвергли утечку с такими аргументами, как:

яндекс не гугл
Мы не можем установить, реальна ли утечка
Что это за одержимость факторами ранжирования?
Это просто копия. Яндекс заткнул Google.
Утечка — это лишь крошечная часть исходного кода Яндекса. Там ничего не говорится о том, как Яндекс ранжирует сайты.
Здесь нет ничего нового.
Репозиторий кода устарел

Это кричит о невежестве или они правы?

Утечка может быть неполной, но все же полезной. Даже если код устарел, он показывает, как развивались поисковые системы.

Большинство из нас никогда не сталкивались с более глубоким пониманием того, как работают современные поисковые системы. Многое из того, что мы знаем, является чистой спекуляцией.

Наше мнение: реакция, которую мы видим, в основном основана на страхе перед неизвестным, ошибиться, иметь меньше возможностей для интерпретации и тратить время и усилия.

Быть осторожным — это нормально, но прямое игнорирование утечки кричит о невежестве.

Не оставайтесь позади — давайте погрузимся и исследуем.

Самые распространенные возражения против утечки исходного кода Яндекса

The Most Common Objections to the Yandex Source Code Leak | MediaOne Marketing Singapore

Некоторые SEO-специалисты быстро упустили из виду потенциал этой утечки, выдвинув несколько интересных возражений. Давайте рассмотрим эти аргументы и посмотрим, верны ли они.

Возражение 1: Яндекс — это не Google

Яндекс и Гугл действительно две очень разные поисковые системы. Но вы обнаружите несколько совпадений, если сравните их результаты поиска.

Давайте запустим несколько поисковых запросов и сравним результаты. Например, поищите «лучшие кредитные карты» в Яндексе и Гугле.

Вот первая десятка результатов:

Лучшие кредитные карты
	Google	Яндекс
Позиция 1	Лучшие кредитные карты Сингапура 2023 \| Применить сейчас! – ДеньгиСмарт	Лучшие кредитные карты Сингапура 2023 \| Применить сейчас! - Умные деньги
Позиция 2	Лучшие кредитные карты в Сингапуре в 2023 году – Value Champion	5 лучших планов кредитных карт в Сингапуре для всех нужд (2021) – Bestinsingapore
Позиция 3	Лучшие акции кредитных карт в Сингапуре (март 2023 г.) - Sing Saver	Лучшие кредитные карты в Сингапуре на 2023 год \| Искатель Сингапур – finder.com
Позиция 4	Лучшие кредитные карты в Сингапуре 2023 – Seedly	Сравните лучшие кредитные карты в Сингапуре [2023] – Finty
Позиция 5	Лучшие бонусы за регистрацию по кредитной карте в Сингапуре (март 2023 г.) – Suite Smile	5 лучших кредитных карт в Сингапуре с точки зрения общих расходов (2023 г.) – Мгновенный кредит
Позиция 6	Сравните лучшие кредитные карты в Сингапуре [2023] – Finty	Кредитные карты в Сингапуре: предложения на февраль 2023 г. \| SingSaver
Позиция 7	Сравните кредитные карты Сингапура – DBS Bank	5 ЛУЧШИХ кредитных карт в Сингапуре 2021 – YouTube
Позиция 8	Подать заявку на кредитную карту Trust \| Трастовый банк Сингапур	Лучшие кредитные карты для онлайн-покупок и мобильных платежей — Value Champion

Как видите, половина результатов совпадает.

1/10 результатов занимают ту же позицию.

Теперь давайте проделаем то же самое с другими ключевыми словами и посмотрим, как они складываются:

Ключевые слова	Количество похожих результатов в топ-10	Количество результатов с одинаковыми позициями
Лучшие кредитные карты в Сингапуре	5/10	1/10
Лучшие отели Нью-Йорка	6/10	0/10
Лучшее программное обеспечение CRM	2/10	0/10
Как удалить ветку в Git	3/10	1/10
Как приучить щенка к горшку	1/10	1/10
3 комнатная квартира в Москве	5/10	0/10
Общие симптомы простуды	2/10	0/10

Можно спорить, какие результаты лучше, но совпадения говорят нам кое-что интересное. Это признак того, что в обеих поисковых системах существуют схожие факторы ранжирования и что они не совсем разные.

Так что тот факт, что Яндекс — это не Google, не означает, что утечка не имеет значения.

Возражение 2: Мы не можем установить, реальна ли утечка

Яндекс официально подтвердил утечку, так что сомнений нет ( источник ).

Но если вы в это не верите, посмотрите репозиторий кода. Вы можете сравнить его с другими проектами и посмотреть, насколько структура, форматирование и синтаксис соответствуют тому, что вы ожидаете от профессионального кода.

Возражение 3: Что это за одержимость факторами ранжирования?

Одержимость факторами ранжирования понятна, если учесть, сколько времени и денег уходит на SEO. Вполне естественно хотеть получить преимущество над конкурентами.

ТАКЖЕ ЧИТАЙТЕ Как запустить академию онлайн-обучения?

Знание факторов ранжирования может помочь вам лучше оптимизировать свой сайт. Это дает вам понимание того, как работают поисковые системы, и позволяет соответствующим образом адаптировать ваш контент.

Возражение 4: Это всего лишь копия.Яндекс очистил Google

Некоторые из факторов ранжирования, обнаруженных в утечке Яндекса, совпадают с теми, которые использует Google. Но это не значит, что Яндекс скопировал их алгоритм.

получить рейтинговое объявление google

Две поисковые системы используют разные методы для расчета релевантности контента. У Яндекса есть свой уникальный подход, который вы можете увидеть в репозитории кода.

Яндекс, возможно, взял некоторые из лучших практик от Google, но в коде все еще есть много уникальных преимуществ.

Возражение 5: Утечка — это лишь крошечная часть исходного кода Яндекса

Это может быть правдой, но все же дает нам представление о том, как работает Яндекс. Исходный код — большая часть головоломки; понимание этого может дать ценную информацию.

Аргумент большинства SEO-специалистов заключается в том, что утечка произошла только из одного репозитория и что такая гигантская поисковая система не может быть сведена к одному репозиторию кода.

Что ж, несмотря на то, что большая часть поисковой системы Google основана на одном репозитории, она по-прежнему остается самой мощной поисковой системой в мире.

источник

Возражение 6: здесь нет ничего нового

Действительно, большинство факторов ранжирования, раскрытых в результате утечки исходного кода Яндекса, не являются революционными. Это вещи, которые мы уже знали и о которых говорили годами.

Но это неправда:

То, что мы утверждаем, что уже знаем, было чисто догадками.

Мы знаем о SEO из нашего опыта, экспериментов, теоретических исследований, анекдотов и т. д.

До сих пор мы никогда не видели эти сигналы ранжирования в исходном коде. Это первый раз, когда профессионалы могут подтвердить эти теории и получить реальные доказательства в их поддержку.

Особенности SEO в исходном коде Яндекса

Несколько SEO-специалистов взяли на себя изучение исходного кода и разбор того, что они нашли.

Вот некоторые из основных моментов:

№1.Список факторов ранжирования в Яндексе, составленный Мартином Макдональдом.

Мартин Макдональд , автор и основатель Школы веб-маркетинга, составил список факторов ранжирования Яндекса из утечки исходного кода.

Он обнаружил, что существует гораздо больше, чем 1922 отдельных фактора ранжирования, начиная с Page Rank (PR) и заканчивая текстовыми/контентными элементами, метатегами, структурой ссылок и многим другим.

Бен Уиллс просмотрел код и подсчитал фактическое число. Оказывается, у Яндекса 17854 фактора ранжирования.

№ 2.19 % факторов ранжирования сосредоточены на пользовательских сигналах, 6 % — на релевантности контента и 6 % — на ссылках (автор Malte Landwehr)

Мальте Ландвер, руководитель SEO-отдела Idealo, тщательно проанализировала исходный код и извлекла ценную информацию.

Он обнаружил, что 19% факторов ранжирования Яндекса сосредоточены на пользовательских сигналах (например, показатель отказов), 6% — на релевантности контента (например, плотности ключевых слов) и 6% — на ссылках (например, качестве входящих ссылок).

Выводы Малте, кажется, подтверждают то, что сообщил SEMrush, когда они опубликовали свое исследование фактора ранжирования, которое показало, что трафик на веб-сайт имеет самый высокий коэффициент ранжирования. Сообщество оптимизаторов быстро раскритиковало их, но выводы Мальте согласуются с их утверждением.

№3.В Кодексе было около 40 факторов ранжирования, связанных с качеством (Malte Landwehr)

Из своего анализа Мальте Ландвер также обнаружил, что код содержит около 40 факторов ранжирования, связанных с качеством.

Эти факторы ранжирования были разделены на три:

Хозяин
Страница
Текст

Сайт/Хост/Качество

Яндекс уделяет внимание деталям сайта. Они смотрят на среднюю свежесть контента, среднее качество текста и историческую эффективность вашего контента (10+ факторов). Затем они приступают к классификации хостинг-сайта как низкого, приемлемого, хорошего или отличного качества.

Их правила YMYL зависят от хоста, а не от документа. Другими словами, Яндекс рассматривает контент вашего сайта целостно, а не постранично.

Качество страницы

Яндекс также смотрит на качество самой страницы.

Они будут смотреть на код состояния 404 встроенного или связанного контента. Они пометят вашу страницу как некачественную, если контент не будет найден.

Сломанные видеофайлы — это самое худшее; Яндекс пометит вашу страницу как некачественную, если таковая будет обнаружена.

Качество текста

Яндекс тоже смотрит на текст на странице.

Во-первых, они рассмотрят естественное появление глаголов, местоимений, прилагательных, существительных, наречий и других частей речи.

Они также используют различные методы для обнаружения автоматически сгенерированного контента и плагиата.

Факторы ранжирования зависят от запроса

Давно утверждалось, что факторы ранжирования все больше зависят от категории.

Это верно для Google и других поисковых систем, но Яндекс идет дальше.

Они смотрят не только на категорию или ключевое слово, но и на сам запрос.

ТАКЖЕ ЧИТАЙТЕ Лучшие приложения для онлайн-покупок в Сингапуре

Их исходный код включает статические, двоичные и специфичные для запроса факторы ранжирования.

Статические факторы применяются к веб-сайту, динамические факторы применяются к запросу, а пользовательские факторы связаны с языком пользователя, историей поиска, местоположением и другими данными.

Факторы ранжирования 17854

Мартин Макдональд, Бен Уиллс и Мальте Ландвер согласны с тем, что у Яндекса впечатляющие факторы ранжирования.

В совокупности они подсчитали, что существует 17854 отдельных фактора ранжирования.

Эти факторы ранжирования основаны на различных модальностях. Однако из этого только 1922 не устарел.

Точно так же, как люди плохо понимают влияние сложных процентов, невероятно сложно оценить результат этих алгоритмов. Добавьте к смеси градиентные и бинарные факторы ранжирования, специфичные для запроса и пользователя, и вы получите алгоритмический кошмар.

Обратное проектирование становится практически невозможным. Тот факт, что существует так много движущихся частей, не говоря уже о веб-экосистеме, делает алгоритм Яндекса огромной загадкой. Это также обнадеживает, поскольку показывает, что гиганты поисковых систем рассматривают различные аспекты веб-сайта для определения его рейтинга, а не сосредотачиваются только на одном или двух аспектах.

Яндекс, похоже, следует тем же рекомендациям по поиску информации, что и Google

Хотя их алгоритм невероятно сложен и его сложно реконструировать, есть сходство с лучшими практиками Google, такими как инвертированный индекс или встраивание.

Яндекс также использует различные модели, такие как нейронная сеть MatrixNet, для определения своих ранговых коэффициентов. Помните, что MatrixNet существовал еще до того, как CatBoost заменил его в 2007 году.

Знание того, как и где MatrixNet используется в их алгоритме, даст вам представление о том, как много современные поисковые системы тратят на корректировку и тонкую настройку своих моделей ранжирования.

Итак, SEO-специалисты недооценивают утечку Яндекса?

Чтобы понять истинные последствия алгоритмической утечки Яндекса, SEO-специалисты должны начать думать как исследователи.

Представьте, если бы у исследователей была полная последовательность ДНК рака у мышей. Используя те же аргументы, которые оптимизаторы используют, чтобы опровергнуть утечку информации из Яндекса, будут ли они утверждать, что мыши — не люди, а последовательности ДНК бесполезны?

Конечно, нет.

SEO-специалистам пора активизироваться и понять, что утечка Яндекса — это больше, чем просто набор факторов ранжирования. Это возможность узнать об алгоритмах поисковых систем изнутри.

10 вещей, которые мы узнали из утечки Яндекса

Подводя итог, вот десять вещей, которые можно извлечь из просочившихся факторов ранжирования Яндекса:

№1.Матрикснет

Впервые о MatrixNet было объявлено в 2009 году. CatBoost заменит его в 2007 году.

Яндекс упоминает это в своих факторах ранжирования.

Однако это еще раз подтверждает утверждение о том, что это устаревший репозиторий.

Первоначально MatrixNet был представлен как новый основной алгоритм поисковой выдачи Яндекса. Он учитывал тысячи факторов ранжирования, присваивая веса на основе поискового запроса, местоположения пользователя и предполагаемого поискового намерения.

Запущенный за шесть лет до RankBrain от Google, MatrixNet от Яндекса считался одним из самых продвинутых поисковых алгоритмов.

Другие алгоритмы были построены на MatrixNet. В 2016 году Яндекс запустил алгоритм Палеха, который использовал глубокие нейронные сети для получения более точных результатов, а алгоритм Пине сосредоточился на сокращении ложноположительных результатов.

Алгоритм Палеха мог обрабатывать 150 веб-страниц за раз, что делало его одной из самых мощных когда-либо выпущенных версий. В 2017 году Яндекс выпустил еще более продвинутую версию под названием «Королевское обновление», которая одновременно обрабатывала 200 000 страниц и даже учитывала глубину страницы.

№ 2.Факторы URL и уровня страницы

При ранжировании веб-страниц Яндекс учитывает множество факторов URL и уровня страницы. К ним относятся:

Наличие цифр в URL
Наличие и количество косых черт в конце (вы используете их чрезмерно?)
Наличие и количество заглавных букв в URL

Яндекс также учитывает возраст страницы и дату последнего обновления. Все мы знаем, что Google ценит свежий контент, и Яндекс ничем не отличается, особенно для поисковых запросов, связанных с новостями.

Утечка также показывает, что Яндекс использовал временные метки не для ранжирования, а для изменения порядка. Однако они больше не используют его.

В устаревшей версии алгоритма в URL использовались ключевые слова. Конечно, они больше не используют его, но вы все еще можете использовать его, чтобы получить представление о том, как они ранжируют страницы.

№3.Глубина сканирования

Google официально заявляет, что глубина сканирования явно не является фактором ранжирования. Однако в алгоритме Яндекса есть активный фрагмент кода, учитывающий глубину сканирования страницы.

Под глубиной сканирования мы подразумеваем количество кликов, которое требуется пользователю, чтобы перейти на определенную страницу с главной страницы.

URL-адреса, которые легко доступны с главной страницы, будут иметь более высокий рейтинг, чем те, которые требуют большего количества кликов. Это связано с тем, что Яндекс считает, что страницы, расположенные ближе к главной, могут быть более важными и релевантными для использования.

ТАКЖЕ ЧИТАЙТЕ Монетизация Instagram: 15 вещей, которые нужно знать для монетизации Instagram

Это отражает заявление Джона Мюллера о том, что Google придает немного больше веса страницам, расположенным ближе к главной странице.

Утечка кода также имеет специальный токен для взвешивания потерянных страниц, т. е. страниц, не связанных ни с какой другой страницей на веб-сайте.

№ 4.Клики и CTR

В 2011 году Яндекс написал сообщение в блоге, в котором обсуждалось, как они используют клики и рейтинг кликов в качестве факторов ранжирования.

Они также говорили о том, что у SEO может возникнуть соблазн использовать этот фактор ранжирования для манипулирования своим рейтингом.

Конкретные факторы кликов, выделенные в утечке, дают нам представление о следующем:

Соотношение кликов, полученных по ссылке, по отношению ко всем кликам в результатах поиска.
То же, что и выше, но с разбивкой по регионам
Как часто пользователи переходят на страницы из результатов поиска?
Из утечки видно, что Яндекс учитывает данные о кликах при ранжировании страниц в своей поисковой системе.

Чем больше кликов получает страница, тем выше ее рейтинг. Это косвенный фактор ранжирования, но он влияет на ранжирование.

№ 5.Щелкните Управление

Манипуляции с кликами были предметом интереса в кругах SEO в течение многих лет. Эта практика, также известная как «кликджекинг», включает в себя искусственное увеличение числа кликов по ссылке для повышения ее рейтинга.

Похоже, Яндекс знает об этом и активно пытается этого не допустить.

У них есть фильтр (фильтр PF), который активно сканирует и выявляет подозрительные шаблоны кликов.

Похоже, что если ссылка имеет неестественный шаблон кликов, она будет оштрафована в рейтинге.

№ 6.Поведение пользователя

Особенно интересен раздел утечки о поведении пользователей.

Недобросовестные SEO-специалисты годами пытались обмануть систему, от покупки ссылок до наполнения ключевыми словами.

Но Яндекс борется со всеми этими практиками и активно пытается вознаграждать сайты, которые действительно обеспечивают отличный пользовательский опыт.

Яндекс использует фильтр PF, тот же фильтр, который он использует для манипулирования кликами, чтобы идентифицировать сайты, намеренно пытающиеся манипулировать поведением пользователей.

Он смотрит на время, проведенное на странице, количество посещенных страниц и другие показатели, чтобы решить, представляет ли страница реальную ценность.

№ 7.Время пребывания

Dwell time — это время, которое пользователь проводит на странице.

В одном из 102 факторов ранжирования Яндекса есть этот тег «TG_USERFEAT_SEARCH_DWELL_TIME».

Они также ссылаются на устройство, продолжительность пользователя и среднее время пребывания.

Они отказались от примерно 39 из этих факторов, но время задержки остается фактором ранжирования в их алгоритме.

Термин «Время ожидания» впервые был использован Bing (в их сообщении в блоге 2011 года).

Тем не менее, Google заявил, что не использует время ожидания или аналогичные сигналы взаимодействия в качестве фактора ранжирования.

№8.ИМИЛ

YMYL, или «Ваши деньги, ваша жизнь» — это термин, используемый для описания веб-сайтов, содержащих информацию, связанную с деньгами, здоровьем и безопасностью.

Утечка касается конкретных факторов ранжирования медицинских, финансовых и юридических веб-сайтов.

Ничего нового — в 2019 году на конференции Яндекс Вебмастер анонсировали Proxima Search Quality Metric.

Итак, как вам следует исследовать утечку Яндекса?

So, How Should you Go About Exploring the Yandex Leak? | MediaOne Marketing Singapore

Думать о факторах ранжирования Яндекса в качестве основы для гипотез SEO-тестирования — лучший способ справиться с этой утечкой.

Хотя вы не можете изолировать отдельные факторы ранжирования, особенно с низкими коэффициентами, вы можете понять общие тенденции в их алгоритме и попытаться применить их на своем собственном веб-сайте.

Конечно, это не будет идеальной наукой, но, по крайней мере, вам будет с чем работать при тестировании новых SEO-стратегий и тактик. Тестируйте, измеряйте и корректируйте, пока не найдете выигрышную формулу.

Например, мы никогда не смотрим на ссылочный возраст при анализе ссылочных профилей, а Яндекс это делает. Поэтому для нас имеет смысл начать смотреть на возраст ссылок и использовать его как фактор при принятии решений о ссылках.

Тот факт, что у Яндекса 17854 фактора ранжирования, не означает, что вы должны пройти их все. Посмотрите на картину в целом и найдите закономерности.

Даже если поисковые системы изменятся и примут модель, подобную Chat GPT, разве вам не хотелось бы знать, какая формула успеха была все эти годы?

Немного подведения итогов

Понятно, что Яндекс вышел за рамки обычной тактики SEO и использует свои огромные данные для поощрения веб-сайтов, которые предлагают отличный пользовательский опыт.

Утечка проливает свет на внутреннюю работу алгоритма Яндекса, и похоже, что SEO-специалисты могли упустить из виду некоторые важные факторы ранжирования.