4

Y-Factors Formula

 1 year ago
source link: https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Y-Factors Formula

Здесь опубликованы коэффициенты для одного из внутренних ранжировщиков в поиске Яндекса. Это не итоговая формула, которая влияет на результат появления ссылки в серпе, т.к. судя по изученному коду – внутри используется несколько ранжировщиков и поисковых движков, результаты которых мержатся между собой и уже итоговый результат приводит к распределению ссылок по топу выдачи.

коэффициенты влияния на факторы

Коэффициент Название Фактора Описание Фактора
0.564095297143887 FI_URL_DOMAIN_FRACTION Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли )
0.369078039338024 FI_QUERY_DOWNER_CLICKS_COMBO фактор, хитрым образом скомбинированный из FRC и псевдо-CTR
0.345115883490577 FI_MAX_WORD_HOST_CLICKS Кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.
0.315439457304752 FI_MAX_WORD_HOST_YABAR Наиболее характерное слово запроса, соответствующее сайту, по данным бара
0.276250497243267 FI_IS_COM Домен в зоне .com
0.254915495706702 FI_OQ_BCLM_PLAIN BCLM по запросному индексу для владельцев
0.231000481757815 FI_OWNER_CLICKS_PCTR Кликабельность владельца независимо от запроса
0.230257144838931 FI_MAX_WORD_HOST_RANK Хост ранк по максимально выраженному слову запроса (обычно это название сайта)
0.219595036178226 FI_QUERY_DOWNER_CLICKS_PCTR Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент
0.214713693660762 FI_QUERY_DOWNER_CLICKS_FRC отношение числа кликов по данному domainId ко всем кликам по запросу
0.209866937086235 FI_DOM_PHRASE_CLICK_RANK_BI Кликабельность домена по биграммам (без учёта тезаурусных расширений запросов)
0.209508533629415 FI_OWNER_REQS_POPULARITY Популярность owner'а в запросах
0.205699196177282 FI_HAS_NO_QUERY_SHOWS Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов.
0.205184905115480 FI_DOM_PHRASE_YABAR_BI Переходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов)
0.202186193546053 FI_QUERY_DOWNER_WEIGHT_CLICK w/k
0.189743110446303 FI_OWNER_NAV_QUOTA Доля кликов по навигационным запросам
0.185032224423923 FI_QUERY_DOWNER_ONLY_CLICK_RATE o/i
0.182867833093047 FI_PAGE_RANK Page rank. Фактор ремапится.
0.179216994410993 FI_QUERY_DOWNER_ONLY_CLICK_RATE_REG o/i
0.178646516342524 FI_SUBQUERY_THEME_MATCH_A Совпадение тематических спектров запроса и документа. Тематика запроса - результат работы ((http://wiki.yandex-team.ru/EvgenijjKroxalev/subquery правила колдунщика SubquerySearch )) Тематика документа определяется автоматическим классификатором
0.166327421401765 FI_OWNER_CLICKS_PCTR_REG Кликабельность владельца независимо от запроса, отдельно по регионам
0.165031403865939 FI_HAS_DETERMINED_CITIES Для сайта определен город
0.160420713540373 FI_QUERY_DOWNER_CLICKS_COMBO_REG Query DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt
0.160379344658431 FI_HAS_NO_QUERY_DOWNER_SHOWS Для данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов
0.156712439907419 FI_REG_HOST_RANK Cчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями
0.152953808712409 FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATE Сумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно.
0.148292222594522 FI_QUERY_DOWNER_SATISFIED4_RATE r_s4b/(r_k + 10)
0.147136648195774 FI_QUERY_DOWNER_YABAR_VISITS
0.129668929638366 FI_OQ_BM25_LEM Bm25 по запросному индексу для domAttr
0.129641401501547 FI_FIRST_WORD_HOST_CLICKS Кликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию.
0.127979729953137 FI_YABAR_HOST_AVG_ACTIONS среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста.
0.126700168643196 FI_OWNER_SESS_NORM_DUR nd/k нормированное время до клика
0.125675707803009 FI_OQ_BM25_STR Bm25 по запросному индексу для domAttr
0.122090633457258 FI_QUERY_DOWNER_YABAR_AVG_TIME среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)).
0.119512833156651 FI_QUERY_DOWNER_YABAR_VISITORS
0.118638180985299 FI_QUERY_DOWNER_CLICKS_FRC_REG отношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.115262514353577 FI_QUERY_DOWNER_WEIGHT_CLICK_REG w/k
0.114624515228977 FI_MATRIXNET Ко всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы)
0.113671587879567 FI_QUERY_MINONE Возвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#minone Подробнее))
0.112928770384249 FI_TITLE_TRIGRAMS_Q Вычисляет покрытие запроса буквенными триграммами заголовка документа
0.112334631253023 FI_OQ_BM25_SYN Bm25 по запросному индексу для domAttr
0.105135837056982 FI_OQ_BCLM_WEIGHTED BCLM по запросному индексу для domAttr
0.103903118421863 FI_QUERY_COMMERCIALITY_MX Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0 ((http://wiki.yandex-team.ru/AntonNeljubin/FaktorydljaNovogoKlassifikatorazaprosov факторы классификатора))((http://wiki.yandex-team.ru/JandeksPoisk/Antispam/AntiSEO/KlassifikatorKommercheskixZaprosov еще про него))
0.102548297661617 FI_OWNER_SATISFIED4_RATE Это SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок.
0.097713692186877 FI_SHOP Это магазин предложение (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-4 паттернам в url`е)) ). Не используется (deprecated)
0.097073501164592 FI_IS_HUB Хабовость страницы
0.096811143316269 FI_LINK_WEIGHTED_FORMS Взвешенная по весам слов сумма числа форм
0.096447224363928 FI_DIFFERENT_INTERNAL_LINKS Количество различных внутренних ссылок на страницу
0.094045741102708 FI_NUM_LINKS_FROM_SEGMENT_CONTENT
0.093045433292429 FI_MPSA Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/MPSA MPSA))
0.089404211238337 FI_URL_LINK_PERCENT Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок
0.087850313290757 FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXED Сумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка.
0.087122791007993 FI_PAGE_RANK_UKR Украинский Page rank
0.085929172196314 FI_YABAR_HOST_VISITORS кол-во уникальных посетителей, ремапится экспоненциально
0.085276276270387 FI_DOM_PHRASE_YABAR Переходы на сайт из поисковиков по отдельным словам, по данным бара
0.084699401575226 FI_GEO_RELEV_ALIEN_CITY Результат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0)
0.084012276385059 FI_GEO_RELEV_REGION_COUNTRY Три уровня совпадения географии пользователя и страницы
0.082967074248567 FI_GEO_REGION_PROXIM
0.081289466115302 FI_IS_NOT_RU Домен не в зоне .ru
0.080331864046170 FI_SYN_FL_REMAP2 Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее))
0.078872214489662 FI_LINK_BREAK Аналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение.
0.077454131996933 FI_QUERY_DOWNER_CLICK_SUMMARY подобранная формула
0.076343383792772 FI_DOM_PHRASE_CLICK_RANK Кликабельность домена по словам
0.075434934641649 FI_TEXT_BM25_ATTEN_SYN TR с дисконтом за номер предложения
0.074172193125966 FI_YABAR_HOST_AVG_TIME2 среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера
0.071481760992750 FI_QUERY_DOWNER_SATISFIED4_RATE_REG r_s4b/(r_k + 10)
0.071417326810502 FI_YABAR_HOST_INTERNAL_TRAFFIC доля заходов на сайт не по ссылкам (набор руками или с закладок)
0.071242787451280 FI_PAGE_RANK_BONUS Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
0.070074395872424 FI_TITLE_IDF_SUM Idf по различным частям документа, сломаны, не используются
0.069696682544392 FI_LONGEST_TEXT Размер самого большого текстового сегмента страницы (из фактора [18] PureText)
0.069268621800152 FI_EXPECTED_FOUND Ожидаемое количество найденного по запросу
0.067151098341326 FI_YABAR_URL_VISITS Посещаемость урла по данным я-бара
0.066890922161289 FI_URL_BM25 BM25 по URL'у
0.064310714968383 FI_URL_TRIGRAMS Модель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса.
0.062753581782970 FI_LAST_WORD_HOST_CLICKS Кликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов)
0.062474190501436 FI_NON_COMM_NORM_LR_LOG_RELEV XNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов)
0.061675217167197 FI_SOWNER_MAX_SUM_SOURCE_RANK Сумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца.
0.061031422056552 FI_HEADING_IDF_SUM Idf по различным частям документа, сломаны, не используются
0.060594485044371 FI_LERF_LR_LOG_RELEV Линковая релевантность с учетом качества каждой ссылки
0.059222635368125 FI_BF_LEMMA_ALL Варианты соответствующих факторов с учетом стоп слов
0.058870258158539 FI_BM25F_DPR_FIXED BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. ((http://wiki.yandex-team.ru/BM25FRework Результаты тестирования.))
0.058415162135787 FI_LONG_QUERY_SYN Фактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова.
0.057053549836014 FI_PERCENT_WORDS_IN_LINKS Процент числа слов внутри тега .. от числа всех слов
0.056552232052119 FI_PAGE_REGION_SIZE_IN Размер региона страницы
0.055767877134775 FI_TLP1_ALL Варианты соответствующих факторов с учетом стоп слов
0.055185094441888 FI_URL_NGRAMS_MODEL Фактор ранжирования UrlNGramsModel в erf
0.054926147793071 FI_QUERY_REF_TRIGRAM_Q ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание))
0.054680076158058 FI_QUERY_DOWNER_CLICK_SUMMARY_REG подобранная формула
0.054576897612176 FI_LANGUAGE_COMPLIANCE Язык документа соответствует языку запроса
0.054156294329288 FI_BM25F_DPR_OBSOLETE BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки
0.051465613603836 FI_GEO_CITY_PROXIM Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов))
0.051057813309267 FI_YABAR_URL_VISITORS Количество уникальных посетителей урла
0.050576094170344 FI_NUM_SLASHES Число слешей в урле
0.049845924868959 FI_SR Сложносоставной static rank, собирается из статических компонентов по отдельной формуле((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/#oftnd1 *)).
0.049061648412321 FI_LINK_RELEV Линковая релевантность. Фактор ремапится.
0.047914113074106 FI_QUERY_DOWNER_CLICKS_PCTR_REG Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt
0.047164043400143 FI_TITLE_IDF_SUM_FIXED Предыдущие факторы - исправленные
0.046891090311905 FI_LINK_PAIR_SYN Наличие в ссылках пар слов c учетом синонимов
0.046783126435468 FI_Q_DIVERSITY Степень централизации точек, из которой задается запрос
0.046757967567051 FI_DBM35 BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним)
0.044511155721215 FI_LERF_GEO_LR_LOG_RELEV log(LerfLR, суженной на страну пользователя)
0.042452794899003 FI_LR_GEO_RELEV_REGION_COUNTRY Три уровня совпадения региона ссылок и запроса
0.038806477920761 FI_PASSAGE_LEGACY_TR TR лучшего пассажа - насколько качественный сниппет может получиться
0.038372460585705 FI_LCOR Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок.
0.038263040612831 FI_STATIC_TITLE_LR_BM25 BM25 заголовка страницы по текстам ссылок на неё
0.037180373854650 FI_COUNTRY_Q_DIVERSITY Степень централизации точек, из которой задается запрос (внутри страны)
0.035447186193336 FI_LINK_BREAK_SYN Количество ссылок, прошедших порог
0.033485833700259 FI_HIT_NUM_100 Преобразованное количество слов запроса во всех линках url`а.
0.032525279432611 FI_OWNER_SDIFF_SHOW_ENTROPY Энтропия - распределение показов
0.031399776481102 FI_TLBM25 Простой BM25 по тексту и линкам одновременно.
0.031186243849340 FI_WORDS_IN_TITLE Число слов русского языка в заголовке
0.030786458206337 FI_BCLM Фактор имени Buettcher, Clarke и Lushman (модифицированный) ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm подробнее))
0.030334786608805 FI_LONG_QUERY Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'.
0.027302374355601 FI_YA_BAR Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится.
0.026926509552263 FI_LOG_LR Логарифм от LR, линейно отображенный в [0,1].
0.026650508120317 FI_TRIGRAMS_COND_PROB Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов
0.025806639721603 FI_URL_SESS_NORM_DUR_RATE nd/i
0.025691573951246 FI_IDF_VARIANCE Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор)
0.025328925792111 FI_URL_SESS_NORM_DUR_RATE_REG nd/i
0.024263431712643 FI_COUNTERS_SEARCH_TRAFFIC1 Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
0.024006117828321 FI_TEXT_BREAK_EX количество предложений, в которых встречается много слов по точной форме
0.023610887210981 FI_QUERY_URL_CLICKS_FRC_REG отношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.022803839020796 FI_TEXT_WEIGHTED_FORMS Взвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x).
0.021178675054476 FI_NEW_LINK_QUALITY Классификатор качества входящих ссылок 2 - сломан, см [407]
0.021178675054476 FI_NEW_LINK_QUALITY_FIXED Классификатор качества входящих ссылок 2 исправленный
0.019988663575500 FI_CATALOG_RELEV LR по каталожным описаниям
0.019740981979634 FI_SWBM25 Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа.
0.019580616053835 FI_MEAN_WORD_LENGTH Средняя длина слова
0.019301158836494 FI_LINKS_IN_TITLE_TRIGRAMS Доля уникальных триграмм ссылок в триграммах заголовка
0.019119257307239 FI_LINK_RELEV_PHRASE (phrase) есть все слова запроса подряд в одном линке.
0.017641843798363 FI_QSEGMENTS_BREAKS Сегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты
0.016179974819787 FI_STATIC_TITLE_BM25_EX BM25 заголовка страницы по её тексту
0.013900531929943 FI_PERIODIC_LINK_DATES_PERCENT Периодичность ссылок на сайт
0.013412340418363 FI_GSK_URL_MODEL Фактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk
0.013370500669584 FI_LR_GEO_RELEV_REGION_NATDOM
0.013171579829370 FI_GEO_COUNTRY_PROXIM Географическая близость
0.013112575551553 FI_LINK_QUALITY_FIXED Качество входящих ссылок (классификатор Лещинера) исправленный
0.012081787040108 FI_COUNTRY_QUERY_REGIONALITY Страновый классификатор локализуемости - насколько запрос подразумевает контекст страны
0.011650367441796 FI_FEM_MAS_NOUNS_PORTION доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия).
0.010872234578071 FI_SYNT_QUALITY Имеет ли запрос полный синтаксический разбор
0.010581678208134 FI_SEGMENT_AUX_ALPHAS_IN_TEXT Количество букв в сегменте Aux
0.009455905387837 FI_LINK_SPEED Число обратное дисперсии временам появления ссылок со словами запроса
0.009314594460961 FI_GEO_LR_LOG_RELEV log(LR, суженной на страну пользователя)
0.008426829629948 FI_SPAM_KARMA Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois
0.007908808762912 FI_URL_LENGTH_2 Длина URL'а с точностью до символа. Отключено в продакшн.
0.006691168756865 FI_ADD_TIME Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1.
0.006678481233760 FI_YABAR_HOST_SEARCH_TRAFFIC Доля трафика с поисковых систем
0.005160158423400 FI_PHRASE Есть ссылка, прошедшая кворум
0.004768007631846 FI_OWNER_SDIFF_SHOW_ENTROPY_REG Энтропия - распределение показов. Регионализованный
0.003890338237824 FI_YABAR_URL_AVG_TIME среднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами.
0.003622338166697 FI_QUERY_ISHUM Cпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#ishum Подробнее))
0.003363499486900 FI_COMM_LINKS_SEO_HOSTS_NON_COMM Фактор CommLinksSEOHosts умноженный на NonCommercialQuery
0.003128580544172 FI_LR_AMORTIZED_BY_AGE Линковая релевантность с пессимизацией за большой возраст линка
0.002431406823392 FI_SYN_FL_REMAP1 Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее))
0.001181036676865 FI_Q_DIVERSITY2 Географическая распределенность запроса
0.000692523218694 FI_C_IN_DEGREE_2 Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181rh58953-4#cindegree12 подробнее))
0.000426528744914 FI_LINK_AGE Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года
0.000094696411924 FI_LERF_LANG_LR_LOG_RELEV LR с учетом совпадения языка ссылки и запроса и накрученности
0.000000136522746 FI_FIELD_LM Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text)
-0.000807198317231 FI_DMOZ_QUERY_BEST_THEME Наиболее вероятная тема запроса, определяемая ((http://wiki.yandex-team.ru/JandeksPoisk/ZarubezhnyjjInternet/DMOZqueryClassifier1 правилом колдунщика DMOZTheme)), учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1]
-0.000832706989751 FI_PAGE_REGION_REL_COVERAGE
-0.000833437078930 FI_GOOD_RATIO Какая доля ссылок “хорошая”
-0.000843495929565 FI_GEO_GEOMETRY_PROXIM Географическая близость пользователя и сайта
-0.001158034315755 FI_URL_LEN Длина URL'а, делённая на 5
-0.001209700633070 FI_COUNTRY_Q_DIVERSITY2 Географическая распределенность запроса внутри страны
-0.001250755074786 FI_ADV_PRONOUNS_PORTION доля местоименных существительных
-0.001564275785704 FI_LINK_QUALITY Качество входящих ссылок (классификатор Лещинера) - сломан, см [405]
-0.002170850269151 FI_TRIGRAMS_PROB Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
-0.003021983245146 FI_TRLR_QUORUM_LEMMA Вес слов запроса, которые есть в тексте с точностью до леммы
-0.005028751679547 FI_TOCM Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе
-0.005085205304656 FI_QCLASS_OAO организация
-0.005976754416269 FI_ADJ_PRONOUNS_PORTION доля местоименных прилагательных
-0.006679400217070 FI_TEXT_PAIR_EX наличие пар слов по точной форме
-0.006950709230428 FI_PAGE_REGION_INV_SIZE_IN Фактор обратно пропорционален размеру региона страницы
-0.007634608393132 FI_YABAR_HOST_AVG_TIME среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста
-0.008656938143421 FI_TEXT_FORMS Невзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса
-0.010850511133080 FI_SECOND_INDEG_DISTR_XI Одиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/hostdegree подробнее))
-0.011207582653854 FI_NUM_NON_LETTERS_IN_URL Количество 'небукв' в урле
-0.011221458184058 FI_LR_WITHOUT_RARE линковая релевантность без учета редких слов
-0.011296769865650 FI_OWNER_SDIFF_CSRATIO_ENTROPY Энтропия - распределение отношения клики/показы
-0.011681967583253 FI_SEGMENT_AUX_SPACES_IN_TEXT Количество пробелов в сегменте Aux
-0.012429221647235 FI_PARTICLES_PORTION доля частиц
-0.012919083353605 FI_TEXT_HEAD_SYN наличие слов в заголовке c учетом синонимов
-0.013510450334814 FI_MORNING_QUERY Запрос задают преимущественно утром
-0.015212586791057 FI_TEXT_MAX_FORMS Максимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64
-0.016033504310566 FI_TEXT_FEATURES Качество текста. Считается по довольно сложной формуле
-0.016932610010322 FI_TEXT_PAIR_W1 Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово
-0.017928063556114 FI_OWNER_SDIFF_CLICK_ENTROPY Энтропия - распределение кликов
-0.018278527670779 FI_QUERY_ISORG В запросе название организации (пример: Газпром, газпрома) ((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Описание))
-0.020210221137273 FI_PERCENT_FREQ_WORDS Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
-0.020628033510418 FI_URL_QUERY_VARIETY_REG Степень разнообразия запросов, по которым кликают данный урла, cчитается по регионам
-0.020921642736537 FI_TEXT_PAIR Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
-0.022152880819573 FI_TEXT_PAIR_SYN наличие пар слов c учетом синонимов (>=TxtPair)
-0.023916010788926 FI_OWNER_SDIFF_CSRATIO_ENTROPY_REG Энтропия - распределение отношения клики/показы. Регионализованный
-0.025355498987515 FI_QDOWNER_STAT_POWER Количество показов owner'а по запросу, нормировка x/(100 + x).
-0.027287688639737 FI_QUERY_ISGEO Cпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1 (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Подробнее))
-0.028595315195293 FI_SEO_IN_PAY_LINKS Количество входящих сео-треш ссылок между хостами
-0.028608739038830 FI_RINGS_HOST_RANK_BADNESS_3 Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее))
-0.030877746812643 FI_PAGE_REGION_SIZE Размер региона страницы
-0.032004809610482 FI_HOST_SIZE Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом)
-0.032269052994315 FI_PLM Фактор про то, наскоько хороший сниппет может получиться.
-0.032828345615772 FI_PERCENT_VISIBLE_CONTENT Процент числа слов вне тегов (вне скобок <>) от числа всех слов
-0.034716206980983 FI_PAGE_DATE Дата документа которая прописана на странице, ремапится квадратным корнем
-0.036381245328354 FI_RINGS_HOST_RANK_BADNESS_1 Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее))
-0.036532955371613 FI_RINGS_HOST_RANK_BADNESS_OLD Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники.
-0.037878046829073 FI_TEXT_HEAD BM25 по словам только в заголовке.
-0.039215257302626 FI_TEXT_HI_RELEV_SYN BM25 c учетом синонимов
-0.039575532416190 FI_TEXT_HEAD_EX наличие слов в заголовке по точной форме
-0.044940112806396 FI_YMW_FULL Размер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее))
-0.044940112806396 FI_YMW_FULL2 Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее))
-0.044963560309064 FI_NEVASCA2 Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.
-0.045942748393758 FI_HOST_RELIABILITY доля урлов, которые отвечают без ошибок
-0.046030869083841 FI_YABAR_URL_LCAC Число сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся
-0.053739168786067 FI_QUERY_WORD_COHESION_TR Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. ((http://wiki.yandex-team.ru/SergejjKrylov/QueryWordCohesionTR описание))
-0.057014032623374 FI_COUNTERS_SEARCH_TRAFFIC2 Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
-0.057628362537565 FI_QSEGMENTS_WEIGHT Вес' сегментов запроса в тексте
-0.057658302748215 FI_METRIKA_URL_CORE_AUDIENCE Ядро аудитории страниц на которых есть счетчик Метрики
-0.059299975637935 FI_QSEGMENTS_BM25 BM25, где в качестве 'слов' выступают выделенные сегменты запроса
-0.059871381556405 FI_QUERY_MAXONE Возвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#maxone Подробнее))
-0.060922780495065 FI_LINKS_WITH_WORDS_PERCENT Процент входящих ссылок со словами запроса
-0.062810308974889 FI_TRLR_QUORUM_FM Вес слов запроса, которые есть в тексте в точной форме
-0.063761467432684 FI_PAGE_REGION_COVERAGE
-0.063976585802142 FI_PERCENT_USED_FREQ_WORDS Число использованных в тексте 500 самых популярных слов языка, деленное на 500
-0.065082391728977 FI_LR_MAX_DPR Максимальный dpr ссылки
-0.065128132003719 FI_DOC_LEN Длина документа в предложениях
-0.066463228806236 FI_IS_COMM документ из коммерческой-кишки. Не используется (deprecated)
-0.067337343351376 FI_LARGEST_SY_INEXACT_GROUP Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова
-0.068235863277027 FI_HEADING_IDF_SUM_FIXED Предыдущие факторы - исправленные
-0.069803680024687 FI_RELEV_GEO_LINKS_PERCENT
-0.070483297609751 FI_LOCM Порядок слов в ссылках.
-0.070483297609751 FI_SYNSET_LOCM Копия фактора ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Locm LOCM)) для((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Synset синсетов)).
-0.076334972364641 FI_TITLE_IN_LINKS_TRIGRAMS Доля уникальных триграмм заголовка в триграммах ссылок
-0.077504878926916 FI_TEXT_SKIP_PAIR TR по парам слов запроса через одно слово в текстах
-0.083831128507580 FI_LINKS_WITH_ALL_WORDS_PERCENT Процент входящих ссылок со всеми словами запроса
-0.084798680877042 FI_LONG Длинный документ (чем длиннее документ, тем больше значение фактора).
-0.086731079136512 FI_NUM_LATIN_LETTERS число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100)
-0.091993052812036 FI_QUERY_CITY При ответе на запрос важны результаты внутри города (основная масса локализуемых запросов)
-0.094096848692163 FI_TEXT_LIKE Качество текста (классификатор Алексеева)
-0.094261219650513 FI_YANDEX_ADV На сайте есть реклама Яндекса.
-0.096496414873675 FI_QUERY_REF_TRIGRAM_R ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание))
-0.097277529611975 FI_AURA_DOC_LOG_AUTHOR Логарифм числа шинглов, на которых данный владелец документа признан автором
-0.097686304848915 FI_AURA_DOC_LOG_SHARED Логарифм числа шинглов, на которых данный документ не уникален
-0.109820338929289 FI_TEXT_RELEV_PHRASE Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе.
-0.110593487056685 FI_AURA_DOC_MEAN_SHARED_WEIGHT Средний вес не-уникальных шинглов данного документа
-0.116819481337211 FI_TEXT_BRAEK_SYN количество предложений, в которых встречается много слов c учетом синонимов
-0.118606351159510 FI_QUERY_WORD_SEQUENCES_TR Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа.
-0.118870879105496 FI_QUERY_DOWNER_ENOUGH_CLICKED Количество кликов по владельцу и количество кликов по запросу больше 5
-0.123814718900663 FI_ESHOP_VALUE Магазинность страницы
-0.133931985443449 FI_CLASSIF_IS_SHOP Страница — магазин. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#isshop описание)). Не используется (deprecated)
-0.141668202468497 FI_PCT_LINKS Для документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0
-0.160285061981584 FI_OWNER_SDIFF_CLICK_ENTROPY_REG Энтропия - распределение кликов. Регионализованный
-0.162220616846705 FI_URL_PATH_AND_PARAMS_FRACTION То же, что и предыдущий фактор, но про весь урл кроме домена
-0.168645758020604 FI_GEO_CITY_URL_REGION_COUNTRY Совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины.
-0.180963639077109 FI_COMM_LINKS_SEO_HOSTS Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. ((http://wiki.yandex-team.ru/SvetlanaShorina/topseolinks выборка накрученных сайтов))
-0.194376876842978 FI_QURL_STAT_POWER Количество показов url'а по запросу, нормировка x/(100 + x).
-0.207437366708906 FI_DATER_AGE Разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях.
-0.250928463672112 FI_ADV На сайте есть реклама.

Источники

  • search/relevance/nav_linear.h
  • search/web/rearrange/facts/fact_snippet/factor_info/snippet_factors_info/factors_gen.in
  • search/web/rearrange/facts/fact_snippet/factor_info/query_factors_info/factors_gen.in
  • search/web_fresh_detector/factors_gen.in

Разобранные факторы от других авторов

Автор

Telegram: https://t.me/Lord_Alfred

Не исключено, что может придти жалоба за публикацию этих данных, поэтому чтобы не потерять их – делайте Fork себе.


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK