Y-Factors Formula
source link: https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
Y-Factors Formula
Здесь опубликованы коэффициенты для одного из внутренних ранжировщиков в поиске Яндекса. Это не итоговая формула, которая влияет на результат появления ссылки в серпе, т.к. судя по изученному коду – внутри используется несколько ранжировщиков и поисковых движков, результаты которых мержатся между собой и уже итоговый результат приводит к распределению ссылок по топу выдачи.
коэффициенты влияния на факторы
Коэффициент | Название Фактора | Описание Фактора |
---|---|---|
0.564095297143887 | FI_URL_DOMAIN_FRACTION | Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли ) |
0.369078039338024 | FI_QUERY_DOWNER_CLICKS_COMBO | фактор, хитрым образом скомбинированный из FRC и псевдо-CTR |
0.345115883490577 | FI_MAX_WORD_HOST_CLICKS | Кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии. |
0.315439457304752 | FI_MAX_WORD_HOST_YABAR | Наиболее характерное слово запроса, соответствующее сайту, по данным бара |
0.276250497243267 | FI_IS_COM | Домен в зоне .com |
0.254915495706702 | FI_OQ_BCLM_PLAIN | BCLM по запросному индексу для владельцев |
0.231000481757815 | FI_OWNER_CLICKS_PCTR | Кликабельность владельца независимо от запроса |
0.230257144838931 | FI_MAX_WORD_HOST_RANK | Хост ранк по максимально выраженному слову запроса (обычно это название сайта) |
0.219595036178226 | FI_QUERY_DOWNER_CLICKS_PCTR | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент |
0.214713693660762 | FI_QUERY_DOWNER_CLICKS_FRC | отношение числа кликов по данному domainId ко всем кликам по запросу |
0.209866937086235 | FI_DOM_PHRASE_CLICK_RANK_BI | Кликабельность домена по биграммам (без учёта тезаурусных расширений запросов) |
0.209508533629415 | FI_OWNER_REQS_POPULARITY | Популярность owner'а в запросах |
0.205699196177282 | FI_HAS_NO_QUERY_SHOWS | Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов. |
0.205184905115480 | FI_DOM_PHRASE_YABAR_BI | Переходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов) |
0.202186193546053 | FI_QUERY_DOWNER_WEIGHT_CLICK | w/k |
0.189743110446303 | FI_OWNER_NAV_QUOTA | Доля кликов по навигационным запросам |
0.185032224423923 | FI_QUERY_DOWNER_ONLY_CLICK_RATE | o/i |
0.182867833093047 | FI_PAGE_RANK | Page rank. Фактор ремапится. |
0.179216994410993 | FI_QUERY_DOWNER_ONLY_CLICK_RATE_REG | o/i |
0.178646516342524 | FI_SUBQUERY_THEME_MATCH_A | Совпадение тематических спектров запроса и документа. Тематика запроса - результат работы ((http://wiki.yandex-team.ru/EvgenijjKroxalev/subquery правила колдунщика SubquerySearch )) Тематика документа определяется автоматическим классификатором |
0.166327421401765 | FI_OWNER_CLICKS_PCTR_REG | Кликабельность владельца независимо от запроса, отдельно по регионам |
0.165031403865939 | FI_HAS_DETERMINED_CITIES | Для сайта определен город |
0.160420713540373 | FI_QUERY_DOWNER_CLICKS_COMBO_REG | Query DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt |
0.160379344658431 | FI_HAS_NO_QUERY_DOWNER_SHOWS | Для данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов |
0.156712439907419 | FI_REG_HOST_RANK | Cчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями |
0.152953808712409 | FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATE | Сумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно. |
0.148292222594522 | FI_QUERY_DOWNER_SATISFIED4_RATE | r_s4b/(r_k + 10) |
0.147136648195774 | FI_QUERY_DOWNER_YABAR_VISITS | |
0.129668929638366 | FI_OQ_BM25_LEM | Bm25 по запросному индексу для domAttr |
0.129641401501547 | FI_FIRST_WORD_HOST_CLICKS | Кликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию. |
0.127979729953137 | FI_YABAR_HOST_AVG_ACTIONS | среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста. |
0.126700168643196 | FI_OWNER_SESS_NORM_DUR | nd/k нормированное время до клика |
0.125675707803009 | FI_OQ_BM25_STR | Bm25 по запросному индексу для domAttr |
0.122090633457258 | FI_QUERY_DOWNER_YABAR_AVG_TIME | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)). |
0.119512833156651 | FI_QUERY_DOWNER_YABAR_VISITORS | |
0.118638180985299 | FI_QUERY_DOWNER_CLICKS_FRC_REG | отношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt |
0.115262514353577 | FI_QUERY_DOWNER_WEIGHT_CLICK_REG | w/k |
0.114624515228977 | FI_MATRIXNET | Ко всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы) |
0.113671587879567 | FI_QUERY_MINONE | Возвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#minone Подробнее)) |
0.112928770384249 | FI_TITLE_TRIGRAMS_Q | Вычисляет покрытие запроса буквенными триграммами заголовка документа |
0.112334631253023 | FI_OQ_BM25_SYN | Bm25 по запросному индексу для domAttr |
0.105135837056982 | FI_OQ_BCLM_WEIGHTED | BCLM по запросному индексу для domAttr |
0.103903118421863 | FI_QUERY_COMMERCIALITY_MX | Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0 ((http://wiki.yandex-team.ru/AntonNeljubin/FaktorydljaNovogoKlassifikatorazaprosov факторы классификатора))((http://wiki.yandex-team.ru/JandeksPoisk/Antispam/AntiSEO/KlassifikatorKommercheskixZaprosov еще про него)) |
0.102548297661617 | FI_OWNER_SATISFIED4_RATE | Это SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок. |
0.097713692186877 | FI_SHOP | Это магазин предложение (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-4 паттернам в url`е)) ). Не используется (deprecated) |
0.097073501164592 | FI_IS_HUB | Хабовость страницы |
0.096811143316269 | FI_LINK_WEIGHTED_FORMS | Взвешенная по весам слов сумма числа форм |
0.096447224363928 | FI_DIFFERENT_INTERNAL_LINKS | Количество различных внутренних ссылок на страницу |
0.094045741102708 | FI_NUM_LINKS_FROM_SEGMENT_CONTENT | |
0.093045433292429 | FI_MPSA | Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/MPSA MPSA)) |
0.089404211238337 | FI_URL_LINK_PERCENT | Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок |
0.087850313290757 | FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXED | Сумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка. |
0.087122791007993 | FI_PAGE_RANK_UKR | Украинский Page rank |
0.085929172196314 | FI_YABAR_HOST_VISITORS | кол-во уникальных посетителей, ремапится экспоненциально |
0.085276276270387 | FI_DOM_PHRASE_YABAR | Переходы на сайт из поисковиков по отдельным словам, по данным бара |
0.084699401575226 | FI_GEO_RELEV_ALIEN_CITY | Результат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0) |
0.084012276385059 | FI_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения географии пользователя и страницы |
0.082967074248567 | FI_GEO_REGION_PROXIM | |
0.081289466115302 | FI_IS_NOT_RU | Домен не в зоне .ru |
0.080331864046170 | FI_SYN_FL_REMAP2 | Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее)) |
0.078872214489662 | FI_LINK_BREAK | Аналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение. |
0.077454131996933 | FI_QUERY_DOWNER_CLICK_SUMMARY | подобранная формула |
0.076343383792772 | FI_DOM_PHRASE_CLICK_RANK | Кликабельность домена по словам |
0.075434934641649 | FI_TEXT_BM25_ATTEN_SYN | TR с дисконтом за номер предложения |
0.074172193125966 | FI_YABAR_HOST_AVG_TIME2 | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера |
0.071481760992750 | FI_QUERY_DOWNER_SATISFIED4_RATE_REG | r_s4b/(r_k + 10) |
0.071417326810502 | FI_YABAR_HOST_INTERNAL_TRAFFIC | доля заходов на сайт не по ссылкам (набор руками или с закладок) |
0.071242787451280 | FI_PAGE_RANK_BONUS | Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум. |
0.070074395872424 | FI_TITLE_IDF_SUM | Idf по различным частям документа, сломаны, не используются |
0.069696682544392 | FI_LONGEST_TEXT | Размер самого большого текстового сегмента страницы (из фактора [18] PureText) |
0.069268621800152 | FI_EXPECTED_FOUND | Ожидаемое количество найденного по запросу |
0.067151098341326 | FI_YABAR_URL_VISITS | Посещаемость урла по данным я-бара |
0.066890922161289 | FI_URL_BM25 | BM25 по URL'у |
0.064310714968383 | FI_URL_TRIGRAMS | Модель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса. |
0.062753581782970 | FI_LAST_WORD_HOST_CLICKS | Кликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов) |
0.062474190501436 | FI_NON_COMM_NORM_LR_LOG_RELEV | XNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов) |
0.061675217167197 | FI_SOWNER_MAX_SUM_SOURCE_RANK | Сумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца. |
0.061031422056552 | FI_HEADING_IDF_SUM | Idf по различным частям документа, сломаны, не используются |
0.060594485044371 | FI_LERF_LR_LOG_RELEV | Линковая релевантность с учетом качества каждой ссылки |
0.059222635368125 | FI_BF_LEMMA_ALL | Варианты соответствующих факторов с учетом стоп слов |
0.058870258158539 | FI_BM25F_DPR_FIXED | BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. ((http://wiki.yandex-team.ru/BM25FRework Результаты тестирования.)) |
0.058415162135787 | FI_LONG_QUERY_SYN | Фактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова. |
0.057053549836014 | FI_PERCENT_WORDS_IN_LINKS | Процент числа слов внутри тега .. от числа всех слов |
0.056552232052119 | FI_PAGE_REGION_SIZE_IN | Размер региона страницы |
0.055767877134775 | FI_TLP1_ALL | Варианты соответствующих факторов с учетом стоп слов |
0.055185094441888 | FI_URL_NGRAMS_MODEL | Фактор ранжирования UrlNGramsModel в erf |
0.054926147793071 | FI_QUERY_REF_TRIGRAM_Q | ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание)) |
0.054680076158058 | FI_QUERY_DOWNER_CLICK_SUMMARY_REG | подобранная формула |
0.054576897612176 | FI_LANGUAGE_COMPLIANCE | Язык документа соответствует языку запроса |
0.054156294329288 | FI_BM25F_DPR_OBSOLETE | BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки |
0.051465613603836 | FI_GEO_CITY_PROXIM | Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов)) |
0.051057813309267 | FI_YABAR_URL_VISITORS | Количество уникальных посетителей урла |
0.050576094170344 | FI_NUM_SLASHES | Число слешей в урле |
0.049845924868959 | FI_SR | Сложносоставной static rank, собирается из статических компонентов по отдельной формуле((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/#oftnd1 *)). |
0.049061648412321 | FI_LINK_RELEV | Линковая релевантность. Фактор ремапится. |
0.047914113074106 | FI_QUERY_DOWNER_CLICKS_PCTR_REG | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt |
0.047164043400143 | FI_TITLE_IDF_SUM_FIXED | Предыдущие факторы - исправленные |
0.046891090311905 | FI_LINK_PAIR_SYN | Наличие в ссылках пар слов c учетом синонимов |
0.046783126435468 | FI_Q_DIVERSITY | Степень централизации точек, из которой задается запрос |
0.046757967567051 | FI_DBM35 | BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним) |
0.044511155721215 | FI_LERF_GEO_LR_LOG_RELEV | log(LerfLR, суженной на страну пользователя) |
0.042452794899003 | FI_LR_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения региона ссылок и запроса |
0.038806477920761 | FI_PASSAGE_LEGACY_TR | TR лучшего пассажа - насколько качественный сниппет может получиться |
0.038372460585705 | FI_LCOR | Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок. |
0.038263040612831 | FI_STATIC_TITLE_LR_BM25 | BM25 заголовка страницы по текстам ссылок на неё |
0.037180373854650 | FI_COUNTRY_Q_DIVERSITY | Степень централизации точек, из которой задается запрос (внутри страны) |
0.035447186193336 | FI_LINK_BREAK_SYN | Количество ссылок, прошедших порог |
0.033485833700259 | FI_HIT_NUM_100 | Преобразованное количество слов запроса во всех линках url`а. |
0.032525279432611 | FI_OWNER_SDIFF_SHOW_ENTROPY | Энтропия - распределение показов |
0.031399776481102 | FI_TLBM25 | Простой BM25 по тексту и линкам одновременно. |
0.031186243849340 | FI_WORDS_IN_TITLE | Число слов русского языка в заголовке |
0.030786458206337 | FI_BCLM | Фактор имени Buettcher, Clarke и Lushman (модифицированный) ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm подробнее)) |
0.030334786608805 | FI_LONG_QUERY | Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'. |
0.027302374355601 | FI_YA_BAR | Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится. |
0.026926509552263 | FI_LOG_LR | Логарифм от LR, линейно отображенный в [0,1]. |
0.026650508120317 | FI_TRIGRAMS_COND_PROB | Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов |
0.025806639721603 | FI_URL_SESS_NORM_DUR_RATE | nd/i |
0.025691573951246 | FI_IDF_VARIANCE | Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор) |
0.025328925792111 | FI_URL_SESS_NORM_DUR_RATE_REG | nd/i |
0.024263431712643 | FI_COUNTERS_SEARCH_TRAFFIC1 | Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула) |
0.024006117828321 | FI_TEXT_BREAK_EX | количество предложений, в которых встречается много слов по точной форме |
0.023610887210981 | FI_QUERY_URL_CLICKS_FRC_REG | отношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt |
0.022803839020796 | FI_TEXT_WEIGHTED_FORMS | Взвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x). |
0.021178675054476 | FI_NEW_LINK_QUALITY | Классификатор качества входящих ссылок 2 - сломан, см [407] |
0.021178675054476 | FI_NEW_LINK_QUALITY_FIXED | Классификатор качества входящих ссылок 2 исправленный |
0.019988663575500 | FI_CATALOG_RELEV | LR по каталожным описаниям |
0.019740981979634 | FI_SWBM25 | Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа. |
0.019580616053835 | FI_MEAN_WORD_LENGTH | Средняя длина слова |
0.019301158836494 | FI_LINKS_IN_TITLE_TRIGRAMS | Доля уникальных триграмм ссылок в триграммах заголовка |
0.019119257307239 | FI_LINK_RELEV_PHRASE | (phrase) есть все слова запроса подряд в одном линке. |
0.017641843798363 | FI_QSEGMENTS_BREAKS | Сегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты |
0.016179974819787 | FI_STATIC_TITLE_BM25_EX | BM25 заголовка страницы по её тексту |
0.013900531929943 | FI_PERIODIC_LINK_DATES_PERCENT | Периодичность ссылок на сайт |
0.013412340418363 | FI_GSK_URL_MODEL | Фактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk |
0.013370500669584 | FI_LR_GEO_RELEV_REGION_NATDOM | |
0.013171579829370 | FI_GEO_COUNTRY_PROXIM | Географическая близость |
0.013112575551553 | FI_LINK_QUALITY_FIXED | Качество входящих ссылок (классификатор Лещинера) исправленный |
0.012081787040108 | FI_COUNTRY_QUERY_REGIONALITY | Страновый классификатор локализуемости - насколько запрос подразумевает контекст страны |
0.011650367441796 | FI_FEM_MAS_NOUNS_PORTION | доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия). |
0.010872234578071 | FI_SYNT_QUALITY | Имеет ли запрос полный синтаксический разбор |
0.010581678208134 | FI_SEGMENT_AUX_ALPHAS_IN_TEXT | Количество букв в сегменте Aux |
0.009455905387837 | FI_LINK_SPEED | Число обратное дисперсии временам появления ссылок со словами запроса |
0.009314594460961 | FI_GEO_LR_LOG_RELEV | log(LR, суженной на страну пользователя) |
0.008426829629948 | FI_SPAM_KARMA | Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois |
0.007908808762912 | FI_URL_LENGTH_2 | Длина URL'а с точностью до символа. Отключено в продакшн. |
0.006691168756865 | FI_ADD_TIME | Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1. |
0.006678481233760 | FI_YABAR_HOST_SEARCH_TRAFFIC | Доля трафика с поисковых систем |
0.005160158423400 | FI_PHRASE | Есть ссылка, прошедшая кворум |
0.004768007631846 | FI_OWNER_SDIFF_SHOW_ENTROPY_REG | Энтропия - распределение показов. Регионализованный |
0.003890338237824 | FI_YABAR_URL_AVG_TIME | среднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами. |
0.003622338166697 | FI_QUERY_ISHUM | Cпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#ishum Подробнее)) |
0.003363499486900 | FI_COMM_LINKS_SEO_HOSTS_NON_COMM | Фактор CommLinksSEOHosts умноженный на NonCommercialQuery |
0.003128580544172 | FI_LR_AMORTIZED_BY_AGE | Линковая релевантность с пессимизацией за большой возраст линка |
0.002431406823392 | FI_SYN_FL_REMAP1 | Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее)) |
0.001181036676865 | FI_Q_DIVERSITY2 | Географическая распределенность запроса |
0.000692523218694 | FI_C_IN_DEGREE_2 | Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181rh58953-4#cindegree12 подробнее)) |
0.000426528744914 | FI_LINK_AGE | Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года |
0.000094696411924 | FI_LERF_LANG_LR_LOG_RELEV | LR с учетом совпадения языка ссылки и запроса и накрученности |
0.000000136522746 | FI_FIELD_LM | Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text) |
-0.000807198317231 | FI_DMOZ_QUERY_BEST_THEME | Наиболее вероятная тема запроса, определяемая ((http://wiki.yandex-team.ru/JandeksPoisk/ZarubezhnyjjInternet/DMOZqueryClassifier1 правилом колдунщика DMOZTheme)), учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1] |
-0.000832706989751 | FI_PAGE_REGION_REL_COVERAGE | |
-0.000833437078930 | FI_GOOD_RATIO | Какая доля ссылок “хорошая” |
-0.000843495929565 | FI_GEO_GEOMETRY_PROXIM | Географическая близость пользователя и сайта |
-0.001158034315755 | FI_URL_LEN | Длина URL'а, делённая на 5 |
-0.001209700633070 | FI_COUNTRY_Q_DIVERSITY2 | Географическая распределенность запроса внутри страны |
-0.001250755074786 | FI_ADV_PRONOUNS_PORTION | доля местоименных существительных |
-0.001564275785704 | FI_LINK_QUALITY | Качество входящих ссылок (классификатор Лещинера) - сломан, см [405] |
-0.002170850269151 | FI_TRIGRAMS_PROB | Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A) |
-0.003021983245146 | FI_TRLR_QUORUM_LEMMA | Вес слов запроса, которые есть в тексте с точностью до леммы |
-0.005028751679547 | FI_TOCM | Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе |
-0.005085205304656 | FI_QCLASS_OAO | организация |
-0.005976754416269 | FI_ADJ_PRONOUNS_PORTION | доля местоименных прилагательных |
-0.006679400217070 | FI_TEXT_PAIR_EX | наличие пар слов по точной форме |
-0.006950709230428 | FI_PAGE_REGION_INV_SIZE_IN | Фактор обратно пропорционален размеру региона страницы |
-0.007634608393132 | FI_YABAR_HOST_AVG_TIME | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста |
-0.008656938143421 | FI_TEXT_FORMS | Невзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса |
-0.010850511133080 | FI_SECOND_INDEG_DISTR_XI | Одиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/hostdegree подробнее)) |
-0.011207582653854 | FI_NUM_NON_LETTERS_IN_URL | Количество 'небукв' в урле |
-0.011221458184058 | FI_LR_WITHOUT_RARE | линковая релевантность без учета редких слов |
-0.011296769865650 | FI_OWNER_SDIFF_CSRATIO_ENTROPY | Энтропия - распределение отношения клики/показы |
-0.011681967583253 | FI_SEGMENT_AUX_SPACES_IN_TEXT | Количество пробелов в сегменте Aux |
-0.012429221647235 | FI_PARTICLES_PORTION | доля частиц |
-0.012919083353605 | FI_TEXT_HEAD_SYN | наличие слов в заголовке c учетом синонимов |
-0.013510450334814 | FI_MORNING_QUERY | Запрос задают преимущественно утром |
-0.015212586791057 | FI_TEXT_MAX_FORMS | Максимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64 |
-0.016033504310566 | FI_TEXT_FEATURES | Качество текста. Считается по довольно сложной формуле |
-0.016932610010322 | FI_TEXT_PAIR_W1 | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово |
-0.017928063556114 | FI_OWNER_SDIFF_CLICK_ENTROPY | Энтропия - распределение кликов |
-0.018278527670779 | FI_QUERY_ISORG | В запросе название организации (пример: Газпром, газпрома) ((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Описание)) |
-0.020210221137273 | FI_PERCENT_FREQ_WORDS | Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста |
-0.020628033510418 | FI_URL_QUERY_VARIETY_REG | Степень разнообразия запросов, по которым кликают данный урла, cчитается по регионам |
-0.020921642736537 | FI_TEXT_PAIR | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово |
-0.022152880819573 | FI_TEXT_PAIR_SYN | наличие пар слов c учетом синонимов (>=TxtPair) |
-0.023916010788926 | FI_OWNER_SDIFF_CSRATIO_ENTROPY_REG | Энтропия - распределение отношения клики/показы. Регионализованный |
-0.025355498987515 | FI_QDOWNER_STAT_POWER | Количество показов owner'а по запросу, нормировка x/(100 + x). |
-0.027287688639737 | FI_QUERY_ISGEO | Cпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1 (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Подробнее)) |
-0.028595315195293 | FI_SEO_IN_PAY_LINKS | Количество входящих сео-треш ссылок между хостами |
-0.028608739038830 | FI_RINGS_HOST_RANK_BADNESS_3 | Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее)) |
-0.030877746812643 | FI_PAGE_REGION_SIZE | Размер региона страницы |
-0.032004809610482 | FI_HOST_SIZE | Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом) |
-0.032269052994315 | FI_PLM | Фактор про то, наскоько хороший сниппет может получиться. |
-0.032828345615772 | FI_PERCENT_VISIBLE_CONTENT | Процент числа слов вне тегов (вне скобок <>) от числа всех слов |
-0.034716206980983 | FI_PAGE_DATE | Дата документа которая прописана на странице, ремапится квадратным корнем |
-0.036381245328354 | FI_RINGS_HOST_RANK_BADNESS_1 | Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее)) |
-0.036532955371613 | FI_RINGS_HOST_RANK_BADNESS_OLD | Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники. |
-0.037878046829073 | FI_TEXT_HEAD | BM25 по словам только в заголовке. |
-0.039215257302626 | FI_TEXT_HI_RELEV_SYN | BM25 c учетом синонимов |
-0.039575532416190 | FI_TEXT_HEAD_EX | наличие слов в заголовке по точной форме |
-0.044940112806396 | FI_YMW_FULL | Размер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее)) |
-0.044940112806396 | FI_YMW_FULL2 | Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее)) |
-0.044963560309064 | FI_NEVASCA2 | Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте. |
-0.045942748393758 | FI_HOST_RELIABILITY | доля урлов, которые отвечают без ошибок |
-0.046030869083841 | FI_YABAR_URL_LCAC | Число сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся |
-0.053739168786067 | FI_QUERY_WORD_COHESION_TR | Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. ((http://wiki.yandex-team.ru/SergejjKrylov/QueryWordCohesionTR описание)) |
-0.057014032623374 | FI_COUNTERS_SEARCH_TRAFFIC2 | Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула) |
-0.057628362537565 | FI_QSEGMENTS_WEIGHT | Вес' сегментов запроса в тексте |
-0.057658302748215 | FI_METRIKA_URL_CORE_AUDIENCE | Ядро аудитории страниц на которых есть счетчик Метрики |
-0.059299975637935 | FI_QSEGMENTS_BM25 | BM25, где в качестве 'слов' выступают выделенные сегменты запроса |
-0.059871381556405 | FI_QUERY_MAXONE | Возвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#maxone Подробнее)) |
-0.060922780495065 | FI_LINKS_WITH_WORDS_PERCENT | Процент входящих ссылок со словами запроса |
-0.062810308974889 | FI_TRLR_QUORUM_FM | Вес слов запроса, которые есть в тексте в точной форме |
-0.063761467432684 | FI_PAGE_REGION_COVERAGE | |
-0.063976585802142 | FI_PERCENT_USED_FREQ_WORDS | Число использованных в тексте 500 самых популярных слов языка, деленное на 500 |
-0.065082391728977 | FI_LR_MAX_DPR | Максимальный dpr ссылки |
-0.065128132003719 | FI_DOC_LEN | Длина документа в предложениях |
-0.066463228806236 | FI_IS_COMM | документ из коммерческой-кишки. Не используется (deprecated) |
-0.067337343351376 | FI_LARGEST_SY_INEXACT_GROUP | Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова |
-0.068235863277027 | FI_HEADING_IDF_SUM_FIXED | Предыдущие факторы - исправленные |
-0.069803680024687 | FI_RELEV_GEO_LINKS_PERCENT | |
-0.070483297609751 | FI_LOCM | Порядок слов в ссылках. |
-0.070483297609751 | FI_SYNSET_LOCM | Копия фактора ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Locm LOCM)) для((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Synset синсетов)). |
-0.076334972364641 | FI_TITLE_IN_LINKS_TRIGRAMS | Доля уникальных триграмм заголовка в триграммах ссылок |
-0.077504878926916 | FI_TEXT_SKIP_PAIR | TR по парам слов запроса через одно слово в текстах |
-0.083831128507580 | FI_LINKS_WITH_ALL_WORDS_PERCENT | Процент входящих ссылок со всеми словами запроса |
-0.084798680877042 | FI_LONG | Длинный документ (чем длиннее документ, тем больше значение фактора). |
-0.086731079136512 | FI_NUM_LATIN_LETTERS | число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100) |
-0.091993052812036 | FI_QUERY_CITY | При ответе на запрос важны результаты внутри города (основная масса локализуемых запросов) |
-0.094096848692163 | FI_TEXT_LIKE | Качество текста (классификатор Алексеева) |
-0.094261219650513 | FI_YANDEX_ADV | На сайте есть реклама Яндекса. |
-0.096496414873675 | FI_QUERY_REF_TRIGRAM_R | ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание)) |
-0.097277529611975 | FI_AURA_DOC_LOG_AUTHOR | Логарифм числа шинглов, на которых данный владелец документа признан автором |
-0.097686304848915 | FI_AURA_DOC_LOG_SHARED | Логарифм числа шинглов, на которых данный документ не уникален |
-0.109820338929289 | FI_TEXT_RELEV_PHRASE | Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе. |
-0.110593487056685 | FI_AURA_DOC_MEAN_SHARED_WEIGHT | Средний вес не-уникальных шинглов данного документа |
-0.116819481337211 | FI_TEXT_BRAEK_SYN | количество предложений, в которых встречается много слов c учетом синонимов |
-0.118606351159510 | FI_QUERY_WORD_SEQUENCES_TR | Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа. |
-0.118870879105496 | FI_QUERY_DOWNER_ENOUGH_CLICKED | Количество кликов по владельцу и количество кликов по запросу больше 5 |
-0.123814718900663 | FI_ESHOP_VALUE | Магазинность страницы |
-0.133931985443449 | FI_CLASSIF_IS_SHOP | Страница — магазин. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#isshop описание)). Не используется (deprecated) |
-0.141668202468497 | FI_PCT_LINKS | Для документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0 |
-0.160285061981584 | FI_OWNER_SDIFF_CLICK_ENTROPY_REG | Энтропия - распределение кликов. Регионализованный |
-0.162220616846705 | FI_URL_PATH_AND_PARAMS_FRACTION | То же, что и предыдущий фактор, но про весь урл кроме домена |
-0.168645758020604 | FI_GEO_CITY_URL_REGION_COUNTRY | Совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины. |
-0.180963639077109 | FI_COMM_LINKS_SEO_HOSTS | Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. ((http://wiki.yandex-team.ru/SvetlanaShorina/topseolinks выборка накрученных сайтов)) |
-0.194376876842978 | FI_QURL_STAT_POWER | Количество показов url'а по запросу, нормировка x/(100 + x). |
-0.207437366708906 | FI_DATER_AGE | Разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях. |
-0.250928463672112 | FI_ADV | На сайте есть реклама. |
Источники
search/relevance/nav_linear.h
search/web/rearrange/facts/fact_snippet/factor_info/snippet_factors_info/factors_gen.in
search/web/rearrange/facts/fact_snippet/factor_info/query_factors_info/factors_gen.in
search/web_fresh_detector/factors_gen.in
Разобранные факторы от других авторов
Автор
Telegram: https://t.me/Lord_Alfred
Не исключено, что может придти жалоба за публикацию этих данных, поэтому чтобы не потерять их – делайте Fork себе.
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK