Как Tumblr рекомендует контент

Tumblr — цифровое сообщество, соцсеть с микроблогами, в которой люди
собираются по интересам, делятся идеями, а также искусством в ходе
искреннего общения. Использование Tumblr опирается на наши ключевые
ценности: сообщество, конфиденциальность, аутентичность, свободу
самовыражения и возможность управления своим цифровым контентом. Мы даем
возможность авторам создавать свои лучшие работы и показывать их той
аудитории, которую они заслуживают.

В рамках этого подхода мы стремимся, чтобы наши ленты контента предоставляли
каждому пользователю высококачественный, безопасный, развлекательный,
вдохновляющий и актуальный контент. К вашим услугам разные виды лент, одна
из которых, например, основана на контенте из тщательно подобранного списка
блогов и тегов, на которые пользователь уже подписан, другая — динамически
подает контент на основе трендов и типов контента, которые, на наш взгляд,
могут быть интересны пользователю. Для этих лент мы используем широкий ряд
сигналов и техник персонализации контента, включая параметры ленты
пользователя. Читайте дальше, чтобы узнать больше о разных видах лент и о
том, как мы выбираем и упорядочиваем контент для их заполнения.

Ленты

Мы поддерживаем разные варианты потребления контента, в основном опираясь на
три вкладки:

Подписки

Здесь мы в основном показываем контент из блогов, на которые пользователь
подписан. Пользователи играют активную роль в управлении своим
пространством, выбирая, на какие блоги
подписаться, а также давая обратную связь о том, чего они не
хотят видеть (например, фильтруя контент из определенных блогов и по
конкретным тегам).

Мы также периодически показываем рекомендации:

Блоги для подписки («Посмотрите эти блоги». Эти
рекомендации исходят из подписок пользователя (например, с пометкой «На
вашей орбите» или «Похожее на блоги, которые вы читаете» могут быть подписки
блогов, на которые пользователь недавно подписался), а также схожести
контента (например, с пометкой «Вас может заинтересовать» будут блоги,
которые публикуют контент, похожий на недавно просматриваемые пользователем
посты). Мы не рекомендуем блоги, которые пользователь ранее отклонил, на
которые пожаловался, заблокировал или недавно отписался. Пользователи могут
влиять на рекомендации блогов, взаимодействуя с блогами и их контентом или
отклоняя конкретные рекомендации с помощью меню многоточия (●●●) в правом
верхнем углу поста, а также блокируя блоги и/или отписываясь от них.
Теги для подписки («Посмотрите эти теги»). Для этих
рекомендаций мы используем взаимосвязи между тегами (например, какие теги
часто используются вместе), а также теги, имеющие отношение к контенту,
который пользователь недавно просматривал. Пользователи влияют на
рекомендации тегов, взаимодействуя с контентом, а также блокируя теги, — мы
не рекомендуем теги, которые пользователь ранее заблокировал.
Посты, в том числе из блогов, на которые вы еще не
подписаны. Эти посты поступают из разных источников, чтобы как можно лучше
разнообразить ленту, но мы ограничиваем частоту этих рекомендаций, чтобы не
переполнять ленту подписок контентом, на который пользователь не
подписывался. Каждый рекомендуемый пост имеет пометку с объяснением, по
которому его легко идентифицировать. Примеры рекомендуемых постов:
- Популярные посты по темам, которые
  отслеживает пользователь (с пометкой «Поскольку вы читаете #тег»). Мы
  показываем популярные посты с тегами, на которые пользователь подписан и с
  которыми недавно взаимодействовал. Пользователи могут отказаться от
  просмотра этих постов, выключив
  переключатель «Включить посты по тегам, на которые вы подписаны» в своих
  параметрах ленты.
- Посты, связанные с недавней активностью
  пользователя с пометкой «На основе ваших предпочтений!»). Мы
  показываем посты, «похожие» на те, которые недавно понравились
  пользователю. При этом «схожесть» определяется по вовлеченности: два поста
  считаются похожими, если с ними взаимодействовали одни и те же
  пользователи. Пользователи могут отказаться от этих рекомендаций, отключив
  параметр «Включить «На основе ваших предпочтений!»» в своих параметрах ленты.
- Посты, понравившиеся блогам, на которые
  подписан пользователь (с пометкой «Понравилось @имяблога»). Мы
  суммируем активность «лайков» в блогах, на которые подписан пользователь, и
  рекомендуем контент, учитывая следующее: (i) скольким блогам, на которые
  подписан пользователь, понравился каждый пост (чем больше, тем лучше); (ii)
  частоту взаимодействия между пользователем и блогами, которым понравился
  пост (чем чаще, тем лучше); (iii) давность поста (чем новее, тем
  лучше). Пользователи могут отказаться от этих рекомендаций, отключив
  переключатель «Показывать посты, понравившиеся блогам, на которые вы
  подписаны» в параметрах своей
  ленты. (И, конечно, мы не делимся лайками пользователей, которые
  сделали свои лайки конфиденциальными, отключив параметр «Предоставить общий
  доступ к постам, которые вам нравятся» в своих настройках
  конфиденциальности.)

Примеры объяснений к рекомендациям в ленте подписок

Для большинства пользователей объем нового контента, доступного с момента их
последнего посещения, обычно превышает тот объем, который они обычно могут
просмотреть за один сеанс. Поэтому по умолчанию в ленте «Подписки» контент
алгоритмически ранжируется по прогнозируемой вероятности
взаимодействия. Пользователи могут отказаться от такого ранжирования и
вместо этого использовать хронологическую ленту, выключив переключатель
«Сначала самое лучшее» в своих
параметрах ленты.

Для вас

Лента «Для вас» состоит из постов, созданных или опубликованных в блогах, на
которые пользователь уже подписан, а также из постов по темам или блогам, о
которых пользователь, возможно, еще не знает.

Рекомендуя контент в ленте «Для вас», мы используем разные сигналы для
определения моделей взаимодействия пользователя с точки зрения прошлых и
настоящих предпочтений в отношении контента. Эти сигналы включают ярко
выраженное положительное и отрицательное взаимодействие с блогами (подписка,
блокировка и т. д.), постами (лайки, ответы, реблоги, репосты, отклонение и
т. д.) и тегами (подписка, блокировка и т. д.), а также поисковые запросы и
события при просмотре (касания, клики и т. д.). Мы присваиваем этим событиям
разную степень важности: явные взаимодействия имеют большую важность, чем
события при просмотре, поскольку они более точно отражают предпочтения
пользователя в отношении контента, в то время как события при просмотре
могут быть менее релевантными (например, пользователь мог нажать пост,
который ему не нравится). Мы также учитываем время, прошедшее с момента
каждого действия, придавая большую важность недавним взаимодействиям и
событиям. Это позволяет нам отслеживать изменения в предпочтениях
пользователя с течением времени.

На основе такого анализа предпочтений пользователя в отношении блогов, тегов
и постов мы определяем выборку постов (из блогов, на которые пользователь
еще не подписан), которые потенциально могут его заинтересовать. Это
осуществляется с помощью набора различных алгоритмов поиска, каждый из
которых специализируется на выявлении подходящих кандидатов с использованием
подмножества сигналов и определения сходства контента. Например, алгоритмы коллаборативной
фильтрации выявляют посты, с которыми взаимодействовали
пользователи со схожими моделями взаимодействия (например, они
взаимодействовали с одними и теми же постами), в то время как подходы к
фильтрации на основе
контента предлагают посты, содержимое которых (текстовая
информация, теги, мультимедиа и т. д.) похоже на интересы пользователя
(теги, которые он отслеживает, посты, с которыми он недавно
взаимодействовал, и т. д.).

В конечном итоге, порядок постов в ленте «Для вас» определяется
прогнозируемой вероятностью, что пользователь сочтет каждый пост интересным
и соответствующим его интересам. Мы также стараемся следить за тем, чтобы
контент в этой ленте отражал широкий спектр источников и интересов.

Поскольку наполнение ленты «Для вас» происходит алгоритмически, пользователи
могут влиять на то, что в ней появляется, органически взаимодействуя с
лентой, управляя списком отслеживаемых или заблокированных блогов и тегов, а
также помечая нерелевантный контент с помощью ссылки «Мне не интересен этот
пост» в меню многоточия (●●●) в правом верхнем углу поста.

Ваши теги

Эта лента предназначена для того, чтобы пользователь получал самый лучший
актуальный контент по тегам, на которые он подписан. Порядок постов в этой
ленте в равной мере учитывает новизну и популярность, чтобы обеспечить
порцию свежего, актуального и высококачественного контента. Мы также
показываем подборку самых популярных авторов по каждому тегу, исходя из
количества последних постов с данным тегом и соответствующим
взаимодействием. Пользователи могут влиять на наши рекомендации, меняя свои
отслеживаемые теги, блокируя теги и фильтруя ленту «Ваши теги» для просмотра
контента только по определенным тегам.

Как мы упорядочиваем контент в лентах

Наполнение лент, как правило, выполняется по описанному ниже
сценарию. Некоторые шаги могут пропускаться в зависимости от предпочтений
пользователя.

Получение потенциальных рекомендаций постов из разнообразных базовых
источников (график подписок — источник постов на основе блогов, на которые
пользователь подписан, коллаборативная фильтрация — источник постов, похожих
на те, с которыми пользователь недавно взаимодействовал, фильтрация на
основе контента — для постов, содержимое которых соответствует интересам
пользователя).
Применение нескольких фильтров, чтобы убедиться, что контент доступен (не
удален и общедоступен, т. е. видим для всех пользователей), соответствует правилам
сообщества и настройкам видимости
контента для взрослых, учитывает выбранные пользователем
настройки фильтрации по блогам и тегам, и что
пользователь еще никогда не взаимодействовал с этим контентом. В ленте «Для
вас» мы также применяем этап фильтрации для удаления постов, которые
пользователь недавно просматривал, чтобы сделать контент как можно
актуальнее и разнообразнее.
Упорядочение этого пула контента так, чтобы самые интересные и релевантные
для пользователя посты отображались в верхней части ленты. В этап входит
прогнозирование вероятности, что каждый из подобранных постов окажется
интересным и релевантным для пользователя, а затем соответствующая
сортировка подборки постов.
Изменение порядка очередности результатов, чтобы обеспечить большее
разнообразие в ленте. На предыдущем этапе мог сформироваться поток похожего
контента (например, из одного и того же блога или по одной и той же теме),
что может негативно сказаться на общем впечатлении. Диверсифицированное
переупорядочение результатов гарантирует, что последовательность постов в
ленте охватывает различные интересы пользователя и сбалансированное
сочетание источников контента.

Релевантность/вовлеченность, которую мы связываем с каждым постом на этапах
ранжирования, зависит от множества факторов. Мы используем методы машинного
обучения, чтобы на основе большого количества исторических событий узнать,
как взаимодействие между этими факторами влияет на вероятность
взаимодействия пользователя с потенциальными рекомендациями.

Хотя мы используем отдельные модели прогнозирования для разных лент и часто
гоняем их, чтобы повысить точность, обнаружилось, что категории факторов с
более высокой прогностической силой, как правило, оказываются одними и теми
же. К ним относятся:

информация об авторе контента, включая его популярность (например,
количество подписчиков) и уровень его недавней активности (количество
недавно созданных постов и т. д.);
информация о посте, включая его тип (реблог или оригинальный пост),
давность, популярность (количество взаимодействий, как правило, с разбивкой
по типу взаимодействия) и информация о контенте поста (например, тип поста,
наличие и количество тегов, изображений, длина текста и т. д.);
информация о пользователе, включая его интересы и предпочтения по разным
типам контента;
информация о пользователе и авторе поста, например, наличие одно- или
двухсторонней социальной связи (подписаны ли они друг на друга?), подписки
(подписан ли пользователь на автора?) и недавний уровень взаимодействия
пользователя с контентом, которым поделился автор поста.

Пользовательский контроль над лентами

Мы предлагаем пользователям несколько способов персонализировать работу с
Tumblr и обновляем контент в лентах в режиме реального времени согласно
текущим настройкам. Пользователи могут:

выбрать хронологическое или алгоритмическое ранжирование в ленте подписок с
помощью параметра «Сначала самое лучшее» в параметрах ленты;
управлять рекомендуемыми постами в ленте подписок с помощью переключателей
«Включить посты по тегам, на
которые вы подписаны», «Включить «На основе ваших предпочтений!»» и
«Показывать посты, понравившиеся блогам, на которые вы подписаны» в параметрах ленты;
отклонять рекомендуемые посты с помощью пункта «Мне не интересен этот пост»
или «Пропустить» в меню многоточия (●●●) в правом верхнем углу поста;
блокировать посты
конкретного автора;
блокировать посты с
определенными тегами;
жаловаться на посты как на спам или небезопасный
контент, используя пункты «Пожаловаться на пост» или «Предложить
метку сообщества» в меню многоточия (●●●) в правом верхнем углу поста.