Tumblr 是如何推薦內容的

Tumblr 是一個數位社群,一部分由微型部落格組成,另一部分的組成則是社群網路,人們到這裡來分享共同的興趣,透過真誠的對話交流來慶祝構想和藝術。在
Tumblr
上的體驗仰賴於我們的關鍵價值,如社群、隱私權、真實性、自由表達、使用者對數位體驗的控制…等。我們讓創作者可以創作他們的最佳作品,並把作品呈現在他們所值得的觀眾面前。

作為這個概念的一部分,我們的補給文希冀能為每位使用者提供高品質、安全、娛樂、具啟發性、有相關性的內容。我們提供多種不同的補給文,包括一個以來自使用者已追蹤蒐集的部落格和標籤清單的內容為基礎的補給文,而另一個則是根據目前潮流,以及我們相信使用者可能會感興趣的內容類型而動態性提供的內容。為了開發這些補給文,我們採用多樣化的內容個人化技術和訊號,包括使用者的情報中心喜好設定。如要深入了解各種補給文類型,以及我們是如何選取及排列要呈現在補給文之內的內容,請繼續閱讀下去。

補給文

我們支援不同的消費體驗,大部分是透過三個分頁

 

追蹤中

在這個空間中,我們大部分會展示來自使用者所追蹤之部落格的內容。使用者對於他們的體驗採取主動性的角色,他們可以自訂他們要追蹤的部落格,也可以針對他們不想看到的內容提供意見反應(譬如說篩選掉來自特定部落格標籤的內容)。

我們偶爾也會提供以下的建議:

 


對於追蹤中補給文推薦解釋的幾個範例

 

對於大部分的使用者,自從他們最近一次拜訪之後出現的新內容的量,會傾向多於他們通常能在一次拜訪中瀏覽的量。由於這個原因,我們在追蹤中補給文的預設體驗會根據演算法預測的互動可能性來排行內容。使用者可以選擇不要在追蹤中補給文上運用演算法排行,改為依時間順序排列補給文,只要在他們的情報中心喜好設定中關閉「最精采者優先」切換開關就可以了。

個人推薦

在「個人推薦」補給文上的內容混和了由使用者已追蹤的部落格所創作或轉格的貼文,和來自使用者可能還不知道的來源(可能是部落格或主題)的貼文。

在「個人推薦」補給文中推薦內容時,對於內容的過往偏好和即時偏好,我們會使用不同的訊號來辨識使用者的互動模式。這些訊號包括明確的正面和負面互動,這可以是針對部落格(例如追蹤、封鎖)、貼文(例如喜歡、回覆、轉格、分享、解除)和標籤(例如追蹤、封鎖)的,另外也包含了搜尋查詢和瀏覽活動(例如點按操作)。我們會為這些活動指派不同的重要性權重,明確互動的權重會高於瀏覽活動,因為前者會比較精確地反映出使用者對於內容的個人偏好,而後者可能就會含有比較多雜訊(例如使用者可能會按了一篇他們並不喜歡的貼文)。我們也會考量在執行動作之後已經過了多久,給予最近的互動和活動較高的重要性,如此便可讓我們捕捉到使用者的個人偏好隨著時間的轉變。

我們會把這項對於使用者對部落格、標籤和貼文的個人偏好的了解,用來辨識選取可能會與使用者有關的貼文(從尚未追蹤的部落格中挑選)。我們會透過運用一套不同來源的演算法來實行,每個演算法會使用一小組的訊號和內容相似性定義來專門辨識出相關的候選內容。舉例來說,協同過濾演算法會呈現有類似互動模式(譬如說與同一篇貼文互動過)的使用者所互動過的貼文,而內容導向
(content-based)

機制則會建議內容(譬如說文字資訊、標籤、媒體物件)與使用者的興趣(譬如說使用者所追蹤的標籤、使用者最近有互動過的貼文)類似的貼文。

總歸來說,在「個人推薦」補給文中貼文的順序是由預測使用者將會覺得貼文有吸引力,並且與他們的興趣相關的可能性來決定的。我們也會嘗試確保在這個補給文上的內容反映出廣泛的來源和興趣。

由於在「個人推薦」補給文上的消費體驗是演算驅動的,使用者可以透過與補給文進行有機互動、蒐集他們所追蹤或封鎖的部落格和標籤清單、使用位於貼文右上角的貢丸選單
(●●●) 中的「我對這篇貼文沒興趣」連結來標示不相關的內容,以影響所展示的內容。

你的標籤

這個補給文的用意是要讓使用者有個地方可以跟上與他們追蹤標籤相關的最新最精采的內容。在這個補給文中,貼文的排列順序會平衡新鮮度和熱門程度,以提供混和了新鮮、相關、優質的內容。我們也會展示各個標籤中最熱門的創作者的一些內容,這些內容的篩選是根據創作者近期對於該標籤的貢獻量以及相關的互動量來決定的。如果要修改我們推薦的內容的話,那麼使用者可以管理他們追蹤的標籤、封鎖的標籤,以及將「你的標籤」補給文篩選為只檢視來自某些標籤的內容。

我們如何排列補給文上的內容

補給文的組成通常會遵循以下的程序,其中的有些步驟可能會根據使用者的喜好設定來跳過。

  1. 從各種潛在的來源擷取候選貼文,這些來源有由追蹤部落格所創作之貼文的追蹤圖表、聯合篩選出與近期互動過的內容類似的貼文,以及根據與使用者的興趣相符的內容來挑選出的貼文。
  2. 套用多個篩選條件以確保內容是可用的(譬如說沒有被刪除,還有貼文和部落格的公開範圍是設為公開的)、有遵守社群規定成人內容顯示與否設定、尊重使用者對於部落格標籤的篩選設定,並且使用者先前從未曾互動過。在個人推薦補給文上,我們也會套用一個篩選步驟來移除使用者最近曾看過的貼文,以提昇多樣化和新鮮度。
  3. 排列這堆內容的方式必須要能在靠近補給文的頂端提供使用者最有吸引力和相關的貼文,這個階段涉及到預測一個使用者將會覺得特定一篇候選貼文與他們的興趣有關並且有吸引力的可能性,然後依據這個預測來分類候選文。
  4. 重新排列結果來改善在補給文中貼文次序的多樣化。先前的階段可能會產生一系列相似的內容(譬如說由同一個部落格所創作,或是有關相同的主題),如此可能會導致不良的使用者體驗。多樣化重新排行可確保在補給文上的貼文次序涵蓋了使用者的不同興趣,並且是來自平衡性的混合來源。

在排行階段期間,我們聯結到各篇貼文的相關性/吸引力會依據多種因素來決定。我們採用機器學習技術來從大量的歷程事件中學習那些因素(特徵)之間的相互作用,如何影響使用者與候選貼文互動的可能性。

雖然我們使用補給文特定的預測模型,並且經常反覆操作這些模型以改善其準確性,我們發現具有較高預測能力的特徵類別傾向於是同樣的,包括:

使用者對於補給文的控制

我們提供使用者多種方式來自訂他們在 Tumblr 上的體驗,而且我們會即時更新補給文以反應目前的設定。使用者可以:

Copied to clipboard!