資料會說話:解讀 2013 年台灣中文書暢銷榜的另一種方法

原本打算寫一篇 從《快思慢想》的書市表現思考創業(暫定) 的文章,
為了要搜集一些臺灣 2013 年書市的表現,花了一點點時間去看博客來、
誠品以及金石堂三間書店去年的中文暢銷書排行榜,稍微了解一下。

於是我先整理了一張這三間書店的比較表格(如下圖),但越看覺得越有趣,
不禁拋下原本手邊要寫的創業相關文章,想從這份名單中看出個什麼道理來。


我首先觀察到幾本書的優異表現,
像是《神奇骨盤枕》《眼球操》《地獄》《格雷》全都出現在各家前 10 名,
好書劣譯的《快思慢想》也出現在博客來&金石堂的前三名,
《想念,卻不想見的人》則是同時出現在博客來和誠品的前十名排行榜上......,
而如果像下面這張圖一樣,把「重榜」情況(出現在兩家以上書店者)標記出來,
我們可以發現台灣三大書店(以及背後代表的台灣書市)的前 10 名重榜率頗高,
大概可以知道在各個書店通路中哪本書賣最好?去年大家的口味是什麼?


如果今天我們有興趣的議題是:2013 年哪些書最暢銷?
那麼看起來這個排行榜資料的價值就僅止於此了,
包括我身邊在內的朋友,在看過這份榜單後也都只注意到解決這個議題。
這是在處理資訊時最直觀的反應,也是排行榜最能傳達的訊息。


「但了解去年的大眾口味之外,你有沒有想過這份資料還可以怎麼應用呢?」


在這份榜單滿足了我「大眾口味」的好奇心後,我一時無聊就在思考上面這個問題。
我想起先前曾經想要研究這三間書店的讀者(客群、TA)有什麼樣的不同?
如果能了解這三個圖書通路的客群差異,或許能了解一些臺灣出版業的市場狀況。

有了這個問題的想法後,我第一時間不是回去盯著排行榜看,
而是先針對問題,去建立假說(Hypothesis)我認為什麼人會去誠品買書?
我選擇用「個人經驗」這個比較粗糙的方式,來建立處理榜單資料前的假說:

  • 誠品:是給文青去的高級藝文消費場所
  • 金石堂:是很多地方都可以找到分店的老少閒宜圖書好鄰居
  • 博客來:是給不想出遠門、或是喜歡比價格撿便宜買書的人們

讓我們回到前面那份榜單資料。從前面那張圖中,我們確定自己可以掌握兩件事,
第一,是清楚了解三間書店最受歡迎的十本書; 第二,透過整理得知三間都受歡迎的書。
但如果現在我們關心的,是這三間書店的讀者(客群、TA)有什麼樣不同的話,
看起來目前我們所得到的線索並不管用,現在取得的資訊都是雜訊(Noise),
這個「故事」(假說的驗證)似乎到此為止,Checkmate?

但實際上我們仍然可以想辦法往下走一步、去找出有益於我們問題的訊號(Signal)
這方法應該有很多種,而我自己的最直接的粗糙做法,是採取「移除重複」的手段,
也就是說,把同時出現在兩家以上的暢銷書,從名單中劃掉。如下圖所示:



做這件事情背後的一個假設(Assumption)是:
在三間書店都很暢銷的書籍,對於我們的議題(客群差異)而言,
並沒有辦法提供更好線索,因為這可能是所謂的大眾口味。
就好像一份沒有鑒別度、無法測出學生學習成果的考卷一樣,
考卷上的絕對分數沒有意義,甚至連學生排名的分布也沒有太大的參考價值,
這一個簡單的觀念,用在暢銷書排行榜上也有相同的意義。

就這個假設為出發,可以知道在排除「大家都很暢銷」的情況下,
剩下來的書就有極高的機率是「各家書店鎖定的 TA 特別喜愛的書」
而這些剩下來的書,也可以視為判斷各家書店 TA 定位的重要訊號

整理出這些書之後最重要的工作,
是去解釋這些訊號對於我們的假說有什麼樣的意義?
於是我利用 Google 去搜尋每一家這幾本書的資訊,
並以標記出他們在博客來的分類,其結果如下:

》博客來:看不太出什麼端倪?(可能是因為 TA 異常複雜的緣故)

》誠品書店:自我探索與內在療癒為主的書居多(村上大師的作品亦有如此風格)

》金石堂書店:以青少年喜歡看的小說居多(簡媜老師散文為例外?)

對照先前我們建立的假說,
誠品書店的排行榜看起來比較能佐證我原先的想法;
金石堂倒是讓我意外地發現了假說沒精確涵蓋的客群; 
至於博客來,資料並沒有辦法提供我更好的訊號,
這或許是因為博客來本身的客群,本身就相對複雜的緣故,
我似乎得透過其他的資料來輔助、驗證這個說法是否可信。

當然,你會發現我在每一個步驟都有一些關鍵性的假設:
包括在假說的設定上可能很粗糙、「移除重複」並不是個好方法...等,
但我想表達的是,在我們每每自以為「已經完善地處理」一份資料時,
其實一份資料裡面,可能還有很多值得挖掘的寶藏等待我們找出來。

而這些寶藏,只要我們擁有和資料相關的知識背景、保持敏銳謹慎的態度,
就相對於其他自以為是的人,更容易發現資料背後的真理。

----------------------------------------------------------------------------------------------------------------------

#其他文章閱讀:

「不好讀,但能啟發你去思考的《精準預測》。」
「其實你數學沒那麼爛。」

#好的統計入門書推薦: