大數據

波尔多犬:上萬條數據撕開微博熱搜的真相!

廣告
廣告

微信掃一掃,分享到朋友圈

上萬條數據撕開微博熱搜的真相!
0 0

作者:徐麟,某互聯網公司數據分析獅,個人公眾號數據森麟(id:shujusenlin)

吃瓜前言

關于新浪微博,向來都是各路吃瓜群眾聚集之地,大家在微博中可以盡情吃瓜,各種類型的瓜應有盡有,只有你想不到的,沒有你吃不到的。微博熱搜榜更是各路明星的“必爭之地”,能夠上熱搜也是代表了其知名度,“包月熱搜套餐”,“買熱搜”是否存在迄今也是一個未解之謎

除了吃瓜群眾,新浪微博也聚集著一群被整個互聯網圈所同情的一群苦逼程序員,每當有明星放出新聞,特別是結婚、離婚、分手、戀愛這類婚戀題材,新浪微博程序員都會嚴陣以待,此時的服務器會因為吃瓜群眾的大量涌入而變得脆弱起來,隨時有崩潰的風險,下圖就是一張此前廣為流傳的程序員在自己婚禮處理服務器崩潰的經典圖片:

我們此次通過爬取2019年2W+條熱搜數據,包括內容以及搜索指數,為大家揭開微博熱搜2019的諸多秘密,一起利用數據“硬核吃瓜”,包括:2019微博熱搜最大的瓜,微博程序員集體加班的日子,微博熱搜的???,熱搜里的2019互聯網……

瓜源獲取

我們此次并沒有直接去爬取微博的原始數據,而是從一個專門記錄微博熱搜歷史數據的網站獲取,網站界面如下:

通過網站的數據接口,我們獲取到了今天1月1日至今的2W多條數據,爬取代碼如下:

resou = pd.DataFrame(columns=['date','title','searchCount','rank'])resou_date = getBetweenDay('2019/01/01','2019/07/12')for?i?in?resou_date:????print(i)????url=?'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i))????html = requests.get(url=url, cookies=cookie, headers=header).content????data = json.loads(html.decode('utf-8'))????for?j?in?range(100):????????resou = resou.append({'date':i,'title':data[j]['keyword'],? ? ? ??'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)

最終獲取到的吃瓜數據如下:

硬核吃瓜

有了前面的瓜源獲取過程,我們獲取到了2W+吃瓜數據,下面就可以開始利用這些數據愉快地開始我們的吃瓜之旅

第一瓜:2019微博熱搜最火事件

說到吃瓜,大家首先關注的一定是那些最大的瓜,要吃就吃最大的瓜也是廣大吃瓜群眾所遵從的基本原則,我們通過對比熱搜數據的搜索指數,選取出了15個最大的瓜,數據如下:

看來最大的瓜都是婚戀題材,排名前四的瓜涵蓋了結婚、離婚、分手這些廣大吃瓜群眾所最為關心的內容,并且有了明星加成,結出這些巨型瓜也就不足為奇,大家可以看到排名第14的熱搜“今天到底是什么日子”可能會好奇,為何這種標題也會有那么高的搜索量,想要知道這個問題的答案,就請繼續去品嘗下面的瓜

第二瓜:2019最讓微博程序員抓狂的日子

剛才的瓜中,我們留下了一個懸念,為何“今天到底是什么日子”這種看似沒有任何營養的內容,都會有那么高的搜索指數。為了回答這個問題,我們統計了2019年每天的TOP100熱搜話題平均指數,并繪制了日歷熱度圖:

可以看到6月27日的指數遠高于其他天數,而且基本上是其他時間的兩到三倍,這一天就是“今天到底是什么日子”這個話題的誕生之日,并且這一天微博服務器毫無疑問地“應聲倒地”,我想這一定是讓微博程序員懷疑人生的日子

下面我們就來具體看看,這一天到底發生了些什么:

看到這份榜單,我們仿佛看到了程序員們6月27日的絕望。宋慧喬&宋仲基離婚這個巨型瓜的出現,程序員們還可以用自己的信念支撐著服務器不要崩潰,然而正當程序員們以為穩操勝券的時候,范冰冰&李晨分手這個更加巨大的瓜出現了,我想程序員們內心一定是這樣的:

因為有了這兩個巨型瓜的存在,使得“張若昀&唐藝昕”,“馬思純當司儀”,“杜江否認出軌”這種平時能夠輕松hold住的瓜也產生了威力加成,進一步壓垮程序員,就連平時低調的B站也請來了五月天,真可謂是“瓜團錦簇”的一天。我想“今天到底是什么日子”這條熱搜的創造者很有可能就是新浪微博的程序員

第三瓜:2019最勤勞的瓜生產商

前面提到了6月27日是微博程序員最為抓狂的日子,那么又有那些生產商為廣大吃瓜群眾源源不斷地創造吃瓜素材呢,我們也統計了相關數據,想必這些生產商也是廣大程序員們最怕的人:

榜單中易烊千璽以80次的出現次數榮登榜首,也就是說平均每兩天他就會為廣大群眾生產一次“吃瓜素材”,也是非常地勤勞,想到作者一個月一篇原創的節奏,默默留下了悔恨的淚水。周董也在榜單中以78次的數據位居次席,畢竟周董是一代人的青春記憶,大家也都在時刻關注著周董。

或許大家會認為榜單都被娛樂圈所霸占,沒啥新意之時,東哥站了出來,成為榮登本榜單的唯一互聯網人士,不過個人還是希望今后不要在榜單中再看到東哥的身影,畢竟老話說得好“no news is good news”。

第四瓜:那些專屬熱搜的詞語

如同“****,是怎樣的體驗”這樣的知乎體,“震驚!***”這樣的uc體,熱搜也有一些比較常出現,能代表熱搜獨特氣質的詞語,我們從中選取了一些比較有代表的詞語并統計其出現次數

華為在榜單中出現了86次,也印證了大家在上半年對于華為的關注度,未來也希望有更多類似于“華為**系統上線”這樣振奮人心的消息出現在熱搜中。

同時在小編看來否認,道歉,心疼這三個詞是非常有特色的熱搜詞語,畢竟很難在其他的地方會時不時就看“心疼**”這種標題,我們針對于這三個詞語制作了相應的詞云:

否認版

208次否認相關話題出現在了熱搜榜單,足以說明在這個信息爆炸的時代有太多的事情難以去分辨真假,其中一些內容確實是虛造的,當事人也及時站出來進行否認。不過對于其他的一些事情,想必是“真亦假來假亦真”,需要大家自己去判斷

道歉版

強烈建議廣大讀者收藏上圖,特別是在被老板罵或者因為生產BUG而被同事懟的時候拿出來看一下,調節一下自己的心情。想到連菲利普親王都要道歉,及時認個慫好像也沒啥,畢竟你的工資卡里也沒剩幾個錢

心疼版

最后這個可以說是極具微博特色了,廣大吃瓜群眾可謂憂國憂民,心疼的對象從韓庚到吳謹言,張雨綺,就連梅西都心疼名單中,這體現出了吃瓜群眾樂于助人的正確價值觀。

不過小編表示還是要先心疼一下自己,上面那些被心疼的人收入都是小編的上百倍甚至更多,還是先心疼一下自己的花唄比較現實

除此之外,微博熱搜也十分熱衷于關心明星是不是哭了以及是不是胖了這種話題,可謂“先天下之憂而憂,后天下之樂而樂”,滿滿的責任感

第五瓜:明星婚戀話題到底有多火

此前提到,排名靠前的內容大多都是明星婚戀題材的內容,比如**和**離婚,**和**結婚又離婚,或者**和**結婚又離婚又復婚……,我們就來看一下這些話題出現的次數

不出所料,廣大吃瓜群眾對于這類題材都有著非常高的好奇心,為別人的婚戀情況操碎了心,可以說是很努力了,想必未來的**婚戀上市公司的老總一定會在吃瓜群眾中誕生,我們也來具體看看那些相關的話題。

結婚 VS 離婚

戀情VS分手

最后我們以一句話來結束這部分的吃瓜內容:“貴圈真亂”

第六瓜:2019熱搜中的互聯網專屬瓜

前面說的那些大多都是娛樂圈的內容,作為互聯網從業(banzhuan)人員,對于互聯網的專屬瓜品也有著強烈興趣,我們從中選取了互聯網圈為2019熱搜所生產的瓜品:

出人意料的是TOP2居然都和B站有關,經過查證,這兩條都發生在最讓微博程序員抓狂,瓜團錦簇的6月27日(比較奇怪的是B站十周年應該是6月26日,但上榜時間確是27日),平時八成熟的瓜立刻熟透。相信互聯網人看到這份榜單,也會回憶起很多上半年發生的事情,2019上半年的互聯網也是熱鬧非凡。

吃瓜結語

今天的吃瓜之旅就到這里結束了,看來吃瓜也是門學問,微博熱搜數據也是一個大的分析寶庫,里面還有很多可以繼續分析的點,等待大家去挖掘

我還沒有學會寫個人說明!

中興數據庫的決心

上一篇

談PaaS平臺建設:如何應對企業架構多元異構資源的挑戰

下一篇

你也可能喜歡

上萬條數據撕開微博熱搜的真相!

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃