不知道今年的春晚大家看了嗎?小編表示沒有看,而且是已經(jīng)很多年沒有完整的看過(guò)春晚了,關(guān)于看春晚的熱情都是小時(shí)候的事了。如今,距離第一屆春晚 1983 年,整整過(guò)去了 39年,看過(guò)那么多春晚,哪一年、哪些節(jié)目、哪些人你還留有深刻印象呢?接下來(lái),通過(guò) Python 數(shù)據(jù)分析。
在網(wǎng)上找了很久發(fā)現(xiàn)沒有關(guān)于春晚完整的數(shù)據(jù),都是不連貫的,節(jié)目單表是每一年春晚上表演的節(jié)目,包括:節(jié)目類型、節(jié)目名、演員名這幾項(xiàng)數(shù)據(jù)。這里我們就使用Python 抓取這類表格數(shù)據(jù),方法簡(jiǎn)單,幾行代碼就能搞定,簡(jiǎn)單的示例代碼如下:
#! -*- encoding:utf-8 -*- import requests import random # 要訪問(wèn)的目標(biāo)頁(yè)面 targetUrl = "http://httpbin.org/ip" # 要訪問(wèn)的目標(biāo)HTTPS頁(yè)面 # targetUrl = "https://httpbin.org/ip" # 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗(yàn)證信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 設(shè)置 http和https訪問(wèn)都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 設(shè)置IP切換頭 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
抓取下來(lái)的數(shù)據(jù)都比較混亂,需要用 Python 清洗處理一下就可以分析,這些不是重點(diǎn),重點(diǎn)是在獲取數(shù)據(jù)的過(guò)程中,目標(biāo)網(wǎng)站有封反爬策略比如封ip,所以在訪問(wèn)過(guò)程中我加了代理,代碼部分主要是關(guān)于如何使用動(dòng)態(tài)轉(zhuǎn)發(fā)模式代理示例,在學(xué)習(xí)爬蟲中對(duì)代理有疑問(wèn)的可以看下這里https://www.16yun.cn/。在獲取數(shù)據(jù)之后就可以直接進(jìn)入分析環(huán)節(jié),從中我們可以看到誰(shuí)導(dǎo)演春晚次數(shù)最多?誰(shuí)主持春晚次數(shù)最多?誰(shuí)上春晚次數(shù)最多等數(shù)據(jù)。
?
若有收獲,就點(diǎn)個(gè)贊吧
審核編輯:鄢孟繁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7252瀏覽量
91666 -
python
+關(guān)注
關(guān)注
56文章
4826瀏覽量
86549
發(fā)布評(píng)論請(qǐng)先 登錄
如何使用 CYW20829 將獲得的傳感器數(shù)據(jù)發(fā)送到廣播中?
跟老齊學(xué)Python:從入門到精通
python入門圣經(jīng)-高清電子書(建議下載)
樹莓派遇上機(jī)器狗:科技界的“春晚明星”是怎樣煉成的?

爬蟲數(shù)據(jù)獲取實(shí)戰(zhàn)指南:從入門到高效采集
TE HDC重載連接器助力蛇年春晚視覺盛宴
使用Python實(shí)現(xiàn)xgboost教程
適用于MySQL和MariaDB的Python連接器:可靠的MySQL數(shù)據(jù)連接器和數(shù)據(jù)庫(kù)

評(píng)論