人工智能的火爆帶動了對數據科學家的大量需求。看到急缺的崗位和高薪,誰能不動心呢?可是你確定想好要成為一名數據科學家了嗎?你知道成為一名DS,需要具備什么技能嗎?那就請準備好,下面我們要開車了!
你可能已經從媒體鋪天蓋地的報道中,了解到數據科學家這個抬頭非常火。
根據UiPath數據顯示,2018年12113個崗位爭奪AI人才,數據科學家需求量排名第二。
于是很多人萌生了入行、或者轉行做數據科學家的念頭。那么接著就帶來一個問題:如何成為一名數據科學家呢?
接下來,由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二書的作者、美國西南航空的企業顧問Thomas Nield,獻上這份《2019年數據科學家成長指南》。
廢話不多說,馬上進入戰斗。
Round 1:不考證完全沒問題。當然考了也可以
不要把工作后寶貴的時間,浪費在考證上。「數據科學」不過是「商業分析」的一個分支,而且通常學校的知識總是和當前的科技前沿脫節。如果真的想學建議去Coursera或者可汗學院自學。
當然,證書多了終歸是好事嘛。如果你非要去學校考證,建議考物理或者運籌學的研究生。我了解到很多一流的數據科學家,基本都是這倆專業畢業的。
花個幾年時間研究生畢業后,明天就會更好?反正有個數據科學初創公司的創始人說:
博士學歷不重要;碩士學歷無可無不可;學士畢業必須有,因為用人單位最低要求就是大學畢業。
https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253
Round 2:成為一個數據科學家真的需要了解這么多領域嗎?
這是一張6年前的圖,里面甚至連TensorFlow都沒有。
而且我覺得,數據科學發展到現在,已經非常碎片化和細分化了。根本沒必要搞的這么復雜。
Round 3:我應該學哪門語言呢?需要從Linux入手嗎?
數據科學家是一個跨平臺物種,操作系統不重要。
語言的話,Scala早就過氣了,R解決數學問題非常爽,Python才是萬能的。一條Python在手,數據科學跟我走。
不過需要了解一些庫,類似Pandas用來處理數據幀,matplotlib用來創建圖表。
Round 4:學會Python很關鍵!學不會也沒關系
Python學起來超簡單。不過,你可能也不用非得學會Python。
作為人類,要善用工具。數據科學不止眼前的腳本和機器學習,還有遠方的數據可視化。這個時候顯然Tableau更好用,也更美觀。
Tableau
不過涉及到數據清洗、管理、轉換、加載等,就需要用到Alteryx了,鼠標拖拽就能搞定。
新智元點評:所以買個Tableau就可以稱為數據科學家了?
從淘寶買個激活碼豈不是要變成二手科學家?
Round 5:明明靠Excel和PPT就能搞定,為什么非要學Python呢?
首先,能為你的簡歷增加光環。
其次,之前也說過,Python簡直萬能。通過Jupyter notebook逐步完成每個數據分析階段,讓每一步都可視化,就像你正在創建一個可以與他人分享的故事。
劃重點:畢竟,溝通和講故事才是數據科學的重要組成部分。
數據科學和軟件工程很大程度可以劃等號。不同之處在于,數據科學必須有數據,軟件工程就不一定了。
Wiki網頁是一個非常好的數據來源,抓取網頁并使用Beautiful Soup解析他們,就得到了大量非結構化文本數據。
Round 6:懂NoSQL行,不懂也沒事
非機構化數據才能激發我們的想象力,結構化數據只能固化我們的邏輯能力。
如今像谷歌Facebook這樣的大廠,擁有大量的非機構化數據,他們就像裁判一樣,「數據科學」的定義權掌握在他們手里。剩下我們這些運動員,只好用無聊的SQL咯。
利用非結構化數據,大廠可以通過挖掘用戶內容、郵件、故事,用于廣告或者其他途徑。
而我們也可以利用非結構化數據,對社交媒體上的帖子進行,做一些NLP應用比如聊天機器人。
NoSQL更擅長存儲這類數據。但是對于數據科學家來說,NoSQL也不是必須要掌握的,除非做數據工程師。而且現在Apache Kafka比NoSQL更火,所以你也知道該學什么了。
有的人可能不知道,數據科學家分為兩種角色。數據工程師使用生產系統并幫助使數據和模型可用;而數據科學家則負責機器學習以及數學建模。
這個時候,利用樸素貝葉斯算法,就可以去預測文本的分類。我打算建議從具有均值和標準差的正態分布開始。也許用z分數和線性回歸計算一些概率或兩個。
Round 7:學會線性代數很重要。不會的話……也行吧
傳統智慧認為線性代數是許多數據科學的基石,因此掌握線性代數很重要。將矩陣相乘和相加(稱為點積),將一直伴隨著你。
聽起來很無聊對吧,但這就是機器學習在做的事情。當你進行線性回歸或構建自己的神經網絡時,你將使用隨機權重值進行大量矩陣乘法和縮放。
不過實際上,你可能也不需要學習線性代數,因為有像TensorFlow和 scikit-learn這樣的框架和庫,幫你解決掉最枯燥乏味的線代部分。
呃,實際上,也別用TensorFlow,用Keras。
Round 8:棒。總之都能用Excel實現,所以會用Excel就可以被稱為數據科學家了?
機器學習通常在做兩個任務:回歸,或者分類。但技術上來說,分類就是回歸。
決策樹、神經網絡、支持向量機、邏輯回歸、線性回歸都執行某種形式的曲線擬合。
所以,我們也可以不負責任的說:機器學習只是回歸。神經網絡實際上只是具有一些非線性函數的多層回歸。圖像識別也是回歸。
Round 9:為什么大家現在不怎么談論算法了?
因為這些優化問題已經在很長一段時間內得到了令人滿意的解決,而且這些方法在很早以前也沒太多人討論。
運籌學已經提供了許多機器學習使用的優化算法。同時也為常見“AI”問題提供了許多解決方案。
AI炒作重新點燃了機器學習及其解決的問題類型:圖像識別,自然語言處理,圖像生成等。
機器學習,深度學習…今天被炒作的任何東西,通常都不能解決離散優化問題,人們嘗試過,但效果非常不理想。
所以有人說深度學習是否已經達到了極限,AI寒冬又雙來了。
Round 10:AI玩游戲已經超神,接下來會取代人類工作嗎?
首先我們要明確一點。人們已經找到了一些巧妙的回歸應用,例如計算圍棋和象棋最優移動(離散優化也可以做),或自動駕駛的汽車計算轉向的方向。
但是,回歸只能將這么多的應用組合起來,完成單一任務。
現在我們好好思考一下,你會擔心職業星際爭霸選手威脅到你的工作嗎?你覺得打星際,和你打Excel之間,有多少重疊的交集呢?
如果你連人類星際選手都不怕,你為什么還怕一個回歸呢?AI玩星際再強,它也只會玩星際。
Round 11:一句話解釋什么是數據科學家,讓你爺爺也能聽懂
數據科學的界限正在模糊。它可以是任何東西,也可以什么都不是。成為數據科學家你需要掌握很多東西,但就算沒掌握也不會致命。
天哪??
不過幸好,這個世界上還是有人能說明白到底什么是數據科學和數據科學家的。一句話解釋數據科學家:
數據科學家是比軟件工程師更懂統計、比統計學家更懂軟件工程的一個人。
Round 12:已瘋
所以,2019年,你還想做數據科學家嗎?
-
Linux
+關注
關注
87文章
11500瀏覽量
213358 -
人工智能
+關注
關注
1805文章
48940瀏覽量
248327 -
數據科學
+關注
關注
0文章
168瀏覽量
10450
原文標題:數據科學家成長指南:從入門到被逼瘋
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
地物光譜儀如何幫助科學家研究植被和土壤?

云天勵飛董事長陳寧當選深圳市青年科學家協會第十屆會長

我國科學家制備出可控手性石墨烯卷
NVIDIA RAPIDS cuDF如何賦能AI加速數據科學
AI 推動未來科學 晶泰科技共襄未來科學大獎周

西湖大學:科學家+AI,科研新范式的樣本

華為自動駕駛科學家陳亦倫投身具身智能創業
螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
科學家開發出首臺可見光飛秒光纖激光器

受人眼啟發!科學家開發出新型改良相機

評論