- 相關(guān)推薦
什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘
上午嘉賓的講課,講的東西大部分是給管理階層和領導階層說的。我是講給學生,給年輕人聽的。如果你管理階層再好,你找不到人也什么都沒有,而對于每個人來說最重要的就是把自己的價值提高,而不是地位。
一、數(shù)據(jù)科學的前途
這是一些調(diào)查的結(jié)果,數(shù)據(jù)科學家的年薪是多少,這是美國的。
程序員的平均年薪不是我們的目標,也不是成功的標志,這是一種價值的標志。怎么樣才能有價值?我說的可能有點過分,但是我必須這么說,現(xiàn)在的統(tǒng)計,特別數(shù)據(jù)統(tǒng)計問題很嚴重。
美國的一個調(diào)查報告說人才缺口很大,說明在美國培養(yǎng)這樣的人數(shù)也不夠,可以用大數(shù)據(jù)來做的缺少得更多。美國是這樣,中國將來肯定也是這樣,現(xiàn)在實際上有很多缺口。現(xiàn)在就怕跳槽,怕找不著(工作),我們的成功不是要通過關(guān)系,不是通過老子有個什么樣的頭銜,我們要有能力,這樣誰都想要你,這才是價值。我們要的是價值,而不是所謂的成功。
如果你擅長數(shù)學,有很清晰的邏輯思維能力(文科的人是沒有的,但是可以訓練,因為大部分知識都是自學的),并且對某個行業(yè)了如指掌,如果你有這樣的技能組合,就可能當上數(shù)據(jù)科學家。曾經(jīng)LinkedIn有個投票顯示,數(shù)據(jù)分析和數(shù)據(jù)挖掘是最大的求職法寶。那些高科技團隊都有自己的數(shù)據(jù)科學團隊,而那些非科技公司和大公司也需要做這些東西,他們現(xiàn)在需要的是人才,你們就是要把自己做變成被需要的人才。
數(shù)據(jù)科學家專業(yè)人才干什么呢?對公司來說,他們可以挖掘新的信息,幫助公司開源節(jié)流,所以它需要的是人才,關(guān)鍵是人才。我們說數(shù)據(jù)科學,科學意味著沒有權(quán)威,不要迷信那些權(quán)威,中國人喜歡崇拜權(quán)威。任何科學研究的目的是基于數(shù)據(jù),顛覆理論,這樣才能往前進。中國人從小學會的就是聽老師話,聽爸爸媽媽話,聽家長話,古人什么都好,現(xiàn)代人什么都不好,這樣一代不如一代,所以你必須要有科學精神。諾貝爾物理獎沒有一個是承認過去怎么樣的,而是推翻過去的事情,這是科學,是顛覆性的。
數(shù)據(jù)科學有很多很多定義,最基本的定義就是這個,就是Computer science,還有數(shù)學、統(tǒng)計、目標、知識,這是最基本的,再說多了就過分了。
二、數(shù)據(jù)科學家所需的技能
對于現(xiàn)在的你們來說,一般不會細到那種程度。我們應該變成一個通才,哪個公司都應該愿意要我們。清華大學之所以現(xiàn)在變成這個樣子,就是因為在1952年院系調(diào)整的時候,每一個專業(yè)就是一個生產(chǎn)線,弄的很細很細,沒有一個更寬廣的視野。
主要是三部分:數(shù)學、統(tǒng)計、知識。
1.數(shù)學關(guān)鍵是邏輯而不是具體的方法,不是你怎么求多項式的根,而是它的基本邏輯,它的數(shù)學語言,這一點要懂。數(shù)學邏輯是各種學科當中最嚴格的邏輯,無論你是學邏輯的,學物理的,學什么的,文科學邏輯的肯定是不如學物理的,學物理的邏輯肯定不如學數(shù)學的,所以你要跟學數(shù)學的辯論的話就很困難。文理分科造成沒有邏輯的文章,沒有邏輯的法官,現(xiàn)在法官錯判率那么高,他們中學平面幾何沒學好,基本的常識,基本的邏輯推理都不會。
2.統(tǒng)計學的是批判性思維。你們在統(tǒng)計學課本上學到的是70年前、100年前的知識,是前計算機時代的東西。那時候沒有那么多計算機,數(shù)據(jù)量不大,所以他做什么都用假定來做結(jié)論。中國在數(shù)據(jù)統(tǒng)計方面的研究大部分還是遵循著70年前、100年前的東西來做,你不能假定地球是方的,然后得出結(jié)論去發(fā)表,這沒有什么意義的,你必須根據(jù)現(xiàn)實生活的意義來做。
所以我們要學的也不是基于無法驗證的假定而形成的假設檢驗和區(qū)間估計。就像我說的你假設檢驗,什么顯著,0.05就是顯著。親子鑒定100個人有5個鑒定錯了,能接受嗎?能認為這是小概率嗎?區(qū)間估計就更難說了。
我們所要學習和了解的,是最近20年發(fā)展而且仍然在發(fā)展的最新的經(jīng)濟學方法,這是最根本的。像我現(xiàn)在正在尋找經(jīng)典方法,比經(jīng)濟學好的方法,我每天都在算數(shù)據(jù),我就想找這樣的例子。我舉個例子,對于做出貢獻性的方法,回歸什么的那一大堆方法,我如果做的話,我沒找到一個例子說用這些方法比神經(jīng)網(wǎng)絡做的更好的。所以說你不能從理論出發(fā),不能從你在數(shù)學雜志上發(fā)表出發(fā),一定要從數(shù)據(jù)出發(fā)。
有一個瑞士人到科學院講課,就講這些東西,底下科研的學究們,研究生們說,這個系數(shù)有什么意義啊?他說貢獻的變量的系數(shù),沒有任何意義,只要這個方法預測準確,那就是好。中國人學呆了。像回歸分析,在別的變量不變的時候,我這個量增加不增加?別的變量肯定不變的,特別經(jīng)濟統(tǒng)計,沒有兩個變量是完全不變的。
3.計算機科學,不是一兩個盜版傻瓜軟件+點鼠標就是計算機科學了。還加上網(wǎng)絡漫游能力和泛型編程能力,我說的這個泛型編程能力是計算機編程理念,我用了很多編程理念沒有一個是在課堂上學的,就是自己在編的時候自己領會。一切東西依賴于自學,而不是依賴老師,這可能跟我的經(jīng)歷有關(guān)。
這是2015年的一個網(wǎng)站調(diào)查,用的最多的是R語言,這是2014年的,R語言在圖片當中也是最多的,其他的軟件加起來是17%,底下這個是2014年,也是R語言,為什么是這樣?第一,它們是開源的,它們的代碼是公開的。
第二是計算機的親和性,還有SQL,親和性很大,就是它的語言你懂一個,再學一個,直到后來一天一個就學下來了,真是這樣的,不是開玩笑。我不想說SAS,我在美國的第一個研究就是SAS,它的親和力小。實際上現(xiàn)在很多會R語言的都可以去做東西。
第三是轉(zhuǎn)換性的,就是R語言跟Python轉(zhuǎn)化的多,所以第一學的編程語言應該是R語言,然后Python,然后是其他的語言,其他點鼠標的語言是用不著學的。
4.最根本的就是領域知識,你必須了解領域知識,你才能夠知道該怎么做。如果你僅僅是一個干巴巴的統(tǒng)計學家,就不會了解實際問題。
原來在醫(yī)學雜志發(fā)表的一個很有名的文章講,如果父母在嬰兒房間內(nèi)睡覺總是開著燈,嬰兒就會有高度近視。后來再發(fā)現(xiàn),凡是父母高度近視的,往往有給小孩開燈的習慣。到底什么造成小孩高度近視,現(xiàn)在你們知道的,但是當時的人不知道,所以要有很深刻的領域知識,只有明白目標領域知識的人才能明白它的意義,知道往哪個方向努力,去判斷分析結(jié)果的可能性。所以用數(shù)據(jù)來說話,其他的一切都是廢話,不要做一些莫名其妙的假定,我每年看到很多很多的文章,包括一些大賽,好多比賽題目都是莫名其妙的假定,就連31個省市自治區(qū)的數(shù)據(jù)都假設是正態(tài)分布,這31個省市自治區(qū)的就不是樣本,更不用說是正態(tài)分布。
科學,對年輕人來說就是要明白這些基本的東西,太花哨的東西就沒意義了。你離得越遠看得越清楚,站得越高對全局的了解越好,不要太具體了,不要迷信這些炒作的新名詞、新概念。用自己的大腦,用常識判斷,想想合不合理。過去某個人的經(jīng)驗是他的經(jīng)驗,不是你的經(jīng)驗,他在特定環(huán)境、特定時間有作用,如果你要跟風就意味著永遠是跟隨,也絕對不會有出息。
個人要有快速的自學能力和對數(shù)據(jù)分析的愛好,我從來沒學過計算機,也沒學過計算機編程。英文都沒學過,全都是自學的,所以我對自學很相信,F(xiàn)在我教的東西都是最近這幾年的東西,我現(xiàn)在實際上比一個全職教師教的課還多,但是我教的東西好多都是前一天網(wǎng)上才出現(xiàn)的,我看到了覺得有價值,第二天就放到課堂上了。只有這樣,只有不斷的自學,不斷的學習才能當老師。如果你不斷的跟學生演示80年前的推導過程,只能顯示你的記憶力好,那不是好老師。
三、判斷是否適合做數(shù)據(jù)科學家
另外你是不是做數(shù)據(jù)科學家的材料?你專長于任何特定編程語言相比,泛型變成技巧更重要。最重要的素質(zhì)就是能快速學習東西,在這個時代技術(shù)發(fā)展的突飛猛進,語言很快會過時,新的語言會迅速普及,所以學習東西快的人比單獨領域的專家更有前途。我要看你這個人的潛力,而不是你知道什么。知識再多你也超不過一個硬盤吧?但是硬盤沒有創(chuàng)造力。
如果你每天花大量的時間編程,分析控制面板上的數(shù)據(jù),獲得相關(guān)知識和信息,你對這樣的工作感興趣,你就適合干這行。現(xiàn)在我沒事就處理變成數(shù)據(jù)。如果僅僅是想拿高工資,那可能覺得這樣的日子就很苦了。實際上不光是這個工作,干任何工作,即使是坐牢你也要把它當成樂趣,這個不是玩兒的。
真正適合干這一行的人,會在業(yè)余時間里編程序、分析數(shù)據(jù),他的目的就是自娛自樂,而不是為了要拿著什么學位,拿到什么樣的頭銜,最終他自己把自己的價值就提高了。如果你愛的不是數(shù)據(jù)本身,而是它給你帶來的高薪,那你很難跟上來的人來競爭了。要學會干一行愛一行,每個人都應該學會熱愛數(shù)據(jù),即使是為了自己的事業(yè)前途也應該這樣想,為了自己的心里也應該這樣想。
還需要什么呢?剛才我說了,學習能力比知識更重要,歡迎挑戰(zhàn)、樂于攀登。有點挑戰(zhàn)的我就很高興,我相信很多人都這樣,這樣活著才有意義,像豬一樣的活著沒有意義。你像富二代開著寶馬到處飆車,他是找不到活著的意義啊,穿名牌什么的,是讓別人覺得你有點價值,實際上別人一看你更沒有價值了。馬克思的座右銘懷疑一切,在懷疑中成長。
不要給自己貼標簽,就是我學什么方向的,別的不搞,歲數(shù)大了,學不會了,很多人都有這樣的借口,這實際上是借口,我現(xiàn)在每天都在網(wǎng)上學東西,所以我現(xiàn)在教的東西總是新的,我的書一版再版,我現(xiàn)在大概寫了有30本書了,為什么再版,因為我發(fā)現(xiàn)原來的有錯或者不全面,我一定要把事情說的更透徹一點,說的更好一點。
四、結(jié)尾
什么人最快樂?被人需要,這是很重要的,就是你得有價值。因為你的專長,能力、善良、尊重、愛心、品質(zhì)、性格、智力、分享。在公司里跟人家能相處,至少你得是可愛的。還要關(guān)心他人,能讓別人快樂的人是快樂的。尊敬別人的人是快樂的,誠實坦蕩的人是快樂的,心胸開闊,不去計較一些小事情。最關(guān)鍵的就是愛人如己,你愛人不是因為他能愛你回來,也不是因為他可愛,而是對任何事情都尊重,這是最根本的一點。如果這點你要做到了,人人都能做到,那世界就太理想了。不管怎么樣,我希望大家能夠快樂。
【什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘】相關(guān)文章:
數(shù)據(jù)挖掘論文07-15
數(shù)據(jù)挖掘論文07-16
數(shù)據(jù)挖掘論文(精品)07-29
(實用)數(shù)據(jù)挖掘論文07-29
數(shù)據(jù)分析報告02-02
數(shù)據(jù)挖掘論文常用15篇07-29
spss數(shù)據(jù)分析報告03-01
公司數(shù)據(jù)分析報告12-06