當前位置 > 首頁 > 專家訪談 > 朱揚勇教授講解大數據:數據科學家將成熱門職業

朱揚勇教授講解大數據:數據科學家將成熱門職業

來源:中國數據分析行業網 | 時間:2016-02-15 | 作者:數據委

  大數據的出現顛覆了我們既有的一些觀念。比如,過去衡量是不是金融中心,主要看全球有多少家金融機構入駐。但是未來,金融中心就是有多少金融的數據資源在這里流通。如果將來在華爾街買股票的時候,要看一下上海的數據發布才能決策,到那個時候,上海就離全球金融中心不遠了.

  當前,“土地財政”已經難以為繼,但“盤活政府數據資源,建立數據財政”的時機可能已經到來。和土地不同,數據不會越用越少,并且數據本身會日益增加,因此盤活數據資源,建立“數據財政”,可能是政府數據資源開發利用的有效手段

思想者小傳

  朱揚勇復旦大學計算機科學技術學院教授、學術委員會主任,上海市數據科學重點實驗室主任,上海市政府信息化專家委員會專家,中國計算機學會大數據專家委員會專家,美國馬里蘭大學客座教授。從事數據領域研究25年,是國內最早一批從事數據挖掘研究的學者,是國際數據科學研究的主要倡導者之一。主持過國家自然科學基金、國家863計劃項目、上海市科委重點課題等多項數據挖掘領域的研究課題,曾獲上海市科技進步一、二、三等獎。在國內外權威期刊或會議上發表論文100余篇,出版專著2本,教材3本。第462次香山科學會議“數據科學與大數據的理論問題探索”的執行主席,并擔任《大數據技術與應用叢書》主編。

  三年前,很多人不知道大數據是何物。當時我在某地作一個關于大數據的報告,臺下一片茫然,有人發問,“大數據是什么東西”。但是到了今天,我相信大家對這個詞已經再熟悉不過了,甚至有些人已經開始了冷思考,認為大數據不是萬能的,質疑它的有效性。

  毫無疑問,大數據已經滲透到我們的生活。比如,社交網絡成為IT領域研究的方向,很多研究生、博士生寫的論文就是社交網絡分析。按理說,這個是社會學研究的一個方向,但是現在只是從IT角度加以分析。

  再比如,中國最出名的作家是誰?一般老百姓感覺是金庸。但是如果用大數據分析,就會發現,最出名的作家是魯迅,因為他排在最高出現的詞頻上。

  大數據的出現,也改變了我們傳統的研究方法。比如,國家要做一個重大課題,要求調查1萬戶居民家庭收入支出的情況,以衡量現在居民的生活水平和幸福指數。用傳統的方法做這樣一個課題,大概需要培養200名調查員,到居民家中去調查。每次大概是2個人一組,每組大概要調查100戶。可以試想一下,調查100個家庭大概需要一年的時間,因為是遍布全國的,有西藏的或者是新疆喀什地區某個村里面的一戶人家。而每一次調查,還要支付調查員工資、差旅費等費用,這樣一年下來成本估計在5000萬元左右。問題是,調查的可信度并不能得到充分保證,因為你去別人家里問他的收入,一般人都不大愿意講。即便得到回答,要將這么多數據整理出來,又要費一番工夫。

  但是,今天我們有了網絡的集合運用,尤其是互聯網運用,原有的方式就有了改變。發調查問卷得到回饋再做分析,是我們現在早已駕輕就熟的方式。未來還可以怎么做?希望今天的講座結束后,大家能找到答案。

數據和信息是一回事嗎

  講大數據之前,我們先來說一下信息。之前,我們把知識和獲得的概念叫做信息。信息產業、信息技術、信息化,都是由此而來的。那么,信息與大數據是一回事嗎?這可能是第一個容易引起混淆和困惑的地方。

  比如,我電腦里存了很多東西,如果你看得懂,你就獲得了信息,反之,你就沒有獲得信息。而在電腦里的這些東西就是數據。

  數據有很多,但是信息可能不一定多,或者說你從一大堆的數據當中要獲得的信息可能并不多。比如,現在外面溫度是19攝氏度,當我把這個數據拍照片給你看的時候,你可能感覺不到外面多少度。那么對你而言,你獲得不了這個信息,這個就只是數據。數據在我電腦里,你看懂了才能獲得信息,這是我第一個想要說的觀點。

  那么,我們經常看到的數據、信息、知識,三者之間有什么關系?怎么定義?早期關于數據的概念就是數字。到了今天,數據不再只是指數字,而是指整個網絡空間里的東西,包括照片、聲音、圖像、文字等,只要放在電子化設備里的東西,都可以叫數據。比如,你看到這樣一段話“銀行流動性緊張”,如果你看懂了,你就獲得了信息,并會采取相應措施去應對。這是一個從數據到獲得信息以及到用知識做決定的過程。簡單來說,從范疇而言,數據大于信息,信息大于知識。

大數據究竟是什么

  大數據一詞最早于1997年出現在邁克爾·考克斯的論文中。2008年,著名刊物NATURE出版了一個大數據專刊,引起了學術界的高度重視。2012年3月29日美國政府發布《大數據研究和發展倡議》,引起了各國政府和產業界的關注。

  關于大數據的定義,存在不少爭論。從根本上說,大數據是指為決策問題提供服務的大數據集、大數據技術和大數據應用的總稱。其中,大數據集是指一個決策問題所用到的所有可能的數據,通常數據量巨大、來源多樣、類型多樣;大數據技術是指大數據資源獲取、存儲管理、挖掘分析、可視展現等技術;大數據應用是指用大數據集和大數據技術來支持決策活動,是新的決策方法。

  所有人都是數據的擁有者,做數據的可能主要是IT工作者。但是,數據的價值在于應用。正如同,我們不需要做手機,不需要做軟件,但是這些連起來以后數據成了價值,用技術能把價值找出來,最后把它用好就實現了這個價值。

隨著數據的增長,整個人類的能力在提高。

  比如,從衛星圖看地球,長期觀測下來,有科學家就發現地球的南極跟北極白色的區域逐年在減少。白色區域減少,意味著冰山雪正在融化消失,這就是全球變暖現象。

  又如,疾病的早期診斷。每年死亡于癌癥人數的有200多萬,如果癌癥能夠在早期進行診斷,能夠早期發現,那么對人的生命的延長是非常有幫助的。疾病的早期診斷方式,就是通過你的病史、你的生活習慣、你的工作環境,再加上當前的檢驗值,來評估你患癌的風險有多高。

  說得更近一點,現在智能手機普及率很高,出行的時候有導航系統,買東西的時候有移動支付,所有的這些系統在后臺有一個我們稱之為智慧引擎的東西,這個東西存儲了大量的數據以及大量數據分析的軟件,通過各種各樣智能化的軟件推送到終端,才會有我們今天享受到的各種各樣的智能服務。

  大數據的出現顛覆了我們既有的一些觀念。比如,過去衡量是不是金融中心,主要看全球有多少家金融機構入駐。但是未來,金融中心就是有多少金融的數據資源在這里流通。也就是說,如果將來在華爾街買股票的時候,要看一下上海的數據發布才能決策,到那個時候,上海就離全球金融中心不遠了。

數據是最重要的資源

  數據不斷增長,被大量積累以后就形成了數據資源。數據是本世紀最重要的資源,李克強總理說它是基礎資源,我想這個定位非常準確。以前我們只關注石油、煤炭之類的天然資源,沒有關注數據資源。

  數據能力是國家競爭力。美國、英國、日本等國相繼推出大數據戰略,以提升政府效能。在我國,黨的十八屆五中全會提出要實施網絡強國戰略,實施“互聯網+”行動計劃,發展分享經濟,實施國家大數據戰略。“十三五”規劃建議首次提出“拓展網絡經濟空間”。日前,國務院常務會議通過了《關于促進大數據發展的行動綱要》,強調開發應用好大數據這一基礎性戰略資源,推動公共數據資源開放共享,將大數據打造成新常態下經濟提質增效升級的新動能。可以預見,大數據將創造下一代互聯網生態、下一代創新體系、下一代制造業形態以及下一代社會治理結構。

我們講大數據,實際上是在講兩件事。

  第一個是用數據解決問題。小到去哪里旅游,大到國家全面二孩政策的放開,都可以用數據。

  第二個是解決數據的問題。比如,數據多了以后怎么存放。大數據就是一個大海撈針的過程,怎么算、怎么運、怎么存,這些都是問題。

  今天,數據的組織形式和以前相比,發生了巨大的變化。比如,有人發給我一個郵件,我就知道要做一個報告,再發一個郵件,我就知道這個報告有100個人來聽。但是如果我在朋友圈里發一條微信,這就連成了一個圈,延伸到了整個社會。最終來聽報告的是什么樣的人,我并不清楚。由此可見,數據的增長、流通、流向是不可控的。

  如果把所有網絡空間里的數據加起來,那就形成了數據界。它呈現出自然界的特征,即不可控性、未知性、多樣性、復雜性。而如何開發和應用數據資源,成為擺在我們面前的最大問題。

  數據還有可能產生新的文明形態。科學家在2011年做了一張各國網絡流量圖,顯示一種新的文明方式很快就要出現。我們講的古老文明就是河流的文明,接下來是海洋文明。因為水是人類進步所必需的,人不能沒有水,我們稱之為“藍色文明”。但是今天網絡是人類進步的必需品,你沒有網絡談不上進步,網絡的流向、大小、流量的內容以及流量變化的規律,決定了網絡文明的興起和消亡。網絡流量往哪里去,哪里的文明就會發達。在網絡文明當中也會有一些發達地區,這些地區往往存在發達的結點,數據集中于這個點,這個結點上會產生數據效應,數據越多這個網站提供的服務越好,服務越好數據就會越多,所以會形成一個良性的發展。

數據科學家將成熱門職業

  大數據來了以后,給我們各行各業帶來革命性的變化,同時也出現了一個新的學科或者是新的科學,叫做數據科學。數據科學,顧名思義就是研究數據的科學或關于數據的科學,它是研究探索網絡空間中數據界現象和本質的理論、方法和技術,主要有兩個內涵:

  一是科學研究的數據方法(不同于實驗方法、理論方法、計算方法)。這是指數據科學為傳統科學研究提供了方法,其目的在于揭示自然界和人類行為的現象和規律。我們可以利用網絡空間中的數據指導科學研究,或者提高各種科學研究領域的效率和效果,例如生物信息學。從這個內涵上看,科學研究方法需要進一步發展,包括數據工具的利用、科學數據存儲和共享技術、科學研究的數據方法論,等等。

  第二個是研究數據本身。這是指數據科學研究數據自身的現象和規律,包括數據的歷史、進化和遷移,數據網絡的形成和發展,數據的各種形式、類型、狀態、屬性及其變化形式和變化規律等,即認識數據、掌握數據。

我認為在將來,數據科學、自然科學是并列的。

  早先的天文學,坐井觀天是很重要的。今天的天文學家再也不看天,他們坐在電腦前看圖像,進行數據分析。所以今天我們講認識宇宙、認識生命、認識社會都要先認識數據,要先讀懂這個社會的數據才能讀懂現象。就此而言,數據科學跨越了所有的學科。

  大數據時代,最熱門的職業是數據科學家,而不是傳統的信息科學家,也不是大數據工程師。麥肯錫公司預測,到2018年,僅在美國本土就可能面臨缺乏19萬名具備深入分析數據能力人才的情況,同時具備通過分析大數據并為企業作出有效決策的數據的管理人員和分析師也有150萬人的缺口。

  目前,被稱為數據科學家的大致有三類人:從事商業數據分析的人、從事科學數據分析的人、研究數據的人。但在解決一個大數據分析問題時,常常是由來自數學與統計、計算機和業務領域的一個數據科學家團隊來完成的。這說明,目前在大學沒有什么專業具備了數據科學家所需要的全部知識,這是一個新問題。

  2010年起,各國大學開始了數據科學人才培養工作。哥倫比亞大學從2011年起開設《數據科學導論》課程,并從2014年起設立碩士學位,2015年起設立博士學位;復旦大學從2010年開始招收數據科學博士研究生,并從2013年起開設研究生課程《數據科學》,2015年開始正式招收數據科學專業研究生以及本科第二專業學位。2015年10月,復旦大學大數據學院、大數據研究院正式成立。清華大學于2014年成立數據科學研究院,推出大數據碩士項目。

  盡管國內大數據人才的培養已經起步,但值得注意的是,當前缺乏數據科學家培養的基礎條件,主要包括:計算條件——建設數據科學人才培養所需的計算能力,包括軟硬件環境;數據條件——數據是資源,也是數據科學人才培養的核心,需要建設豐富的數據資源環境;師資條件——這是目前相當缺乏的數據科學人才培養資源,也是影響未來數據科學人才培養成果的關鍵。

如何用數據資源去賺錢

  數據產業是網絡空間中數據資源開發利用形成的產業。信息化是生產數據,大數據是開發數據,所以兩者的方向性是不一樣的。

  很難用傳統產業劃分來歸類數據產業。首先它是數據資源,它具有資源性。然后,數據要加工,屬于加工業。它也具有服務性,所以又是第三產業。就此而言,數據是新產業、新業態、新模式、新技術,是新經濟的典型代表。

  所謂新的業態產業,我們叫基于大數據的產業整合。具體來說,手機、電視是終端,終端是低價甚至是免費,上面有很多的應用。然后整合終端制造商、網絡、電信、IT等,提供一個新的服務業態,這個就叫做基于大數據的產業整合。它怎么賺錢呢?靠它的數據資源賺錢。大家可以回顧一下什么叫做“眼球經濟”,就是我開一個網站,有多少人看我的網站,那么我就值多少錢。身處移動時代,你不僅要看這個東西,還要用這個東西,那么就需要有一個很大的客戶群體在這個平臺上,而你則一定要提供低價甚至是免費的服務,你用這個數據資源去賺錢。中關村有一句話叫做“羊毛出在狗身上,豬買單”。就是說,你的主業要低價,甚至是免費。那么怎么賺錢呢?就要找“豬”。把“豬”找到,叫“豬”來買單,現在最大的“豬”就是硅谷和華爾街的VC(風險投資)。“飛豬”時代,重要的是找到那頭“豬”。

  信息化是生產數據的,大數據是開發數據的,二者不混淆、不對立。十八屆五中全會公報提出“實施國家大數據戰略”,數據資源開發利用將成為未來若干年的戰略新興產業——數據產業。這里需要注意的是,數據資源不會因為使用而減少,也不會因為不用而增值。因此,不能按照對待煤炭、石油等天然資源的方式來對待數據資源,而是要盡早、盡快、盡量使用數據資源,不要囤積待漲。必須把握大數據帶來的戰略機會,提升政府治理能力、實現經濟轉型升級。

  當前,推進政府數據資源開發利用的一個主要障礙是“數據不愿意開放共享”,其本質是利益分配的問題。數據收集、管理和維護是有成本的,數據開放也是有成本的。因此,需要理性看待“數據不愿意開放共享”問題,允許數據資源擁有部門在數據開放共享過程中獲得一定的利益。近20年來,政府通過盤活土地資源,實現了經濟高速發展,城市現代化進程得以加快。雖然“土地財政”被人詬病,但不能否認“土地財政”在這些年經濟發展中的貢獻。當前,“土地財政”已經難以為繼,但“盤活政府數據資源,建立數據財政”的時機可能已經到來。和土地不同,數據不會越用越少,并且數據本身會日益增加,因此盤活數據資源,建立“數據財政”,可能是政府數據資源開發利用的有效手段。

  國家發布《關于促進大數據發展的行動綱要》,是希望借此提升全民數據意識,發展數據文化,釋放數據紅利,打造數據優勢,這是國家的戰略性考慮。要從文化上、意識上、根本上來做,即要用數據來說話,用數據來管理,用數據來決策,用數據來創新。整體來講,就是要打破政府數據資源利益的割據,把政府的數據資源釋放出來,這對于整個管理創新、政府治理和產業變革都有大作用。

(本演講系由復旦大學文科科研處等組織的“大數據系列講座”第一講)

來源:36大數據

重庆市时时开奖结果