亚洲v欧美v国产v在线成_制服丝袜中文字幕丝袜专区_一区二区三区韩国电影_激情欧美一区二区中文字幕

我要投稿 投訴建議

R語言及ggplot2在環(huán)境空氣監(jiān)測數(shù)據(jù)可視化中的應(yīng)用探究的論文

時間:2021-02-18 15:02:57 畢業(yè)論文范文 我要投稿

R語言及ggplot2在環(huán)境空氣監(jiān)測數(shù)據(jù)可視化中的應(yīng)用探究的論文

  隨著新《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》(GB 3095-2012)的發(fā)布、實施,全國各地都在采用環(huán)境空氣自動監(jiān)測以應(yīng)對其嚴(yán)苛的數(shù)據(jù)有效性要求。環(huán)境空氣自動監(jiān)測系統(tǒng)每天都在產(chǎn)生大量的數(shù)據(jù),如何對數(shù)據(jù)進行有效的統(tǒng)計分析,成為一個新的課題。對數(shù)據(jù)的可視化,是數(shù)據(jù)分析的第一步。本文應(yīng)用R語言及ggplot2圖形繪制包以浙江省常山縣城區(qū)兩個空氣自動站即環(huán)保大樓站及圖書館站2014年全年監(jiān)測數(shù)據(jù)為例進行各種可視化分析,以探討該軟件在空氣質(zhì)量數(shù)據(jù)分析領(lǐng)域應(yīng)用的巨大潛力。

R語言及ggplot2在環(huán)境空氣監(jiān)測數(shù)據(jù)可視化中的應(yīng)用探究的論文

  1 軟件準(zhǔn)備

  1.1 R語言軟件與擴展包

  R語言是一種區(qū)分大小寫的解釋性語言,其具有的強大統(tǒng)計計算及繪圖能力,是從大數(shù)據(jù)中獲取有用信息的絕佳工具,它提供了Windows、OS X、Linux等各大操作系統(tǒng)下的版本,可以直接從網(wǎng)上免費下載、安裝、使用。R語言軟件在基本安裝中提供了大量的數(shù)據(jù)處理、統(tǒng)計和圖形函數(shù),此外各社區(qū)還開發(fā)了數(shù)以千計的擴展包(packages)為R增加了更多令人驚奇的功能,本文用到的ggplot2、plyr、reshape2等即是其中的一部分。

  ggplot2是目前R語言中的圖形繪制擴展包,它為R語言提供了一個基于全面而連貫的語法的繪圖系統(tǒng),它由一系列獨立的圖形部件組成,并能以許多種不同的方式組合起來,使得數(shù)據(jù)分析者能用緊湊的語法輕松繪制出復(fù)雜的圖形,從而使數(shù)據(jù)分析者更能將注意力集中于數(shù)據(jù)分析本身。plyr與reshape2是兩個功能強大的數(shù)據(jù)整理擴展包,它們?yōu)镽語言擴展了對數(shù)據(jù)變換、數(shù)據(jù)變形的功能。

  ggplot2軟件包可以在R語言命令提示符后輸入install.packages(“ggplot2”),選擇合適的下載鏡像后,就可以自動從網(wǎng)上下載安裝。在Windows操作系統(tǒng)下下載的是二進制文件,可以直接使用;在類Unix操作系統(tǒng)下,下載的是包的源代碼,經(jīng)過編譯后才能使用,但只要具備gcc等編譯工具,安裝都可通過簡單的命令完成。在使用前,需要輸入library(ggplot2)或require(ggplot2)調(diào)用該軟件包。plyr包等也是如此。

  1.2 Excel

  但面對原始數(shù)據(jù),微軟公司的Excel往往是對數(shù)據(jù)進行清洗、分列的直觀分析利器。各地自動監(jiān)測站采集并導(dǎo)出的原始數(shù)據(jù)往往是xml格式的,而Excel處理這種格式極為得心應(yīng)手。Excel中的數(shù)據(jù)篩選功能可以輕易地刪除大量無效數(shù)據(jù),分列功能可以將監(jiān)測日期與時刻分離以便于下一步的處理,數(shù)據(jù)格式也可以得到統(tǒng)一,將數(shù)據(jù)“另存為”csv格式后即可通過read.csv()函數(shù)導(dǎo)入R軟件。R軟件也可以通過write.csv()函數(shù)寫出csv格式的文件與Excel交互使用。

  2 數(shù)據(jù)處理

  2.1 數(shù)據(jù)的收集與整理

  在數(shù)據(jù)分析工作中,收集、整理數(shù)據(jù)的時間往往是占了工作時間的80%以上。在數(shù)據(jù)收集、整理工作中交互地使用R語言與Excel,可極大地提高工作效率。首先使用Excel將在自動監(jiān)測過程中產(chǎn)生的無效數(shù)據(jù)進行篩選、剔除,再按需要,對某些數(shù)據(jù)進行分列處理,最后導(dǎo)出為csv文件后以便R語言讀取。與Matlab等將一切視為矩陣不同,R語言可以靈活地對向量、矩陣、數(shù)組、數(shù)據(jù)框、因子、列表等多種數(shù)據(jù)結(jié)構(gòu)進行處理。通過read.csv()導(dǎo)入的數(shù)據(jù)都被視為數(shù)據(jù)框(data.frame)。數(shù)據(jù)框是R語言中最常用的數(shù)據(jù)結(jié)構(gòu),其每一列都可以包含不同模式的數(shù)據(jù),如環(huán)境空氣監(jiān)測數(shù)據(jù)之后,可以增加名為“month”的一列,用中文“一月份”表示該數(shù)據(jù)是一月份的數(shù)據(jù),增加“site”的一列,用中文標(biāo)注其站點名稱,如假設(shè)hbdl201401為導(dǎo)入的環(huán)保大樓站一月份數(shù)據(jù),用R命令行示例如下:site<-rep(“環(huán)保大樓站",dim(hbdl201401))month<-rep(“一月份”,dim(hbdl201401))hbdl201401<-cbind(hbdl201401,site,month)同一站點中的數(shù)據(jù),可以使用rbind()函數(shù)進行按月合并。當(dāng)多站點數(shù)據(jù)合并時,由于設(shè)備配置的原因,數(shù)據(jù)框中各列的名稱與數(shù)量并不完全一致,使用rbind()合并數(shù)據(jù)時會出錯。如常山縣環(huán)保大樓站除常規(guī)六參數(shù)外還配有碳黑儀、能見度儀、氣象五參數(shù)等,而圖書館站中僅有常規(guī)六參數(shù)。這時的合并可以用到merge()函數(shù)。假設(shè)hbdl2014為常山縣環(huán)保大樓站2014年全年小時均值數(shù)據(jù),而tsg2014為圖書館站數(shù)據(jù),則可用以下命令合并數(shù)據(jù)框:

  cs2014<-merge(hbdl2014,tsg2014,all=T,sort=F)合并后的數(shù)據(jù)框cs2014中在圖書館站中所沒有的碳黑儀等數(shù)據(jù)均以“NA”(缺失)表示。merge()函數(shù)可以兩兩合并大量來源不同的數(shù)據(jù)框,只需保證列名的統(tǒng)一,數(shù)據(jù)即可合并無誤。在R語言中用命令tail(cs2014)即可列出cs2014的`最后6行:

  2.2 數(shù)據(jù)的統(tǒng)計變換

  對數(shù)據(jù)分析的細化過程往往就是分組的過程。2.1節(jié)中為數(shù)據(jù)增加“month”一列即是為數(shù)據(jù)按月份進行分組,“site”一列即是為站點分組,“clock”一列即是為數(shù)據(jù)按時刻進行分組。在實際工作中,分析數(shù)據(jù)的角度不同,分組也是千奇百怪。如可按當(dāng)日溫度差來分組,也可按平均風(fēng)速的大小來分組,當(dāng)然也可以按PM2.5日均值大小來分組來考察其他觀測值的情況。數(shù)據(jù)的變換與變形則是基于統(tǒng)計以及下一步分析的需要,將數(shù)據(jù)變化成相應(yīng)的形式。

  2.2.1 創(chuàng)建分組變量。在數(shù)據(jù)分析過程中,常常發(fā)現(xiàn)這種情況:組別分的太細或者需要根據(jù)原數(shù)值內(nèi)容創(chuàng)建分組。

  第一種情況可以合并組別。例如按氣象學(xué)上的規(guī)定,以每年的三、四、五月為春季,六、七、八月為夏季,九、十、十一月為秋季,十二、一、二月為冬季。需要以季節(jié)分組時,可以調(diào)用如下命令:

  c s 2 0 1 4 $ s e a s o n [ c s 2 0 1 4 $ m o n t h = = ” 三月份”|cs2014$month==”四月份”|cs2014$month==”五月份”]<-”春”

  c s 2 0 1 4 $ s e a s o n [ c s 2 0 1 4 $ m o n t h = = ” 六月份”|cs2014$month==”七月份”|cs2014$month==”八月份”]<-”夏”

  c s 2 0 1 4 $ s e a s o n [ c s 2 0 1 4 $ m o n t h = = ” 九月份”|cs2014$month==”十月份”|cs2014$month==”十一月份”]<-”秋”

  c s 2 0 1 4 $ s e a s o n [ c s 2 0 1 4 $ m o n t h = = ” 十二月份”|cs2014$month==”一月份”|cs2014$month==”二月份”]<-”冬”

  運行上述命令后,數(shù)據(jù)框cs2014中就多了一個名為“season”的列,其標(biāo)注了每一行數(shù)據(jù)的季節(jié)。第二種情況可以用到R語言中的cut()函數(shù)。如原數(shù)據(jù)中各污染物按月份按時刻進行濃度平均得到數(shù)據(jù)框cs2014month后,可以以0~0.040mg/m3、0.040~0.080mg/m3、>0.080mg/m3為區(qū)間將臭氧的時刻平均數(shù)據(jù)分作3個組別,分別名為“弱”、“中”、“強”,用cut()函數(shù)創(chuàng)建分組變量“o3level”:cs2014month$o3level<-cut(cs2014month$o3,breaks=c( 0 , 0 . 0 4 0 , 0 . 0 8 0 , I n f ) , l a b e l s = c ( “ 弱” , ”中”,”強”))

  運行上述命令后,數(shù)據(jù)框cs2014month中增加了名為o3level的新列,其標(biāo)注了每一行數(shù)據(jù)中臭氧的濃度水平。

  2.2.2 分組變換。“plyr”包提供了一整套工

  具集來處理列表(list)、數(shù)組(array)和數(shù)據(jù)框(data.frame),它可以將復(fù)雜的數(shù)據(jù)分割成幾個部分,分別對各個部分進行統(tǒng)計。對于數(shù)據(jù)框的操作,用的是plyr包中的ddply()函數(shù),如:我們?nèi)粝氲玫礁鱾站點的各污染因子日均濃度值,則可調(diào)用如下命令:

  c s d a t e m e a n < - d d p l y ( c s 2 0 1 4 , . ( d a t e , s i t e ) ,

  summarise,so2=round(mean(so2,na.rm=TRUE),

  3 ),n o 2 = r o u n d(me a n ( n o 2 , n a . r m = TRU E),

  3),co=round(mean(co,na.rm=TRUE),2),

  pm10=round(mean(pm10,na.rm=TRUE),3),

  pm2.5=round(mean(pm2.5,na.rm=TRUE),3),

  o3=round(mean(sort(o3,decreasing=T),

  na.rm=TRUE),3))

  其中cs2014指原數(shù)據(jù)框,.(date,site)括號中指的是分組變量(日期、站點),summarise命令意為從原數(shù)據(jù)中總結(jié)出一個新數(shù)據(jù),round()為小數(shù)位數(shù)修約函數(shù),mean()為平均函數(shù),sort()為數(shù)據(jù)排序函數(shù),命令中臭氧數(shù)據(jù)取其每日最大8小時平均值,其他污染物均為24小時平均值。該命令運行后就得到了一個新的數(shù)據(jù)框csdatemean。

  類似的還可以用d d p l y ( ) 函數(shù)針對月份以及其他分類變量進行分組統(tǒng)計。如2.2.1節(jié)中提到的cs2014month,就可以調(diào)用如下命令得到:

  cs2014month<-ddply(cs2014,.(clock,month),

  summarise,so2=round(mean(so2,na.rm=TRUE),

  3 ),n o 2 = r o u n d(me a n ( n o 2 , n a . r m = TRU E),

  3),co=round(mean(co,na.rm=TRUE),2),

  pm10=round(mean(pm10,na.rm=TRUE),3),

  pm2.5=round(mean(pm2.5,na.rm=TRUE),3),

  o3=round(mean(o3,na.rm=TRUE),3))

  除此之外,plyr包還提供了一些靈活的函數(shù)如transform等用于組間數(shù)值的統(tǒng)計,詳見plyr包的自帶說明。

  2.2.3 數(shù)據(jù)變形。reshape2包提供的melt()和dcast()函數(shù)實現(xiàn)的是類似于Excel中數(shù)據(jù)透視表的功能,可從繁雜的數(shù)據(jù)中摘取出想要的信息。其中melt()函數(shù)可以將多列數(shù)據(jù)篩選后融合在一起,即從“寬”變“長”,下面舉例說明:

  csclockmean<-ddply(cs2014,.(clock,season),

  summarise,so2=round(mean(so2,na.rm=TRUE),

  3),no2=round(mean(no2,na.rm=TRUE),

  3),co=round(mean(co,na.rm=TRUE),2),

  pm10=round(mean(pm10,na.rm=TRUE),3),

  pm2.5=round(mean(pm2.5,na.rm=TRUE),3),

  o3=round(mean(o3,na.rm=TRUE),3))

  csclockmelt<-melt(csclockmean,id.var=c(“clock”,”season”),measure.var=c(“so2”,”no2”,”pm2.5”))

  執(zhí)行以上命令后,先得到一個名為csclockmean的數(shù)據(jù)框,再通過m e l t ( ) 函數(shù)得到一個名為csclockmelt的新數(shù)據(jù)框,用head()函數(shù)分別讀取兩個數(shù)據(jù)框的前6行:

  melt()函數(shù)中id.var意為標(biāo)識變量,即在原數(shù)據(jù)框中需保留的列向量,measure.var意為度量變量,即在原數(shù)據(jù)框中需要融合的列向量。melt()函數(shù)生成的新數(shù)據(jù)框中保留了id.var的同時,生成了兩列:一列名為variable,包含的是measure.var;一列名為value,即原數(shù)據(jù)框中measure.var的值。由于ggplot2的獨特語法,使用melt()函數(shù)得到的新數(shù)據(jù)框可使ggplot2在同一張圖中繪制多個參數(shù)。

  3 ggplot2數(shù)據(jù)可視化應(yīng)用

  一般認為R語言有4套圖形系統(tǒng),即graphics、grid、lattice、ggplot2。其中g(shù)raphics、grid、lattice被認為是基礎(chǔ)圖形系統(tǒng),它們的繪圖命令精煉、實用、運行速度塊,制出的圖形美觀、實用,但是基礎(chǔ)圖形系統(tǒng)的制圖方式極為生硬,函數(shù)各參數(shù)繁復(fù),令人往往在繪圖上耗費大量的時間,而不是在數(shù)據(jù)分析上。

  ggplot2是2005年后才新出現(xiàn)的圖形系統(tǒng),它提供了統(tǒng)一的接口及一些選項,替代了基礎(chǔ)圖形系統(tǒng)那套繁雜的修補體系,令使用者能更多地關(guān)注于數(shù)據(jù)本身。當(dāng)然ggplot2中也有大量底層命令可對圖形作精細的修改。

  3.1 數(shù)據(jù)的簡單分布

  箱線圖是一種展示數(shù)據(jù)分布的方法, 箱內(nèi)為25%~75%的值,箱中的橫線代表中位值,箱子上下豎線表示上下的相鄰值,超過相鄰值的點稱為外部點。使用ggplot2繪制常山縣兩個站點二氧化硫全年日均值分布的箱線圖命令如下所示。

  ggplot(csdatemean,aes(site,so2))+geom_boxplot()+xlab(“空氣自動監(jiān)測站點”)+ylab(expression(paste(“二氧化硫日均濃度”(mg/m^3))))

  ggplot2有其特殊的語法,其特點是“+”號,任何圖層都可以通過“+”號來實現(xiàn)。geom_boxplot()是ggplot2中繪制箱線圖的函數(shù),類似的還有g(shù)eom_point()(繪制散點圖)、geom_line()(繪制折線圖)、geom_histogram()(繪制條形圖)…等。xlab()添加的是x軸上的文字說明,ylab()中的expression()函數(shù)是為了在圖中實現(xiàn)mg/m3的表達式。

  3.2 趨勢線的添加

  在數(shù)據(jù)可視化工作中,參數(shù)與參數(shù)之間往往有著或多或少的關(guān)系,添加趨勢線是探索這種關(guān)系的一種橋梁。R語言在數(shù)據(jù)分析方面最大的優(yōu)勢就是其強大的數(shù)據(jù)擬合功能,它提供了線性、非線性、神經(jīng)網(wǎng)絡(luò)、支持向量機等大量數(shù)據(jù)擬合工具。這些工具均可以與ggplot2配合使用繪制出趨勢圖形,以檢驗其擬合成果。下例使用ggplot2中的stat_smooth()函數(shù)自動添加趨勢線來探索PM2.5與PM10數(shù)據(jù)間的關(guān)系。

  ggplot(csdatemean,aes(pm2.5,pm10))+geom_point(colour=”grey60”)+stat_smooth(method=lm,se=F,colour=”black”)+xlab(expression(paste(“PM2.5日均數(shù)據(jù)”(mg/m^3))))+ylab(expression(paste(“PM10日均數(shù)據(jù)”(mg/m^3))))

  在geom_point()和stat_smooth()兩個函數(shù)中添加顏色參數(shù),以使得散點圖顯得顏色淡一點,而讓趨勢線更明顯。stat_smooth()函數(shù)中method=lm指按直線方式添加趨勢線。從圖5中明顯可見PM2.5與PM10呈現(xiàn)了一種極強的線性關(guān)系。

  3.3 分組變量的體現(xiàn)

  在數(shù)據(jù)可視化的過程中,數(shù)據(jù)分組可以幫助人們揭示更多的細節(jié)。ggplot2可將在數(shù)據(jù)處理階段創(chuàng)建的分組變量以顏色、形狀、大小等形式映射于圖上。

  如2.2.2節(jié)中得到了各污染物按月份的時刻濃度平均數(shù)據(jù)cs2014month,2.2.1節(jié)中用cut()函數(shù)將該數(shù)據(jù)框中臭氧濃度分為“弱”、“中”、“強”三個水平,用ggplot2繪制出二氧化氮的時刻濃度圖,并用圖中二氧化氮濃度點的大小來代表臭氧的濃度水平,命令如下:

  ggplot(cs2014month,aes(clock,no2))+geom_point(aes(size=o3level))+xlab(“時刻”)+ylab(expression(paste(二氧化氮濃度(mg/m^3))))+scale_size_discrete(name=”臭氧濃度水平”)

  此例geom_point()函數(shù)中的size參數(shù)將臭氧濃度水平映射到二氧化氮濃度點的大小上,如此從圖中可以明顯可見臭氧濃度水平“強”時,往往是二氧化氮濃度較低時。類似的還可以用colour、shape等將分組變量的各組別映射為顏色、形狀等,使繪制出的二維圖呈現(xiàn)出更多的內(nèi)容。

  3.4 圖形分面

  數(shù)據(jù)可視化中最實用的技術(shù)之一是將分組的數(shù)據(jù)并列呈現(xiàn),這樣可以使得組間數(shù)據(jù)的比較變得容易許多,ggplot2中將之稱為分面(facet)。ggplot2中可以用facet_grid()和facet_wrap()兩個函數(shù)都可以繪制出分面圖。

  2.2.3中利用melt()函數(shù)得到了csclockmelt數(shù)據(jù)框,下例利用該數(shù)據(jù),繪制四季中二氧化硫、二氧化氮、細顆粒物這三大污染物在24小時中的分布情況圖,命令如下。

  csclockmelt$season<-factor(csclockmelt$season,levels=c(“春”,”夏”,”秋”,”冬”))

  ggplot(csclockmelt,aes(clock,value))+geom_point(aes(shape=variable))+geom_line(aes(colour=variable))+facet_wrap(~season)+xlab

  (“時刻”)+ylab(expression(paste(“濃度值”(mg/m^3))))+scale_colour_hue(name=”污染物”,labels=c(“二氧化硫”,”二氧化氮”,”細顆粒物”))+scale_shape(name=”污染物”,labels=c

  (“二氧化硫”,”二氧化氮”,”細顆粒物”),solid=F)

  命令中f a c t o r () 函數(shù)為季節(jié)排序, s h a p e 、colour將污染物種類映射至散點形狀、曲線顏色,facet_wrap()函數(shù)自動將分組變量season進行分面處理。如此在相同的坐標(biāo)系中得到四張并列的圖,可令人更直觀地比較數(shù)據(jù)。

  4 結(jié)語

  R語言最初時只是一個統(tǒng)計分析軟件包,它擅長于繪圖、分析數(shù)據(jù)以及利用數(shù)據(jù)來擬合統(tǒng)計模型,在不擅長的領(lǐng)域如復(fù)雜數(shù)據(jù)存儲、大數(shù)據(jù)處理,它也提供了接口;ggplot2以其自成一派的語法聞名,它不需要考慮某圖形需要填充什么顏色,使用什么形狀的線段連接散點,不必去糾結(jié)基本圖形系統(tǒng)中那些繁雜的參數(shù),將更多的時間用于數(shù)據(jù)分析本身。本文中某些例子由于考慮到各圖形的美觀及信息的正式性,在繪制時應(yīng)用了不少ggplot2中的底層命令,顯得各例中命令較為復(fù)雜。實際應(yīng)用中均可大大簡化,即使如此,與基礎(chǔ)圖形系統(tǒng)相比,ggplot2的優(yōu)勢也盡顯無疑。

  當(dāng)然,工具永遠只能是工具,無論什么工具都無法替代有效數(shù)據(jù)的積累和大腦思考問題的角度。各地將氣象數(shù)據(jù)納入環(huán)境空氣質(zhì)量數(shù)據(jù)一起分析時,思考時角度可以更加多元化;各地的一些污染控制工作內(nèi)容也可以納入數(shù)據(jù)框中作分析,以評價其有效性;省、市以上的監(jiān)測部門更是可以利用更多的環(huán)境空氣自動監(jiān)測數(shù)據(jù)作一些地域性的探索。

【R語言及ggplot2在環(huán)境空氣監(jiān)測數(shù)據(jù)可視化中的應(yīng)用探究的論文】相關(guān)文章:

數(shù)據(jù)信息在醫(yī)院醫(yī)療保險管理的應(yīng)用論文08-02

微課在中職計算機應(yīng)用基礎(chǔ)課程教學(xué)中的應(yīng)用探究12-13

合作寫作在應(yīng)用文教學(xué)中的策略運用論文09-18

WIKI在高中語文寫作教學(xué)中的應(yīng)用研究論文07-29

管理會計在企業(yè)管理中的應(yīng)用策略分析論文08-11

在醫(yī)學(xué)研究生SCI英文論文寫作教學(xué)中的應(yīng)用06-20

案例教學(xué)在計算機基礎(chǔ)課程教學(xué)中的應(yīng)用論文01-02

組織行為學(xué)在企業(yè)管理中的應(yīng)用策略分析論文08-11

試論話題導(dǎo)向模式在高中英語寫作教學(xué)中的應(yīng)用論文12-02

企業(yè)SWOT分析在企業(yè)管理中的應(yīng)用10-11