• <progress id="uc7zz"><track id="uc7zz"></track></progress>

      <rp id="uc7zz"></rp>
      ?
      歡迎您訪問貴州自考網!網站為考生提供貴州自考信息服務,供學習交流使用,非政府官方網站,官方信息以貴州省招生考試院(www.eaagz.org.cn)為準 登錄  網站導航

      貴州自考網

      自考熱線:0851-85766631

      R軟件在系統聚類分析中的應用

      編輯整理:  貴州自考網 發表時間:  2018-05-25   【   點擊數:

       

      提要多元統計聚類方法已被廣泛應用于自然科學和社會科學的各個領域,而在現實處理多元數據聚類分析中,離不開統計軟件的支持;R軟件由于其免費、開源、強大的統計分析及其完美的作圖功能已得到越來越多人的關注與應用;本文結合實例介紹了R軟件在多元統計系統分析中的應用。

        引言
        多元統計分析是統計學的一個重要分支,也稱多變量統計分析;在現實生活中,受多種指標共同作用和影響的現象大量存在,多元統計分析就是研究多個隨機變量之間相互依賴關系及其內在統計規律的重要學科,其中最常用聚類分析方法,由于多元統計聚類分析方法一般涉及復雜的數學理論,一般無法用手工計算,必須有計算機和統計軟件的支持。
        在統計軟件方面,常用的統計軟件有SPSS、SAS、STAT、R、S-PLUS,等等。R軟件是一個自由、免費、開源的軟件,是一個具有強大統計分析功能和優秀統計制圖功能的統計軟件,現已是國內外眾多統計學者喜愛的數據分析工具。本文結合實例介紹R軟件在多元統計聚類分析中的應用。
        一、系統聚類分析
        聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統計方法,所謂類,通俗地說,就是指相似元素的集合。在社會經濟領域中存在著大量分類問題,比如若對某些大城市的物價指數進行考察,而物價指數很多,有農用生產物價指數、服務項目價指數、食品消費物價指數、建材零售價格指數等等。由于要考察的物價指數很多,通常先對這些物價指數進行分類??傊?,需要分類的問題很多,因此聚類分析這個有用的工具越來越受到人們的重視,它在許多領域中都得到了廣泛的應用。
        聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等;最常用最成功的聚類分析為系統聚類法,系統聚類法的基本思想為先將n個樣品各自看成一類,然后規定樣品之間的“距離”和類與類之間的距離。選擇距離最近的兩類合并成一個新類,計算新類和其他類(各當前類)的距離,再將距離最近的兩類合并。這樣,每次合并減少一類,直至所有的樣品都歸成一類為止。
        系統聚類法的基本步驟:
        1、計算n個樣品兩兩間的距離。
        2、構造n個類,每個類只包含一個樣品。
        3、合并距離最近的兩類為一新類。
        4、計算新類與各當前類的距離。
        5、重復步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。
        6、畫聚類譜系圖。
        7、決定類的個數和類。
        系統聚類方法:1、最短距離法;2、最長距離法;3、中間距離法;4、重心法;5、類平均法;6、離差平方和法(Ward法)。
        二、基于R語言的系統聚類分析程序
        R軟件及其相關包提供了各種聚類方法,主要是系統聚類方法、快速聚類方法、模糊聚類方法,常用的是系統聚類方法。
        R軟件實現系統聚類的程序如下:
        hclust(d,method="complete",members=NULL)
        其中,d是由“dist”構成的距離結構,具體包括絕對值距離、歐氏距離、切比雪夫距離、馬氏距離、蘭氏距離等,默認為歐氏距離;method包括類平均法average、重心法centroid、中間距離法median、最長距離法complete、最短距離法single、離差平方和法ward等,默認是最長距離法complete。
        三、應用舉例
        表1是山東省2008年各市居民家庭平均每人全年消費性支出,利用所給數據對各市進行系統聚類。(表1)
        R語言程序如下:
        >X<-read.delim("clipboard",header=T)
        >row.names(X)<-c("濟南","青島","淄博","棗莊","東營","煙臺","濰坊","濟寧","泰安","威海","日照","萊蕪","臨沂","德州","聊城","濱州","菏澤")
        >d<-dist(scale(X))
       >hc1<-hclust(d,"single")#最短距離法
        >hc2<-hclust(d,"complete")#最長距離法
        >hc3<-hclust(d,"median")#中間距離法
        >hc4<-hclust(d,"ward")#Ward法
        >opar<-par(mfrow=c(2,2))
        >plot(hc1,hang=-1);plot(hc2,hang=-1)
        >plot(hc3,hang=-1);plot(hc4,hang=-1)
        輸出結果(圖1)
        結果分析
        由圖1可以看出,不同方法的分類大體一樣,結合山東省具體實際情況,最長距離法分類效果較好。
        在系統聚類分析中,利用R軟件是最方便、最簡單、最易學的,而且根據不同的情況,可以自己修改別人的程序,比較方便;可以在處理多元數據聚類分析中,利用R軟件具有很大的優勢。



      貴州自考網微信公眾號

      貴州自考網課程中心

      貴州自考網聲明:

      1、由于各方面情況的調整與變化,本網提供的考試信息僅供參考,考試信息以省考試院及院校官方發布的信息為準。

      2、本網信息來源為其他媒體的稿件轉載,免費轉載出于非商業性學習目的,版權歸原作者所有,如有內容與版權問題等請與本站聯系。聯系郵箱:952056566@qq.com

      貴州自考便捷服務

      • 微信交流群
      • 微信公眾號

      • 視頻課程
      • 真題下載
      貴州自考概率論與數理統計精講視頻課程

      概率論與數理統計

      貴州自學考試課程:馬克思主義基本原理概論

      馬原概論

      貴州自考課程:中國近現代史綱要課程精講視

      中國近現代史綱要

      貴州省自學考試【思想道德修養與法律基礎(

      思修03706

      貴州自學考試課程【內科護理學(一)】試聽

      內科護理學(一)

      貴州自考文學概論(一)課程精講視頻

      文學概論(一)

      亚洲欧美日韩综合久久久久,伊人色综合久久天天人手人婷,久久久久精品免费福利电影,国产精品久久自在自线不卡