ANA国内線【PR】
2006前期情報処理実習最終評価について
下記に成績評価をUP LOADします。


成績評価LIST



今期から成績評価の方法が5段階評価になっているようです。
A  優に相当
B  優に相当
C  良に相当
D  可に相当
F  不可に相当

今日以降、課題終了の書き込みをする方は
こちらのコメントに書き込んでください。

データブロックに関する注意!



データリストに全角日本語は使用できるようだが、システム設定によっては蹴られる事がある。
エラーがでてうまくいかないようなら、半角英数字の使用を進める。
# by okh2006 | 2006-07-24 12:59
注意すべき点!

注意してください!


データの解釈のしやすさで
「質的データ」を選択した人は
注意すべき点がある。



また、コメントもしっかり記述してください。
「××と○○が似ている、似ていない」
というだけではなく、
なぜ、このような分類になったかを
考えてコメントすること。


参考までに



GDP関連のデータから九州・沖縄を取り出しました。
福岡が飛びぬけている変数、全県似通っている変数など
色々な特徴が、このように簡単にグラフ化することで分かります。

# by okh2006 | 2006-07-19 20:05
2006-07-10
統計資料の分析

これまで使用したSASのプロシジャ

・PROC PRINCOMP
・PROC CLUSTER
・PROC TREE
・PROC REG

のプロシジャを用いて、デ-タ解析をする。

step.1  使用するデ-タの決定
step.2  分析メソッドの決定(複数でも良い)
step.3  計算結果
       コメント(結果の考察)
       SASのコ-ド
step.4  各自のブログにアップロードする
step.5  終了した人は、「課題終了」とこのブログの掲示板に書き込む

以上


なお、課題デ-タはこのファイルからデ-タを選んでください。
自分で分析したいデ-タのある方は、そのデ-タでかまいません。


質問やSASのコ-ドの書き方など質問は掲示板に名前を「質問」として書き込んでください。
# by okh2006 | 2006-07-10 12:57
2006-07-03

SASによる回帰分析



ここ


ex6
year x1 x2 y
1965 38 240 8.2
1970 41 430 11.3
1975 57 650 18.2
1980 75 660 19.1
1985 81 670 23.7

出所:「すぐわかる統計処理」石村貞夫

# by okh2006 | 2006-07-03 11:39
2006-06-26

クラスター分析2


クラスター分析は別名数値分類法(numerical taxonomy)ともいう。

クラスター分析の利用法をBall(Classification Analysis:1971)は7つあげている。

  1. 真の類型を見出す
  2. モデルの当てはめ
  3. グループ化に基づく予測
  4. 仮設の検定
  5. データ探索
  6. 仮設形成
  7. データ集約


クラスター分析は類似の度合いを定量化するが、その測定法は類似度と非類似度に大別される距離の計測による。

距離

  1. ユークリッド距離(前回参照)
  2. 市街距離:2点間の差の絶対値の総和
  3. ミンコフスキー距離:上の2つを含む一般的測度
  4. 重み付きユークリッド距離:単位系が異なる場合に行う標準化
  5. マハラノビス距離:非類似性による指標


類似性の測度

  1. ピアソンの積率相関係数:-1≦R(a,b)≦1のいわゆる相関係数
  2. パターン類似率(Pattern Similarity):積和を2乗和の平方根で除して標準化した0≦S(a,b)≦1の指数
  3. 偏差パターン類似率:-1≦S(a,b)≦1の指数


質的変数

  1. 一致係数
  2. 類似比
  3. 点相関係数


代表的なクラスター計算法

  1. 階層的方法

    1. 最近隣法(鎖効果という問題が生じる場合がある)
    2. 最遠隣法(完全連結法ともいう)
    3. 重心法(セントロイド法ともいう)
    4. メディアン法
    5. 群平均法
    6. ウォード法(Ward's method)

  2. 非階層的方法

    1. 最適化法:あらかじめ設定された基準を最適化するように分割を行う。
    2. 密度探索法



**********************************************************
ウォード法は最小分散法ともいい、比較的明快なクラスター構造が得られ、心理学では常用されているらしい。

次のデータにウォード法を適用してみよう。
example1

A 2
B 3
C 8
D 10
E 11
F 15
G 18

なお、SASによるクラスター分析では固有値が出力されるが、これは分散共分散行列によるデータ変動の情報である。主成分分析と同じで、固有値にはこのような『利用法もある。

セミパーシャル重相関係数(Semipartial R-Squared)はクラスター内の分散あるいは説明率であり、部分的説明率である。小さいほどばらつきのないまとまったものと解釈できる。R-Squaredはクラスター間の分散である。

部分的説明率が突然増大するとクラスター内のまとまりの悪化を意味し、その直前を最適な分類とするのが無難である。

**********************************************************
example2
Kは「京都」で他は「小京都」と呼ばれる日本各地の市である。これを
x1:歴史の古さ
x2:寺社の多さ
x3:自然の豊さ
の10点満点で評価したのが次のデータである。

K 8 9 8
B 3 5 10
C 2 3 12
D 4 7 15
E 6 1 10

ここではproc cluster のオプションである「pseudo」について説明する。

これはF比、t値といった統計量と対比される擬似統計量の算出を行うものである。

SASの出力について
NCL      :クラスター数
FREQ     :新クラスター内の対象数
SPRSQ    :セミパーシャル重相関係数
RSQ      :クラスター間の分散比
Pseudo F  :擬似F比で、クラスター間の分散をクラスター内の分散で除したもの。
          分散分析で用いるF値に近い。
Pseudo t**2:擬似t2乗値結合された2つのクラスター間の距離でF=t^2の関係にある。

Fは大きいほうが良い、tは小さいほうが良い。両方の塩梅で最適なクラスター数を決定すると良い。クラスター数の客観的な指標といってよいだろう。
# by okh2006 | 2006-06-26 17:05
2006-6-12

クラスター分析



クラスターとは塊とかまとまりのこと、対象の「分類」が目的である。
前回の例題の解釈

主成分分析のレポート作成の参考例

座標間のユークリッド距離を求め、親近度の指標を定義する。

ユークリッド距離の応用:クラスター分析
x y
A 4 1
B 2 4
C 5 7
D 5 2
E 3 4
F 6 5
G 2 6
H 7 2

図1
図2
図3
図4
図5


1.各自でデ-タを集めて、主成分分析とクラスター分析などをじっこうできるようにするか

2.私のほうでデータを指定したほうが良いか、掲示板に記述してください。

1か2かどちらが良いか番号を掲示板に記述しておいてください。


# by okh2006 | 2006-06-12 11:17
2006-6-5
主成分分析の応用

結果をいかに解釈するか?

先週の結果

解説と課題111


第1主成分と第2主成分の主成分得点散布図


# by okh2006 | 2006-06-05 11:53
2006-05-29
# by okh2006 | 2006-05-29 13:44
2006-5-29


主成分分析の出力




1.基本等計量
2・相関行列、分散共分散行列
3.固有値(寄与率)
4.固有ベクトル=ウェイト
5・主成分得点

出力結果の整形
SASの出力はプレーンテキスト(ASCII)、HTML形式がある。
HTML形式の出力をExcelで編集して、自分なりに理解しやすい形に編集(整形)する。

[課題」
結果をグラフにして各自のWeblogにアップロードしてみよう。
できたら、このページのコメントに

・学籍番号
・日付
・ブログのURL

を記述してください。

*************
sample data set
no:番号
x1:外国語
x2:2小論文
x3:面接
y:クラス


no x1 x2 x3 y
1 50 65 70 A
2 45 58 55 A
3 56 55 65 A
4 68 72 59 A
5 43 39 49 B
6 22 30 52 B
7 45 50 43 B
8 49 50 65 A
9 53 65 50 A
10 76 69 72 A

*************



主成分分析の解説と例題
# by okh2006 | 2006-05-29 11:18
2006-5-15
多変量解析の基礎

多変量解析とは、その名のとおり、2つ以上の変量群に対する分析法で、文学(計量言語学)から化学(ケモメトリックス)まで高い汎用性をもつ手法である。

経済学では計量モデルの推定に体系推定法を適用するとき、外生変数が多い場合、主成分分析を適用して、変数を縮約するTSPCといった手法が知られている。


使いこなすコツは分析目的やデータの状態に応じて手法を選択すること

・影響関係の分析

 1)回帰分析
 2)判別分析
 3)正準相関分析
 4)スペクトル解析

・構成関係の分析

 1)主成分分析
 2)因子分析
 3)クラスター分析
 4)多次元尺度構成法
 5)潜在構造分析
 6)スペクトル解析
 7)グラフィカルモデリング

教育分野において単純な因子分析が用いられたことがもっとも古い事例で(重回帰は別)が、最近ではTSLSなど体系推定法など計量経済における手法を取り入れた共分散構造分析といったモデリング的な分析法が盛んに用いられている。

Spearman,”General Intelligence"Amer.J.Psycol.,1904
スピアマンは古典語、フランス語、英語、数学、音の弁別、音楽の6種類のテストから1つの潜在因子を抽出し、これを一般知能と命名した。
(鈴木・竹内「社会科学の計量分析」東大出版会)参照

さて経済分野では回帰分析をよく用いるが、今回はSASによる主成分分析を行う。
主成分分析を用いた例は数多いがYRIインデックスといった時系列データの経済指標作成に使われた例や地域分類などがある。


主成分分析(Principal Component Analysis))を一口で言えば、変数の合成である。



以下の仮設データをSASで分析しよう
*************************
山際・田中「心理データの多変量解析法」教育出版p11より
x1 x2 x3 x4
1 2 3 4
3 3 4 6
3 4 5 5
2 4 2 5
6 7 7 3
7 6 7 3
5 2 6 3

**************************

データは4つの変数と7つのレコ-ド(個体)からなる4×7のリスト(行列)である。
例えば変数が
x1:国語
x2:社会
x3:数学
x4:理科
の4つならこれを合成して2つの新変量を作成し、文系成分、理系成分といった成分が得られるかもしれない。また、金利や物価といった経済指標を合成して「景気」という存在するが直接観測できない未知の指標を合成できるかもしれない。

このようなときに主成分分析を適用する。

keyword:
相関行列、分散共分散行列
固有値、固有ベクトル
寄与率、累積寄与率
主成分得点(スコア)


解説サイト
Rで有名な青木先生のサイト

同じく青木先生で有名なExcel小話
Excelは確かに便利だが、バグは怖い。そもそも「ソルバー」をLPとしないのには、どういう理由なんだろうか。これを機会にOpenOffice.orgに乗り換えるか。



# by okh2006 | 2006-05-15 11:30
2006-5-8
いきなりですが、今日から「SAS」を使います。

SASのWebを見てください。↑
なお、いきなりマウスをクリックするのではなく、右ボタンを押してショートカットメニューから「新しいウィンドウを開」を選択したほうがいいと思う。

SASには膨大なSample Programがあります。実際の研究に用いられたものも多々ありますので、それらを使いながらSASの使い方を覚えるのがベストでしょう。

というわけSAS Sample Programsを開きます。

◎本日の実習課題
http://ftp.sas.com/techsup/download/sample/samp_lib/etssampSyslin_Kleins_Model.html
の場所にクラインモデルのソ-スがあります。ここからデ-タ部分を抜き出して、Excelでグラフ表示します。

うまく、Excelにコピペするには、ちょっと工夫が必要です。
→notepad(メモ帳)を経由する。
→Excelのメニュー「データ」:区切り位置

グラフ表示も単なるデフォルトではなく見栄えのする、あるいはレポートや論文等に掲載するための標準的なフォーマットにする。


こここまでできたらSASを起動して、このデータの平均などの基本統計量を求めてみます。
Excelでも可能だが、コマンド一発でできるのと、いちいちセルを指定して実行するのとどちらが便利か、皆さんはどう思うでしょうか。今のところExcelがいいと思うかもしれんな。


SASの記述:
(1)データ記述部
(2)プロシジャ記述部

基本統計量のSASのプロシジャ

proc means;
run;

proc univariate;
var c;
run;


# by okh2006 | 2006-05-08 11:53
start
今回はexcite.comのサイトのサービスを利用します。

単にサービスを利用するのではなく、あなたが

サイトの運営者ならどのようなサービスがビジネスの拡大につながるのか

を考えてみてはどうでしょうか。


過去の講義の概要はこちらからご覧になれます
# by okh2006 | 2006-04-20 21:22
< 前のページ 次のページ >