心理統計法 1日目
◆今日のテーマ : 分布――それは、ばらついているもの
@ 変数の種類
・変数(variable)とは変化しうる値 ←→ 定数
・変数と尺度の種類
等間隔の尺度(ものさし)で測り、数値として出てくるもの ―― 量的変数
基本的にカテゴリーに分類したり、順位づけたりするもの ―― 質的変数
心理尺度のかかえる問題
・測りたい"何か"(構成概念)と実際に測定される変数には必ずズレや不全がある
・順序尺度を間隔尺度として扱う習慣がある
A 平均(中心傾向、代表値)
・分布の形と平均値、中央値 量的変数の分布を考える際の基本はヒストグラム
超オススメのアナログにしてデジタルなグラフ
平均値は1つでも分布はさまざま
歪んだ分布と平均の関係
・平均値だけでものを考えない ―― 必ず幅(ばらつき)をセットで考える
調査(研究)結果を文章化するとき、バラツキや程度に関する情報が死んでしまう
素朴な平均=均一幻想からの脱却 ―― 平均寿命とは? 平均人とは?
B ばらつき 分散
・ジュンイ(順位)系 と アタイ(値)系
・けっこう有用な5点要約 ―― 箱ヒゲ図
・Σの復習
・標準偏差の成り立ち ―― 標準偏差の公式を言葉ですらすら言えますか?
C 相対化とモデル分布(正規分布)
・標準得点・偏差値 ―― 「レモン何個分」ではなく、「SD何個分」に換算
・正規分布と標準得点・偏差値の関係 ―― 分布の幅や高さは違っても、含まれる
データの割合が予測できる不思議
D 要約値からの分布の再現
・要約してしまったものは元には戻せない悲しさ
平均値、SDからモデル分布を再現せよ!
・個々のデータは重なりながらも、それでも集団は全体として違うと言えるか?
平均値の差とSDで「差」を相対的に評価する ―― 「検定」へのつながり
ポイント
記述統計のこころは、分布の要約(抽象化)と再現性(具体化)の間の葛藤
心理統計法 2日目
◆今日のテーマ : 関係があるとはどういうことで、関係がないとはどういうことか?
@ 相関するとはどういうことか?
・相関の図を描く 散布図と相関係数rの関係
相関係数の有意性にこだわるな。重要なのはrの絶対値――その評価は領域による。
・相関(関連)が無いことと、負の相関とは違う。日常の議論ではつい混同しがち。
――無相関(関係なかった)=ヴァリエーションが「有る」と考える方がよい。
・様々な相関のパターン
・一人が複数のデータ(変数)を持つとき−−再度「平均人」への注意
A 相関は必ずしも因果関係を意味しない
・因果関係の基本パタン
X→Y(Xが原因でYが生じた)
X←Y(Yが原因でXが生じた)
X⇔ Y(XとYの間に原因−結果の循環が生じている)
X→Z→Y(間に他の要因Zが介在しているが、間接的にはX→Y)
X←Z→Y(第3変数Zが介入、XとYには因果関係はない ――見せかけの相関(擬似相関)
ポイント 1
相関関係は、とにかくプロットを描いて、その目で確かめよ!
rはひとつでも、プロットのパターンは無数。
B 質的データでの関連性 クロス表
・クロス表(分割表)の見方、考え方
−−比率を出して、まずタテに比較、次に横の比較
・比較表現を明確に than 以下を省略しない
我々は、比較対象を見落としてしまう傾向がある!
・期待度数と観察度数のズレとして、関連性を探る方法
−−どのくらいのズレはたまたまで、どのくらいのズレはたまたまではないか?
程度問題を考えよう。 → 検定へのつながり
ポイント 2
ものごとの関連性を考えるということは、比較表現をあいまいに
省略せずに、きちっと考えること。「何に比べて何がどうなのか」。
心理統計法 3日目
◆今日のテーマ : "その"データの値を100%信じるな。
標本には誤差がつきもの。
@ 推測統計 ―― 標本から母集団を推測するということ。
・母集団とは何か? 標本とは何か? ―― 母集団を忘れがちな心理学
・標本と母集団は相似形か? ―― 例 スプーン1杯のシチューで、シチュー全体を伝える。
A 表か裏か ―― 1/2
の確率論
・偶然(ランダム)の性質
一般人の素朴なランダムイメージと本当のランダムの違い
1.狭い範囲では偏りがち。でも長い目でみると偏らない。
2.数が多いほど変動の幅は相対的に狭くなる。
ポイント 1
ランダムというのは、小さな範囲では、意外と偏るものと心得よ。
B ゾーンで考える ―― 平凡ゾーンと逸脱ゾーン
C 検定の基礎概念 ―― カミサマの視点と人間の視点を行き来する
・人間は真実(母集団)を知り得ない。得られたデータ(標本)から推測するしかない。
・あえて帰無仮説を立てるたくましい知性
−−「これは偶然かもしれない」からの出発
・2つの誤り ―― 第1種「勇み足」と 第2種「見逃し」
・帰無仮説のいくつかのタイプ ――「関係ない」を具体的イメージに変換すると?
ポイント 2
標本で観察された差異は、「それ」を反映しているのかもしれないし、
偶然かもしれない。統計の玄人は、まず最初に「偶然」と考えてみる。
D 検定の国語
「差がない」と「差があるとは言えない」の厳然たる違い
「有意である」と「意味が有る」の違い
ポイント 3
「差がない(等しい)」と、「差があるとは言えない」は違う。
心理統計法 4日目
◆今日のテーマ : 大切なのは幅をもって統計値をみる習慣。
検定は、不完全で情報量の少ない確認作業。「有意」が全てではない。
「パソコン任せ」時代だからこそ知っておきたいこと。
@ 平均値の差の検定の基礎にある考え方(区間推定)
・有限母集団からN個のデータをランダムに抜き出して、その平均値を求めてみる。
――標本サイズが小さい場合、「その」平均値はあまりあてにならない。
標本サイズが大きくなるほど変動の幅は小さくなり、平均値の確からしさが向上する。
・「標本データの分布」はもちろん重要だが、それとは別の「平均値の仮想分布」を
イメージせよ。可能性としての標本平均値の分布、その標準偏差が標準誤差。
ポイント 1
「推定される母集団の平均値」の仮想分布は、得られた標本の分布よりも幅が狭い。
標本分布のSDが小さいほど、Nが大きいほど、仮想分布の幅(標準誤差)は狭くなる
=標本平均値(やその差)の信頼度はアップ!
At検定 ―― 対応のない場合・対応のある場合
・t値の大きさを決めるのは、 a)平均値の差、 b)SD、 c)N
・「等分散仮定」は原則と結果出力の見方だけ知っておけばよい
B対応のないt検定 と 対応のあるt検定を取り違えるとどうなる?
・対応のあるt検定は「ペア間の差」の平均値が0であるかどうかの検定
・2つの平均値だけではなく、1つの値と特定の基準との差をt検定することも可能
C約束は守ろう! しかし、有意か否か、の2分法にこだわるな!
判断基準は最初に決めておくもの…「傾向差」という欺瞞の背後にある2分法的思考
効果量・・・SDに対して、平均値の差がどれくらい大きいかという見方も大切
差の実質的意味も考えよ ―― 相対的な差を調べた後は、数値それ自体に帰れ。
Dχ2乗検定の考え方
・ここで問題とされるのは、度数そのものではなく「比率」
・観察度数と期待度数のズレの大きさがポイント
・ここでも検定は最後の確認作業。検定の前にまず分布の様子を把握せよ。
ポイント 2
「有意か・有意でないか」という判定は、約束として重要(無視するな)。
しかし、2分法にとらわれるな。
基本は生の標本(データ)分布を見て、意味をくみ取ること。
ただし、標本データそのものも絶対視しない。
それはあくまで「可能なデータの1つ」であり、誤差を含むものである。