統計事始め

統計をマスターするには取りあえず正規分布とバラツキを表す分散を押さえましょう。正規分布とは何ぞや?・・・分散とは単なるバラツキを表す指標ですと言うことが分かれば後は楽に進みます。分散の計算中には自由度fなるものが出てきますが、これは単なる水増し係数みたいなものなので、統計ってそんなもんです-と理解してください。
では始めましょう。

平均値のお話:
ここにデータが3つあります。取りあえず1、2、3としておきます。単位は何でも結構です。グラムgでも長さcmでも何でもデータになりますから。データの数は3個です。データ数はnと表記するのが慣例です。numberの頭文字nから来ているので馴染みやすいでしょう。よってn=3と表記します-慣例です。平均値を求めてみましょう。データの値を全部足してデーターの数で割ればよいので結果は
平均値=(1+2+3)÷3=2 です。明らかに2ですね!
ではこの解釈は如何に?

データ1個当たりに均(なら)したら・・・1や3もありますが3を削って1にくっ付けて3つ均等に均(なら)すと1個当たり2になる・・・当たり前と言えば当たり前ですが。で、平らに均すで平均(値)です。日本人が最も慣れ親しんだ概念?好き?判断の上等手段?とにかく平均で行きたがります。でもデータの平均値はあくまでそのデータを表す手法の1つです。
平均値がそのデータを良く表しているか、解釈できるかで採用するか止めるか判断すれば済む事だけです。

平均値はXbarと書きます。通常Xの上に横線を引いていますがここではXbarと表記しておきます。よって記述すれば次の様になります。
Xbar=(d1+d2+d3+・・・・・+dn)/n  dはデータでnはデータ数です。dnはn番目のデータであることを表します。

平均値のもう1つの解釈は重心です。そのデータの集合体の重心を表します。これは後で重要な意味を持ってきますのでどこか頭の隅に置いておいてください。

所でこのデータ1,2,3にはバラツキがありますね。もしパンの重さだったら皆3のパンを買うでしょう-もちろん値段が同じならの話ですが。でも同じ袋の中にパンが3個入っていてグラム単位で売っていてもバラツキのひどいパンは心情的に買わないでしょう。揃っていたほうが安心できそうです。1個100gのパン10個入り袋で売っていたら中には100g以上のパン(ラッキー)や100gに満たないもの(泣き)が入っていることでしょう。皆ドンピシャ100gと言う訳には行きませんね。パン製造会社も生産には当然バラツキがありますから。全てのパンが100gになるよう必死に努力はしているはずですが、どうにもならないコントロール不能の部分はあるものです。気温や湿度の変化だったり機械の違いだったり、原料のバラツキとか人知を超えた神の手?でコントロールできない部分です。それで生産品のパンに多少のバラツキが出てしまうのです、ご理解あれ。余りにも大きさの違うものは規格外品としてお客様には出せませんので捨てることになります。捨てるとその分は会社の損になりますから利益が上がりません。よってなるべくバラツキの少ないような生産体制を構築しなくてはなりません-しかもできるだけコストを掛けないで安く。バラツキの性質を良く知って対処することは重要です。そこで・・・バラツキの大小を定義しておいた方がよさそうです。

バラツキを表す指標-分散のお話:
バラツキは分散と言うもので表します。-出たな妖怪-”分散”!何者・・・拙者、ただのバラツキでござる。分散は英語でVarianceと言います。英語の辞書を見てください-ちゃんとバラツキと出ています。学者さん、何でこんな難しそうな名前つけた!皆、尻込みして学ばなくなるぞ。
分かれて散る・・・ですから・・・バラバラになっているイメージを表しかったのでしょうかねェ~。お蔭様でよく眠れる授業でした-ですが(^o^)実はこの分散、知れば知るほどいいやつです、早く友達になりたかった。バラツキをどう表すか?分散を統計解析では用いますが他にも色々あります。せっかくですから少し考えてみましょう。下の表を説明します。データは1、2、3の3つです。通常Xiと記述しデータXのi番目と言うふうに表現します。データ1はX1(Xの1番目)で1、データ2はX2で2番目・・・と続きます。平均値Xbar(Xバーと呼びます、本来はXの上に横線を付けます-平らに均すと言う意味です)は2です。バラツキを表すのに各データXiから平均値Xbarを引いてみましょう、つまりXi-Xbarです。これは平均値(重心)からの隔たりになりますが数学では偏差と言います。偏(ヘン)は”かたより”ですので”やたより”の差と言ったところです。データ1はX1=1ですから平均値を引くと-1となります。データ3つに対して計算すると表のようになります(-1、0、1)。これはバラツキを表す指針になりますがちょっと使いづらいです。各偏差を合計すると0になります。これは当然で平均は重心ですから重心を中心として±すれば当然ゼロになります-だから重心です。そこで今度は偏差を2乗してみます。(X-Xbar)^2です。^2(ハットの2と言う-^が帽子に見えます?数学者は帽子に見えるらしく^をハットと発音しているようですね!)は2乗と言うことです-エクセルでもこの様に計算します。これは偏差を2乗(平方)しているので偏差平方と言います。今度はマイナスの値は無くなり(1、0、1)となりました。これもまたバラツキを表していると思います。各偏差平方を合計してみましょう。1+0+1=2となります。2は全部のデータのバラツキを表しているに違いありません。これを偏差平方和と呼びます。偏差平方和はデータ全部のバラツキを表すとみてよさそうです。物の本によれば偏差を合計するとゼロになってしまうので2乗してから合計すると書いてあるものもありますが・・・ちょっと違いますね・・・教えるテクニックとしてはOKかもしれませんが!実は2乗しておくとよい事があります。

分散計算1
後で解説する分散分析と言う難しい名前の実は何てことない分析手法でデータから真の値と誤差を三平方の定理を使って分離できるのです。2乗の形にしておけば後はいくらでもご自由に料理できてしまいます。話を元に戻して偏差平方和の2ですがこれは3つのデータの合計のバラツキを表しているはずです。よって1個のデータあたりのバラツキはデータ数n=3で割って2÷3=0.666位になります。バラツキの平均ですね。これを分散と言います。このデータの分散は0.666です-と言うことになりつまりはバラツキです。慣れてくると分散同士を比較してどちらがばらついているか判断できるようになります。通常は誤差のバラツキである誤差分散と比較してこのデータは誤差でばらついているのか、何かの原因でばらついているのかを見極めます。何かの原因とは実験条件などです。実験条件が原因で変動してばらついたかそれとも単なる誤差によるばらつきの範囲内か・・・は実験の検証をする上で大切でしょう。これは分散分析と呼ばれる手法です。なぁ~んだ、バラツキ分析か-その通り!単なる誤差ですか、それともその実験効果ですか?・・・の分析です。どうですか、少しは気が楽になりましたか?

分散の計算は比較的簡単にできます。データから平均値Xbarを計算して各データの値Xiから引いて偏差Xi-Xbarを計算します。この偏差を2乗して偏差平方を出し、その全てを足し算すれば偏差平方和になります。この偏差平方和をデータ数nで割ってやればデータ1個当たりのバラツキである分散Varianceが求まります。そんなことをしなくてもエクセルには関数が用意されていて=VARP(xx:yy)で求まります。xx:yyはセル範囲指定でデータのあるセルをドラッグなどして選択してください、あっという間に分散が求まります。でも関数を選ぼうとするとお隣さんに似たような関数VARがあることに気が付きますね。VARはVarianceの略であることは直ぐ察しがつきます。でも先ほどはVARP関数を使いましたね。これを説明するにはも1つのパンドラの箱を開かなくてはなりません-アーメン!それは自由度fです。またまた出ました妖怪N0.2-自由度f !ここで学校の授業では爆睡モードに入ります。

自由度fとは?のお話
自由度fとは一言で言うと”水増し係数”みたいなものでしょう!と言う結論に持って行こうとしています。先ほどの3つのデータをもう一度使います。バラツキを表す分散は2/3で0.6666くらいでした。これは3つのデータから導きだしたので誰も文句は言いません。今度は3つのデータはあるグループの中から取り出してきたものであるとしましょう。パンの山がありそこから3つ取ってきた様な場合です。この3つは当然この山に属するグループの1つです。1つのグループがありその中からいくつか取ってきてグループを作る場合ですね。このようなものは標本集団と言いますが標本としていくつか取ってきたみたいなイメージです。元々のグループは母集団と言い集団の全てです。標本集団もバラツキますから今度も分散を計算してみます。・・・・結果は同じになるでしょうか?いや、偏差平方和までは同じで2になりますが、今度はデータ数n=3では割らずデータ数n-1の2で割ります。n-1のことを自由度fと言いますが自由度f=n-1です。でもなぜこうするのでしょうかね?今度の平均は仮の平均です。全部のデータを使って求めた平均ではありません。母集団からたまたま取ってきた3つのデータで作ったもので言わば母集団の平均の推定値です。この場合の2がドンピシャ母集団の平均値である保障は全くありません。データ数nを増やしてもっと多くのデータを取ってきて平均値を作れば母集団の真の平均値には近づくでしょうがそれでも真の値ではないでしょう。ちょっと不安!では母集団の真の平均値が2ではなかったらとして計算してみましょう。仮に真の平均値は1.5としてみます。仮平均より小さい場合です。
分散計算2
データ全体のバラツキを表す偏差平方和は2.75となり2よりも大きくなりました。
今度は母集団の真の平均値は2.5だった場合で計算してみます。
分散計算3
今度も偏差平方和は2.75となりました。これから言えることは母集団の平均値が標本集団の平均値(仮平均、母集団平均の推定値)よりも小さくても大きくてもバラツキ、すなわち分散は大きくなってしまうと言うことです。これではこの分散を使って製品など作れませんから何らかの補正が必要です。しかもその補正はデータ数nが少ないときには大きく効き、データ数nが多いときにはそんなに効かないような値が妥当そうです。数学者が考え出したものはデータ数n-1で割ると言う手法でした。これが自由度fです。この証明は難しいらしく統計の入門書では説明を避けています。私もお目にかかったことはありません。昔、勤めていた会社で同僚が統計のセミナーに参加したことがありましたが-セミナーの講師曰く”神がそう決めた”と思えと言ったそうです!すごいですね。とにかく今のところは自由度f=n-1でOKです。確かにn-1ならデータ数nが少ないときには大きく効きますし多くればn≒n-1なので効き方は少なくなります。先ほどの偏差平方和2を今度は自由度f=2で割って分散=1と出ました。これが標本集団の分散で母集団の分散0.666よりは大きく見積もっています。標本集団の分散は不偏分散と言います。不偏とは偏寄らないと言う意味でしょう。そのままでは分散が小さい方に偏って計算されてしまうのでn-1で割って偏りを戻しています。ですから偏らない分散で不偏分散です-明快!ちなみに母集団の方の分散は母分散と言います。n-1は一種の水増し係数ですね。しかもデータ数nで適当に水増ししてくれるものです。よく考えてくれました。でもなぜ小さい方に偏ってしまうのでしょうか?
それは計算の途中で平均を使っているからです。平均するとバラツキが少なくなります-平(たいら)らに均(ならす)しますから。計算の過程で平均を1回使ったら自由度fを1落として行く-これで自由度fを求めて略間違いありません。今は自由度f=n-1ですが、高度な計算ではn-2や3といった場合も出てきます。この自由度fの計算はよく混乱しますので以上の鉄則は心の隅に置いておいてください。エクセル関数のVARPは母集団の分散を求める関数です。PはPopulationの略で学校英語で教えられる”人口”のことではありません。母集団のことです。VARは不偏分散を求める関数で両者の違いはデータ数nで割るかn-1で割るかだけです。適当な値をセルに入れて計算してみてください。不偏分散の方が大きな値になりデータ数nが多くれば両者は同じ値に近づいてきます。

標準偏差のお話-必要ないと思うけど???:
分散はバラツキを表す指針としては便利なのですが、何せ単位が2乗の形になっています。重さgのバラツキはg^2で長さcmのバラツキはcm^2で面積になってしまいます。いかんせん長さのバラツキが面積ではピントきませんね。かみさんに気でも狂ったか?と思われさそうです。そこで分散をルートで開いて単位を元に戻してやると-あの悪名高い標準偏差になります。でも標準偏差は統計解析では余り必要ないと思います。あくまで一般うけを狙った単位ですから。

おまけ:******************************
均一性のお話:
統計解析ではバラツキを分散で表しますが、その他にもバラツキを表すものがあります。範囲(range)は最大値-最小値でどの位の範囲かでバラツキを表します。また(最大値-最小値)/平均/2を%表示して均一性を表す場合があります。半導体ではエッチングの均一性評価などに用います。Max-Min法などと呼びますが例えばデータの最大値が500で最小値が450、平均値が470だったら均一性は、(500-450)/470/2=0.0531×100=±5.32%となります。±となっているのは2で割って半分にしているためです。
もう一つ1s法と言うものがあります。これは標準偏差sを平均値で割って計算します。例えば
平均値Xbarが470で標準偏差が12ででしたら12÷470=0.026×100=2.5%となります。なぜか半導体では製膜プロセスのCVDやPVDでの均一性評価に用いられることが多いようです。
両者の違いは何でしょうか?Max-Min法は異常値に引っ張られる可能性があります。数多くあるデータからたった2つのデータしか使っていません。最大値や最小値が異常値で極端な数値が出ると均一性は極端に悪化してしまいます。オリンピック選考会でいつもは安定していた選手がその日たまたま風邪で不調だったようなものです。これに対し1s法は標準偏差を使いますから全部のデータを使って計算しています。異常値が入り込んでも均一性は極端に悪化しません。今までの全記録でオリンピック行きを選考してくれるようなものです。この意味では1s法の方が公平に見てやっていると思います。1s法は統計で定義されていて変動係数と言います。私見ですがエッチングは不安定なプロセスで異常値が出やすいものです。異常値もデータですから考慮しなくてはなりません。CVDやPVDは安定したプロセスで滅多にトラブらないものです。こんな理由で両者は使い分けられているのではないでしょうか。データ数が多ければ(経験では17個以上)Max-Min法と1s法では大体2倍位の差がでます。Max-Min法で±5%なら1s法では2.5%位の値になります。全てに言えることですがデータはその根拠となる条件や算出方法を示さないとゴミ以下ですね。

**************************************

ここで一度単位を含め整理してみましょう。

慣習的表記のおさらい:
統計では慣習的に記述が統一されています。
母集団の平均値はμ(ミュー)と表し、標本集団の平均値はXbar(エックスバー)としています。Xbarは仮平均であり母集団の平均値μの推定値です。
標準偏差も母集団はσ(シグマ)と言い、標本集団の標準偏差はs(スモールエス)と言って区別します。分散の方は母分散と不偏分散で記述の違いはありません。自由度はfと記述する場合が多いようですが、統計ではfrequency(頻度)と間違う恐れがありφ(ファイ)と記述する場合もあります。
母集団:
全部のデータを扱うまたは扱える集団、有限母集団と無限母集団がある
私たちの周りは無限母集団が多い、正規分布するものが多い
標本集団:
母集団から一部データを取ってきて作られた集団で正規分布をする集団から
データを取ってきて作った集団も正規分布することが知られている
平均値μ(ミュー):
母集団の平均値で全データを使っているので真の平均値
平均値Xbar(エックスバー):
標本集団の平均値で仮平均、母集団の平均値μの推定値
母分散V:
母集団のバラツキで記号はV(Varianceの頭文字)、母集団は無限母集団の場合
が多く、一般的には未知です
母標準偏差σ:
母集団のバラツキの指標で単位は戻っている、記号はσ(シグマ)
不偏分散(標本分散)V:
データ数(標本数)nを考慮した母集団のバラツキの推定値 記号はV
標本標準偏差s:
記号はs(スモールエス)
自由度f: 今のところデータ数n-1で水増し係数のようなもの
記号はf または φ

ここまで来ますと統計の鬼門は抜けました!データを解析するには平均値と分散が分かれば大方分かったことになります。あとはデータは正規分布しているハズですので正規分布の性質を使って解析を進めてゆくことになります。

エクセル関数で解析する:
エクセルには便利な関数がたくさん用意されています。一例を紹介します。
ここで(xx:yy)はセルの指定範囲で解析するデータを選択します。これらはエクセルの中にあるf(x)という関数の中の統計と言う項目に入っています。
1.平均値を出す =average(xx:yy)
2.不偏分散 =VAR(xx:yy)      *標本集団の分散を求める
3.母分散   =VARP(xx:yy)     *母集団の分散を求める
4.標準偏差 =STDEV(xx:yy)    *標本集団の標準偏差を求める
5.標準偏差 =STDEVP(xx:yy)   *母集団の標準偏差を求める
6.偏差平方和 =SUMSQ(xx:yy)  *あまりやらないでしょうがこんな関数もあります
7.最大値 =MAX(xx:yy)            *最大値を見つける
8.最小値 =MIN(xx:yy)        *最小値を見つける

分析ツール-もっと手っ取り早く:
そこで結論です。
以上のような関数を使って計算してもよいのですが、アドインしておいた分析ツールの中に 基本統計量と言う項目があります。チェックボックスにチェックを入れてOKをクリックすると入力画面が現れますからデータ範囲を指定し、取りあえず基本統計量のチェックボックスにチェックを入れOKをクリックしてみましょう。計算結果は新しいシートか同じシート内かに選択状況により出力されます。

出力された各項目の意味する所は次の通りです。
**************************************
平均:                   全データの平均値です
標準誤差:                データから誤差を分離したものです、分散分析で詳しく
お話します
中央値(メジアン):           小さい方から並べて真ん中にくるデータです
最頻度(モード):            一番多く出現したデータですが、全データが1回だけ
(全データが異なる)ではこの項目は出力されません
標準偏差:                バラツキで分散の平方根です
分散:                   バラツキです
尖度(せんど):             標準正規分布からどの程度とがっているかの
度合いです数学上では-3が標準正規分布ですが、
エクセルでは理解し難いので+3しています。
標準正規分布で0です
歪度(わいど):             左右の裾広がりの度合いを表します。
0で標準正規分布+で右広がり、-で左広がりです

範囲(Rage):              データの範囲、レンジとも言います。最大値-最小値
最小値:                  データの最小値
最大値:                  データの最大値
合計:                   全データの合計値
標本数:                 全データ数n
信頼区間(95.0%):          計算上間違いを犯さない各確率で詳しくは
検定と推定でお話します

これらの結果データをじ~と見つめて考えましょう。今や考えることのみが人間に残された最後の仕事です!

この章のまとめ:
**************************************
統計は分散V、自由度f、平均値μとXbar、さえ分かれば後は楽です。
標準偏差σとsは要らないけどおまけ程度に知っておけば大丈V!

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

w

%s と連携中