正規分布のお話し

正規分布のお話で恐縮です:

正規分布-またまた学者さん・・・難しい名前つけましたねェ~。英語ではNormal Distribution(ノーマルな・・・通常・普通・異常ではない-の分布)、英語の方がよっぽど親しみやすいとは思いませんか?結論から言えば私たちを取り巻く世界では”何もしなければ”この”通常の分布”をする物が多い・・・と言うことです。では何かしたら?・・・誰が・・・です・・・たちまち異常分布になって→即バレバレ・・・です。100gで作っているパンの山から100g未満のものだけ選んで捨てたような場合です。当然100g辺りに前後してまとまっていなくてはなりませんが100g超に分布が偏って出てきます。次は-”おい誰だ-パン捨てたやつは!になります。人間が物を作ったりして(人間でなくても当てはまることが多い)出来上がったものはこの分布に従うものが多いものですが、初めに研究した人は天才数学者のガウスさんでガウス分布(Gaussian Distribution)とも言います。分布の性質は数学で証明されていますので、この性質を使って統計解析を行い生産管理等に応用しています。教科書では”通常の分布”は次のような曲線で表されることが多いようです。
正規分布の説明図
X軸はデータの値で重さgとか長さcmなどがきます。またY軸は確率を表します。よく釣鐘型と表現されますが、中心に最も分布が集中している事を表していて中心から離れる程確率は小さくなってゆきます。この曲線はデータ分布の確率を表しているためで確率密度曲線と言います。難しくて済みません!中心は普通、平均値です。100gのパンを作ろうとすれば当然100g辺りに多くに出来上がるでしょうから経験則にも合っていますね。この釣鐘型の面積は確率なので1になります。グラフの中に1sと表記されているのは標準偏差sでσではありませんからこの分布は標本集団の分布ですね!所でこの両方に広がる裾野は何処までゆくのでしょうか?確率なのでゼロにはならず±∞までゆきます。実際の応用では妥当な所で切って使います。その場所は通常±3s(σ)でその確率は99.7%です。すなわち平均値を挟んで±3s(または±3σ)で6s(6σ)の幅の中に全データの99.7%が入ってしまいます。1000個作って997個が入ると言うことになります。これ以外はたったの3個だけです。一応物作りではここで妥協していますが、もちろん時と場合によります。原発事故の安全設計などでこの確率で計算されたら1000万人都市の東京などでは3万人があの世行きになってしまいます。コスト対効果でどの辺で妥協できるかです。
さてこの釣鐘型の分布曲線ですがなだらかな場合とシャープに立ち上がっている場合が考えられます。

正規分布の形の違い

なだらかな山の分布では出来あがった製品にバラツキが多く、例えばこれ以上(上限規格)とこれ以下(下限規格)は不良になると言った場合には不良品を大量に出してしまうかもしれません。シャープに立ち上がっている場合にはバラツキが少なく目標に近いですからその心配は少なくなります。生産工程の改善等を行いなるべく規格内に入るようにしています。逆に余りシャープな分布でもコスト高になる場合が多いでその場合には少し手を抜いて安く作りましょうと言うことになります。要はコスト対効果のバランスです。このあたりの解説はQCの章で工程能力指数のお話として再登場予定です。

標準化・標準化する話:

”通常の分布”は数式では次のように表されます-再び恐縮です!

正規分布の式

よくこんな式考えだしましたね、さすがガウス大先生です。この式を使って解析してゆけばよいのですが1つ困った問題に突き当たります。それは解析対象毎に正規分布を用意ないといけないと言うことです。パンの重さだったらgの正規分布を、板の長さだったらmの、液体の容積だったら^3mのと言った具合です。これでは煩雑過ぎますので誰も使ってくれないでしょう。
そこで誰でも使えるように基準となる式を1つ作ってみましょうということになりました。障害は2つあります。1つ目は平均値μがまちまちで100あったり10だったり2000だったりと色々です。2つ目は標準偏差がまちまちで単位も付いています、gだったりmだったりと。そこで一工夫します。まず各値から平均値μを引いて平均値をゼロにする。そして標準偏差σで割って1に揃え単位も落としてしまいます。式で表すと次の通りです。そしてこれをZと置き換えましょう。

Z変換へ

よってガウスさんの式は次の様に変換されます。
Z変換へ

確率密度曲線は次の様になりました。
正規分布Z変換
これがよく教科書に載っている”通常の分布”になります。ここまで来ると言葉に慣れてきたと思いますので”通常の分布”から正規分布に戻してもよいですか(^o^)。教科書に載っている正規分布は標準正規分布と言い他の分布は全てこの標準正規分布と比較して議論します。標準正規分布は平均値がゼロで標準偏差が1です。数学ではN(0 、1)と表記します。NはNormar distributionの略で正規分布ですと宣言している部分です(  )の中にその条件を書き、平均値が0で、標準偏差が1の・・・と言う条件ですと表記しています。Zの集団は平均値が0で標準偏差1に正規分布に従う・・・なんてかっこよく表現できてしまいます、意外と簡単ですね。X軸にはZと言うものが付きましたがこれはZ値と言うものです。このZ値を使って色々な解析ができますが標準正規分布と比較するためにZ変換と言う計算をします。後でZ値に慣れるため幾つかご紹介しましょう。その前に重要なことを1つ・・・Z値は母集団を相手にしていますので原則、分散が分かっている場合に用います。私たちのお相手する集団は無限母集団である場合がほとんどです。データー数は無限にありますからその中から標本として幾つか取ってきたデータで解析しなくてはなりません。持論としてデータ数nが30以上あればまず大丈夫ですがデータ数nが少ない場合には誤差が大きくなってしまいます。Z値は統計の本に載っていますから便利ですがくれぐれも分散が予め分かっている母集団の概念であることを忘れないでください。
**************************************
おまけ:
では標本集団でデータ数nもそんなに多く取れない場合にはどうするの? 実はZ値ではなく tと言う補正をかけた(水増しした-もうお分かりですね、自由度fを考慮した)ものを使います。このt 値のお話は別章の検定と推定の項目を参考にしてください。
************************************

正規分布の性質:

正規分布の性質で重要な所を1つ!生産管理、品質管理にはこの性質を使っています。
1.平均値μ±3σの幅の中には全データの99.7%が入る
2.平均値μ±2σの幅の中には全データの95.4%が入る
3.平均値μ±1σの幅の中には全データの68.3%が入る
正規分布の性質で重要な部分
1の±3σ99.7%だけ覚えましょう-生産管理ではそれで十分です。
試しに計算してみます。1個あたり100gで製造されているパンがあります。平均値μが100gで標準偏差σが2gとしましょう。お断りしておきますがこの場合、パンの1山を母集団とみなして全部のデータを使って算出したと考えます。μ±3σは100g±3×2gなので94g~106gになり、このパンの山は99.7%の確率で94g~106gの範囲にあります。つまり1000個取ってきたら997個はこの範囲に収まるでしょうと言う意味です。エクセルでは直ぐ計算できますので適当なデータを使って試しにやってみてください。データ数nが30個以上あれば実用上問題はないでしょう。
=average(xx:yy)で平均値、=stdevp(xx:yy)で標準偏差(母集団)、=stdev(xx:yy)でも標本集団の標準偏差が求まりますので両方試してください。
(xx:yy)はセル範囲指定。

Z変換をしてみる-の話:
厳めしい名前ですね-いかにも難しそうな!・・・何てことないですよ。標準正規分布作った手法を使えばよいだけですから。解析したいデータXiから平均値μを引いて標準偏差で割るだけです、簡単明快なり。やってみるのが早いです。先ほどのデータを使ってみましょう。平均値μ=100g、標準偏差2gのパンの集団がありました。この中の1つのパンがタマタマ104gだったらこのパンのZ値はいかに?
Z=(Xi-μ)/σなので(104-100)÷2となり、計算してみるとZ=2と求まりました。はたしてこの2なる値が標準正規分布のどこに当たるのか?・・・ですね。エクセルではZ値に関する関数が2つ用意されています。その1つが=NORMSDIST(Z)でそのZ値での確率を出します。試しにZを0として計算(=NORMSDIST(0)と入力)してみますと0.5となります。これはZ値=0までの累積確率を表しています。Z値はマイナス無限(-∞)からそのZ値までの斜線で示した部分の面積、図で左半分の面積ですね。
Z変換
Z=0はちょうど真ん中ですのでこれを実際の製品分布に当てはめれば平均値になるでしょう。では今度は先ほど求めたZ値の2を入れてみます。エクセルで=NORMSDIST(2)と入力してエンターキーを押しましょう。答えは0.9772と帰ってきます。これを見るとマイナス∞からZ値=2までの所で約97.7%が入ってしまいますので2は右端の裾野にあることが分かります。残り右側の部分は全体が確率1なので1-0.9772≒0.0228です。ここで言えることは軽い方から104gまでののパンができる確率は97.7%でそれより重いパンができる確率はたったの2.28%と言うことです。ここで試しにZ値-2として計算してみると今度は左裾野の面積は0.0228で先ほどと同じ値になり、両端合計すると0.0456です。1-0.0456=0.954なので正規分布の性質で述べた平均値μ±2σのデータ全体の95.4%が入ると言うお話はここで確認できました。=NORMSDIST(Z)はそのZ値でのマイナス∞からの累積確率を出してくれるので便利です。今度は99gから102gまでのパンができる確率を計算してみます、ちょっと統計解析っぽくなってきました。99gと102gのZ値を求めます。それぞれのZ値は(99-100)/2=-0.5、(102-100)/2=1となります。エクセル関数で累積確率はそれぞれ0.3085と0.8413と求まりました。では99g~102gまでのパンができる確率は?・・・これらの確率はマイナスう∞からの累積確率なので引き算っすればよいことになります。下の図を参照してください。

Z変換の説明図
よって0.8413-0.3085=0.5328で約53.3%の確率であることが求まりました。これがZ変換と言うもので標準正規分布の何処にあたるかを正規化して求めるようなものです。エクセルではもう一つ=NORMSINV(確率)と言う関数が用意されています。これは先ほどの関数の逆で累積確率からZ値を求める時に使います。ちょっと確認したい場合などに使ってください。ただしZ値は分散が既知の場合であることは忘れないでくださいね!データ数nが多ければ(できれば30個以上かな?)気にしなくとも誤差は小さくなります。

モノづくりへ応用する-の話:
日本はとっくにモノづくり大国ではなくなりました、今は中国でしょう!大局的には産業構造転換なので余り問題視する必要はないと思ってます。有望で必要な産業へ適格な人材がスムーズに流れるようにすることです。製造業も92年の1600万人あまりをピークに現在は1000万人を切ってしまいました。我が茨城県民人口の2倍近い600万の人達は別の職業に就いたか海外へ出て行ったか、はたまた失業したかですね。自然退職者もいるでしょうから一概には言えませんが・・・しかしモノづくりは無くらないので生産に関する技術やノウハウは習得、改良し伝えてゆかなくてはなりません。ここでは生産管理への応用をみてみましょう。正規分布の性質で平均値μ±3σの幅に全データの99.7%が入るということを利用します。これは分布の両端を除いた部分ですから左側の裾野(マイナス)側は0.15%で右側(プラス)側で0.15%、合計で0.3%と言うことです。小さ目に出来てしまうのも大き目に出来てしまうのも共に確率は0.15%です。何かの製品を1000個作って997個は平均値μを中心にした6σの幅の中に入り外れはたった3個ですから、これは滅多に起きないことが起きたと考えます。そこで決められた時間で定期的にデータを取ってグラフに記入して行きます。このグラフは平均値μを中心線として±3σに線を引き、これを管理限界線とします(下図参照)。

正規分布を利用し管理図にする
得られたデータを管理図にプロットし上下に引いた管理限界線に近づいたり、これを越えた場合には異常とし生産を一時止めたりして原因を追究します。一方生産を続ければデータは蓄積されてきますので平均値や標準偏差は変化します。従って管理図は適当な時期に更新します。管理図のお話は別章のQC7つ道具で解説します。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

w

%s と連携中