おすすめコンテンツ
home

2015年10月5日

エクセルで使える“統計”を学ぼう

excel-statistics

エクセルは関数を使えば、計算するのが面倒な統計解析も簡単に行なえます。平均や最頻値といったものなら日常的に使っていますが、標準偏差や相関係数となるともう分からない…という方もいるのではないでしょうか。ここでは、Excel2013を使って、基礎的な統計関数と、その役割についてご紹介します。

平均値(AVERAGE)

複数の値から平均を求める時にはAVERAGE関数を使います。

excel-statistics-1

範囲選択を使って複数のセルを指定し、その中に入っている値の平均値を求めることができます。

excel-statistics-2

類似した関数「AVERAGEIF」は、条件を指定して平均値を求められる便利なものです。

excel-statistics-3

このように2箇所を指定して使います。

excel-statistics-4

画像では「一覧の中の男性の平均年齢」を求めるように関数を指定しています。

「範囲」には条件に指定する値が入っているセルを、
「条件」には「範囲」で指定した中から算出に使うものを、
「平均対象範囲」には平均値を求める範囲を、

それぞれ選択・入力します。なおセル番号、数値、計算式以外の「文字」を入力する時は半角のダブルクォーテーション “” で挟みます。

excel-statistics-5

「区分Aに該当する女性の平均年齢」のように範囲指定の条件を複数追加する場合は「AVERAGEIFS」関数を使います。

Excel2013では、AVERAGEIFS関数の引数入力画面は最初AVERAGE関数と同じく入力欄が2個しかありませんが、「平均対象範囲」「条件範囲1」「条件1」……と、入力欄の上から順に値を入れていけば、次の条件を設定する入力欄が自動的に追加されます。

中央値(MEDIAN)

対象を昇順で並べた際の中央値を求める時に使うのが「MEDIAN(メジアン)」関数です。

excel-statistics-6

中央値は平均値(AVERAGE)と混同されやすい統計上の数値です。

平均値は全体の数値を足して、等分したものを指します。全体を足したあとに等分するので、極端な数字が混ざっていると大きな影響を受けてしまいます。たとえば、「年収100万円、200万円、300万円、1000万円」の平均値(平均年収)は400万円ですが、年収400万円以下で生活する人が大半ですから、実態とかけ離れていますよね。

一方で中央値は、全体の中にある、真ん中の数値を取ります。上記の年収でいえば、中央値の導き方は「(200万円+300万円)/2」となり、250万円が中央値です。先ほどの400万円よりも実態に近い数値が出ていますね。

このように、中央値と平均値は使用する目的が似ていますが、数字全体に著しくかけ離れたものがある場合は、中央値を使う方が適切です。

こちらの画像を見ると、「¥8920」と「¥10,568」の平均である「¥9744」が返されています。平均とは大きな違いですが、どちらが実態に近いかといえば、中央値の方ですね。

excel-statistics-7

なおMEDIAN関数を使って偶数個の値を範囲選択すると、中央値が2個存在することになります(偶数は2で割り切れてしまうため”中央”がない)。この時は2個の中央値の平均が返されます。

excel-statistics-8

最大値(MAX) / 最小値(MIN)

対象範囲の中で最大の値を抜き出す時はMAX関数を使います。

excel-statistics-9

この一覧の中で最大値となる「¥57,745」が返されました。

excel-statistics-10

同じように、最小値を抜き出す時はMIN関数を使います。

excel-statistics-11

最小となる「¥256」が返されました。

excel-statistics-12

標準偏差(STDEV,STDEVP)

STDEV関数を使うと、指定した範囲の標準偏差の推定値を返します。

excel-statistics-13

「標準偏差」とは、統計対象の値(この場合範囲選択した部分)がその平均からどれだけ離れて分布しているかを表すものです。
(※Excel2010以降ではより精度が向上したSTDEV.Sという関数を使うことが推奨されています。こちらは対象に理論値や文字が含まれている場合、その場所を無視します)

excel-statistics-14

対象が標本ではなく母集団となる場合はSTDEVP関数を使います。
(※こちらも、Excel2010以降ではより精度が向上したSTDEV.Pという関数を使うことが推奨されています)

この2つの関数の違いは対象となる範囲に入っている値が「標本」か「母集団」かによります。

2つの関数は計算式も近く、データ数をnとした場合にSTDEV(STDEV.S)関数は分母が「n-1」、STDEVP(STDEV.P)は分母が「n」になります。

対象が標本(母集団の中の一部を抜き出したもの)か、それともすべての数値(母集団)かで使い分けることになります。

最頻値(MODE)

MODE関数を使うと、対象範囲内の値の中で最も頻繁に登場するもの(最頻値)を抽出します。

excel-statistics-15

画像では唯一3箇所に登場している「¥6,500」が返されました。

excel-statistics-16

相関係数(CORREL)

CORREL関数を使うと2つの値(または範囲)を比較し、相関係数を返します。

excel-statistics-17

「相関係数」とは統計学的指標の1つで、2つの対象の間の相関(類似性の度合い)を示すものです。

相関係数は1から-1の間の数字で返されます。返される値が1に近いほど正の相関関係と言い、-1に近いほど負の相関関係と言います。

正の相関関係は数字Aが大きければ、数字Bも大きくなる関係にあることを指しています。「駅からの距離が遠ければ、家賃は安くなる」ことを想像すると分かりやすいかと思います。

逆に負の相関関係は数字Aが大きければ、数字Bが小さくなる関係を指します。こちらは「築年数が経つほど、家賃は安くなる」ようなイメージです。

どちらも1、あるいは-1に近い数字ほど、強い相関関係を持っていますが、どのくらいの相関関係があるかは、下記の図を参考にしてください。

相関係数
相関の強さ
0.7>強い
0.4-0.7中間の強さ
0.2-0.4弱い
0.2<ない

Wikipediaより引用、数字は絶対値)

 

実際に交通費と食費の相関係数を見るとこのようになります。0.22なので、相関関係が無いとは言えませんが、ほとんど無視できるくらい弱いと判断できます。

excel-statistics-18

最後に

いかがでしょうか?

このような統計を使うことで、今まで分析しきれていなかったデータからも、新たな意味を見出だせるようになります。ぜひ「統計」を使って、データを活用してみてください。

おすすめコンテンツ

※1 Excelは、米国Microsoft Corporationの、米国およびその他の国における登録商標です。

※2 「エクセルサプリ」 は、独立のコンテンツであり、マイクロソフトコーポレーションと提携しているものではなく、また、マイクロソフトコーポレーションが許諾、後援、その他の承認をするものではありません。

利用者情報の外部送信について

ヒューマンリソシア
Copyright © 2015 Human Resocia Co., Ltd. All Rights reserved.
smp-menu
  • ヒューマンリソシア