Excel(エクセル)のデータ分析機能とは?導入〜具体的なやり方まで徹底解説!
仕事上で何かと使うシーンの多い「Excel(エクセル)」。そんなExcelは、データ分析にも活用できる便利なツールです。
本記事では、Excelのデータ分析機能の紹介、使うメリット・デメリット、導入の方法、データ分析のやり方、使用時の注意点をお伝えしつつ、分析ツール機能にないデータを分析したいときの対処法についてそれぞれ解説します。
データを扱う仕事をする方、Excelのデータ分析機能を導入、活用したい方はぜひご覧ください。
目次
Excel(エクセル)の分析ツール機能とは?
Excelの分析ツール機能とは、データを指定するだけで集計、表作成、グラフ化などをおこなえるものです。関数の記述などは不要で、簡単にデータの分析ができます。
Excelでは「統計学的および工学的分析を行うためのデータ分析ツール」と紹介されていますが、初期設定のままでは表示されないため導入作業が必要です。
データ分析機能の導入方法については本記事内の「分析ツール機能を導入する手順」で解説しているので、気になる方は先にご覧ください。
データ分析ツール機能のメリット
Excelの分析ツールを使うメリットには、主に以下のようなことが挙げられます。
- 短時間で誰でも簡単にデータ分析ができる
- 汎用性の高い19種類のデータ分析に対応している
- 指定した値だけではなく、関連する指標の複数同時計算ができる
- データをもとにした表やグラフを短時間で正確に作成できる
それぞれ詳しく解説します。
短時間でデータ分析が可能になる
分析ツールをExcelに導入すれば、データ分析にかかる時間や手間を大幅に削減できます。
データ分析機能を使うときは、基本的に3ステップのみで作業が完了します。
- データを用意する
- 「データ」→「データ分析」→分析方法を選択して「OK」をクリック
- 必要な項目を選択して「OK」をクリック
関数や列の追加などの作業をしなくても、誰でも簡単に正確なデータ分析がおこなえるのはExcelにデータ分析ツールを導入する大きなメリットです。
19種類のデータ分析に対応できる
Excelのデータ分析ツールでは、以下の19種類のデータ分析が可能です。
- 相関
- 共分散
- 分散分析:一元配置
- 分散分析:繰り返しのある二元配置
- 分散分析:繰り返しのない二元配置
- ヒストグラム
- 基本統計量
- 指数平滑
- 移動平均
- 乱数発生
- F 検定:2標本を使った分散の検定
- フーリエ解析
- 順位と百分位数
- t 検定:一対の標本による平均の検定
- t 検定:等分散を仮定した2標本による検定
- t 検定:分散が等しくないと仮定した2標本による検定
- z 検定:2標本による平均の検定
- 回帰分析
- サンプリング
汎用性の高い分析方法に対応しているツールであるため、ほとんどのデータ分析作業に対応できることはExcelのデータ分析機能が持つ強みです。
関連指標の複数同時計算ができる
Excelのデータ分析機能なら、データの関連指標を複数同時に計算できます。
一度の分析に対し、1つの値を出力するだけではなく関連する複数の指数、表、グラフを出力できるため欲しいデータを抽出しやすくなります。
一度の作業でさまざまな視点からデータを分析し、値、表、グラフを出力できるのはExcelのデータ分析機能を使うメリットです。
表やグラフを正確に作成できる
Excelのデータ分析機能を使えば、あらゆるデータから正確な表やグラフを作成できます。
手動でグラフや表を作る場合、細かな調整などに時間がかかったりミスをしてしまったりといったデメリットがあります。
そこでデータ分析機能を使えば、元のデータが間違っていない限り正確な表やグラフを作成できます。
時間短縮ができるだけでなく正確性も、Excelのデータ分析機能を使うメリットです。
データ分析ツール機能のデメリットはある?
便利でメリットの多いExcelのデータ分析機能ですが、3つだけデメリットがあります。
- あらかじめ設定されていない分析方法には対応していない
- 数十万行など、膨大なデータを使用するとExcelがフリーズしてしまう
- 一度おこなった作業が残らないため2回目も同じ作業が必要
以下では、Excelのデータ分析機能を使う前に知っておきたいデメリットについて詳しく解説します。
設定されていない分析はできない
Excelのデータ分析機能には19種類の分析方法が用意されていますが、あらかじめ設定されていない他の分析方法には対応していません。
また、カスタムして分析方法を追加することも出来ない点はデメリットと言えるでしょう。
例えば、因子分析(※)、主成分分析といった内容はExcelのデータ分析機能では対応できません。
※因子分析:データに潜む共通要素を探る分析方法のこと
データの大きさによってはExcelがフリーズしてしまう
Excelに読み込ませるデータが大きすぎると、データ分析機能を使う際にExcelがフリーズしてしまうことがあります。
例えば、メモリが18GBのPCで分析ツールを使った場合、1つのデータでも20万行を超えるとExcelがフリーズしてしまいます。
Excelはもともと100万行程度までしかデータを格納できないソフトであるため、数十万行のデータに関数を用いるなど、作業量を増やしてしまうとパフォーマンスが落ちてしまうのです。
Excelがフリーズしたり落ちたりすると、データやシートが消えてしまうこともあるのでデータの大きさには注意しましょう。
一度おこなった作業が残らない
Excelのデータ分析機能を使ってデータを抽出した場合、参照元のデータが更新されてもシート内の分析結果が更新されないというデメリットがあります。
データ分析ツールでデータ分析や値、表、グラフの抽出をしたシートのデータが更新された場合、その都度データ分析ツールを用いた作業が求められます。
短期間でデータが更新されるものを分析した場合は、データ分析ツールは使わず関数を使った指標計算を使うのがおすすめです。
参照するデータの更新頻度などによって、データ分析ツールと関数を使った指標計算を上手く使い分けましょう。
分析ツール機能を導入する手順
Excelに分析ツールを導入する方法は、OSによって異なります。ここでは、WindowsのExcelに分析ツールを導入する手順を画像付きで解説します。
Windowsで分析ツール機能を導入する手順
WindowsでExcelにデータ分析機能を追加する方法を画像をもとに解説します。
1.Excelを起動してシートを開く
まずはExcelを起動し、空のシートを開けます。左上の「ファイル」をクリックしてください。
2.「ホーム」>「その他」>「オプション」をクリック
「ファイル」をクリックして画面を切り替え、左下「その他」から「オプション」を選択しましょう。
3.画面左下の「アドイン」をクリック
オプション画面が表示されたら、左側下部にある「アドイン」をクリックします。
4.画面下にある「設定」をクリック
続いて、画面下部の「設定」をクリックしてください。
5.「分析ツール」のチェックボックスをチェックして「OK」をクリック
設定画面に表示される「分析ツール」にチェックを入れ、「OK」をクリックしたら設定は完了です。
6.Excel上のツールバーから「データ」>「データ分析」を確認
最後にシート編集画面に戻り、上部のツールバーから「データ」を選択しましょう。ツール内右に「データ分析」が追加されていることを確認できれば、導入は完了です。
分析ツール機能を使ったデータ分析のやり方一覧
実際にExcelのデータ分析ツールを用いる方法を、画像付きでそれぞれ解説します。
ここでは、架空の商店の売上などを可視化するケースを想定し、以下の内容についてExcelのデータ分析ツールを用いた分析をおこないます。
分析手法 | わかること・例 |
---|---|
基本統計量 | データの全体像 |
移動平均 | 直近数か月の売上傾向など |
ヒストグラム | 一回あたりの購買金額の分布 |
相関 | 曜日と商品の関係性 |
F検定t検定(分散が等しくないと仮定した2標本による検定) | 2つの新商品の売上の差 |
分散分析(一元配置) | 複数商品の売上の差 |
分散分析(繰り返しのない二次元配置) | 曜日と商品の関係性 |
回帰分析 | 売上にもっとも影響している施策 |
基本統計量
基本統計量では、データの全体像を掴めます。
Excelのデータ分析ツールにおける基本統計量では、以下の項目を一括で出力することが可能です。
- 平均値
- 標準誤差※
- 中央値 (メジアン)
- 最頻値 (モード)
- 標準偏差※2
- 分散※3
- 尖度(せんど)※4
- 歪度(わいど)※5
- 範囲※6
- 最小値
- 最大値
- 合計値
- データの個数
※標準誤差とは、母集団から抽出した標本から平均を求めるとき、標本平均の値が母平均に対してどれくらいバラついているかを示すデータ
例えば、全国の小学校の生徒数の増減を調査するとなった時、全ての小学校(=母集団)を調査するのは大変なので、一部の都道府県の小学校(=抽出した標本)に絞って調査・推定した場合、調査結果が実際に全ての小学校を調査した場合の結果とは一致しない(=誤差が生じる)ことがあります。この誤差がどのくらいあるのかを示すデータが標準誤差です。
※2:標準偏差とは、データの平均値から見たバラつきや散らばり具合を示すデータ
※3:分散とは、データが平均の周りでどのくらいバラついているのかを示すデータ
※4:尖度(せんど)とは、分布の鋭さ、偏りなどを示すデータ
分布の偏りが少ないほど尖度の値も小さくなる。(=分布が対称)
※5:歪度(わいど)とは、分布において左右の偏り、非対称度を示すデータ
偏りが少ないほど歪度の値も小さくなる。(=分布が対称)
※6:範囲とは、対象となるデータが、どの値からどの値までの範囲にあるかを示す値
架空の商店を例に、実際に基本統計量を分析してみましょう。
ここでは日付、商品Aの売上、商品Bの売上をシートに記入しました。データを表示させたら「データ」>「データ分析」で「基本統計量」を選択してOKをクリックします。
「入力元」の「入力範囲」では、商品A、商品Bの売上の部分をすべて選択します。(↑マークをクリックすると、実際の表から直接範囲を選択できます。)
「出力オプション」では、「出力先」で出力したデータの表示場所を指定し、「統計情報」にチェックを入れてみましょう。
「OK」をクリックすると、シートにデータ分析の結果が出力されます。
移動平均
移動平均では、値の推移傾向を見やすくすることができます。
売上の推移をグラフにして、全体の状況を把握しやすくするために用いられることが多いデータ分析手法です。
商品Aの売上推移を示してみましょう。
「データ」>「データ分析」をクリックして、「移動平均」を選択して「OK」をクリックします。
「入力範囲」で商品Aの売上を選択し、「出力先」を指定したら「グラフ作成」にチェックを入れてから「OK」をクリックします。
商品Aの売上が、折れ線グラフで表示されました。
今回の場合、F2に表示されている#N/Aは計算に必要なデータが不足しているためエラー表示となります。
またF行列は、商品の移動平均を示しています。
ヒストグラム
ヒストグラムでは、1回あたりの購買金額の分布をチェックできます。
値がどこに密集しているのか把握したいときは、ヒストグラムを活用しましょう。
ヒストグラムでは、売上の他に「データ区間」を100刻みなどで設定したデータも用意してください。今回は500刻みのデータ区間を用いてヒストグラムを使ってみます。
「データ」>「データ分析」で「ヒストグラム」を選択して「OK」をクリックします。
「入力範囲」では商品Aの売上を、「データ区間」では500ごとに設定したデータ区間の数値をそれぞれ選択してください。
出力先の場所を指定して「グラフ作成」にチェックを入れたら「OK」をクリックします。
商品Aの売上が、ヒストグラムとして表示されました。
相関
相関は、データ間の変動の一致を調べるためによく用いられる分析手法です。
例えば、商品の売上と気温などの相関関係を調べたいときに使います。
ここでは、商品A、商品Bの売上と気温の相関について調べてみましょう。
「データ」>「データ分析」で「相関」を選択して「OK」をクリックします。
「入力範囲」では「商品A」「商品B」「気温」のすべてを選択し、「先頭行をラベルとして使用」にチェックを入れましょう。
「出力先」で結果の表示場所を指定して「OK」をクリックします。
商品A、商品B、気温の相関についての結果が表示されました。
相関では、以下のように結果を読み解きます。
1に近い | 正の相関関係あり |
0に近い | 相関関係なし |
-1に近い | 負の相関関係あり |
今回はすべての数値が四捨五入して0になるような結果だったため、気温と商品A、商品Bの売上に相関関係はほとんどないと考えられます。
F検定
F検定では、2つの対象の平均値に関して「偶然とは言えない差」があるのかを調べます。商品Aと商品Bを例に、売上平均が高いほうを断定するための分析をt検定を用いて調べてみましょう。
F検定は比較するデータの分散(バラつき)が等しいかを検定する手法です。
F検定
今回は、商品Aと商品Bの売上に関して指定する期間での両者の売上のバラつきが同程度かどうか確認します。
まず、「データ」>「データ分析」から「F検定(2標本を使った分散の検定)」を選択します。
「変数1の入力範囲」では商品A、「変数2の入力範囲」では商品Bの売上をそれぞれ選択します。このとき「商品A」「商品B」のセルも選択して「ラベル」にチェックを入れることで、分析結果が見やすくなるので使ってみましょう。
「出力先」を指定したら「OK」をクリックすると、分析結果が表示されます。
P値が0.05よりも大きい場合、「分散に差はないと見なせる」というのが基本的な読み方です。
今回はP値が0.0001…と0.05より小さいため、分散に差があると見なせます。
分散分析(一元配置)
分散分析は、3つ以上のデータに対し平均値に差があるのか確かめるために使われる手法です。
分散分析(一元配置)では、分散の大きさを用いてそれぞれの平均に違いがあるのか調べます。
分散分析には一元配置と多元配置があり、「○元」は要因の数のことを指しています。商品の売上平均のみであれば一元配置、男性客と女性客に分けた売上平均なら二元配置といった意味です。
【一元配置の例】商品の売上
商品A | 商品B | 商品C |
---|---|---|
¥3,000 | ¥3,750 | ¥3,500 |
【二元配置の例】客属性(性別)
商品A | 商品B | 商品C | |
---|---|---|---|
男性 | ¥1,500 | ¥1,750 | ¥2,000 |
女性 | ¥1,500 | ¥2,000 | ¥1,500 |
今回は商品3つの売上平均を調べたいので、一元配置(売上のみ)で分析をおこないます。
商品A、商品B、商品Cのデータを用いて、「データ」>「データ分析」から「分散分析:一元配置」を選択して「OK」をクリックします。
「入力範囲」では商品A、商品B、商品Cのデータを「商品A」「商品B」「商品C」のセルごと選択し、「先頭行をラベルとして使用する」にチェックを入れます。
「出力先」でデータの出力場所を指定し、「OK」をクリックしてください。
出力された分析結果では、P値は4.20779E-25と表示されています。
データ分析を行った際、このように間にEが入った表示になることがあります。これは桁数が非常に多い数値であることを示しており、P値がかなり小さく、有意性があると判断できる表示です。
実際にこのE表示が0.05よりも小さいかどうかを確かめたい場合はCtrl+Shift+1で数値に変換することができます。今回変換したところ0と表示されたため、P値は0.05より小さいことが確かめられました。
有意性があることによって、3つの商品の売上平均には差があるとわかります。
表中の「平均」を見てみると、商品A、商品B、商品Cの順で売上平均が高くなっています。
分散分析(繰り返しのない二元配置)
分散分析(繰り返しのない二元配置)では、2つの要因の関係性を調べられます。
繰り返しの有無は、要因1つに対してデータが複数あるかどうかで選択します。
今回は、繰り返しのない二元配置の分散分析を用いて商品A、商品B、商品Cの曜日ごとの売上について調べてみましょう。
「データ」>「データ分析」から「分散分析(繰り返しのない二元配置)」を選択して「OK」をクリックします。
「入力範囲」で曜日と商品A、商品B、商品Cをすべて選び、「ラベル」にチェックを入れてください。
「出力先」で結果の表示場所を指定して「OK」をクリックしましょう。
今回の結果では「P値」が0.05より小さければ「その要因によって売上平均に差が出ている」ということが読めます。
今回は、曜日のP値は0.000636487で0.05を下回っており、商品もE表示のため0.05を下回る数値であったため、どちらも売上平均への影響がありそうです。
回帰分析
回帰分析は、他方のデータを使って一方のデータを予測する数式を推定できる分析手法です。
例えば、どんなプロモーション方法が売上に影響しているのか調べたい場合などに用いられます。
今回の架空の商店では、Instagram、X、TikTok、LINEでそれぞれプロモーションをおこなっていると仮定しましょう。
どのプロモーションがもっとも売上に貢献しているのか、回帰分析で調べてみます。
月ごとの売上とプロモーション投稿数のデータを用意し、「データ」>「データ分析」から「回帰分析」を選択して「OK」をクリックします。
「入力Y範囲」には売上、「入力X範囲」にプロモーション方法と投稿数をまとめて指定します。
「ラベル」にチェックを入れ、「一覧の出力先」を指定したら「OK」をクリックしてください。
分析結果が表示されました。
回帰分析の場合、以下の項目をチェックすれば結果を読み解けます。
- 重相関係数
→プロモーションと売上の関係値。1に近いほど強い相関がある。
- 決定係数(=重決定R2)
→プロモーションが売上の変動とどれくらい関連性があるのかを示す。0~1の範囲で示され、1に近いほど関連性が高い。
- 補正R2(自由度調整済み決定係数)
→プロモーションの数と売上数値の影響を考慮したもの。一般的に決定係数は項目などが増えることで数値が大きくなる(1に近づく)傾向があるため調整が必要となる。この調整を行うことでデータの正確性を保つことができる。
- 有意F値
→回帰モデル全体の有意性を示す。0.05未満であれば、プロモーションが売上に影響していることを示す。
- t値
- P値
今回の分析結果を読んでみましょう。
まず決定係数(表中の重決定R2)は0.220572368で売上の変動のうち22%を説明していることになります。今回は、あまり精度の高い結果は得られませんでした。
次に有意Fを見ると0.740763913で0.05より大きいため、回帰式は有用でないことがわかります。
続いてP値をチェックすると、どのプロモーションも0.05を上回っているため、売上の要因になっているとは言えなさそうです。
分析ツール機能を使うときの注意点
Excelのデータ分析ツールを使うときは、2つの注意点について理解しておきましょう。
- データが大きいと、処理に時間がかかる
- データの内容によって、エラーが出ることがある
それぞれ詳しく解説します。
処理に時間がかかることがある
Excelに入力したデータが大きくなればなるほど、データ分析ツールの動きは遅くなります。
とはいえ、2万行程度のデータならすぐに結果を得られます。数十万行のデータを処理する場合は処理に時間がかかる可能性があることを覚えておきましょう。
データによってエラーが出る
参照するデータ内に処理できない文字列がある場合などには、データ分析ツールがエラーを出してしまいます。
例えば、数値データに日本語の文字列が混ざっている場合などが挙げられます。
データが大きいと時間がかかるため、エラーによるやり直しは避けたいです。あらかじめ入力したデータに不備がないかチェックしたり、小範囲ごとに分析をおこなってエラーが出ないか確認することをおすすめします。
分析ツール機能にない分析手法の対処法
Excelのデータ分析ツールにない分析手法を行いたい場合は、必要なプログラミング言語を習得するのがおすすめです。
- Python(パイソン)
- R
- SPSS
- SAS
上記のようなツールを使えば、Excelのデータ分析ツールにない方法でもデータを分析することが可能になります。
コードを数行書いたり、ボタンをいくつか押すだけでデータ分析できる環境はたくさんあるので、自分がやりたいデータ分析を実行できるツールを探してみてください。
Pythonを用いたデータ分析については「Python データ分析」で詳しく解説します。ぜひ併せてご覧ください。
ITを基礎から学ぶなら、開志創造大学 情報デザイン学部(仮称・設置構想中)
開志創造大学 情報デザイン学部(仮称・設置構想中)は完全オンラインで卒業できる通信制大学です。
一度も大学に通わずに、「学士(情報学)」の取得が可能です。
授業は1回15分のオンデマンド授業のため、場所を問わず、スキマ時間を活用して自由に学修を進めることができます。
「先端ITコース」「ビジネスITコース」の2つの履修モデルから、自分のなりたい将来像に合わせてどちらかを選択し、基礎から応用までを身につけることができます。
情報技術の基礎から学べるため、プログラミング初心者の方でも安心して学び始めることができます。サポート体制も充実しており、分からないことがあれば原則24時間以内に回答が来るチャット形式で、いつでも質問ができます。
通信制大学に入って本格的に学び直しをしたいけれど、経済的な面で余裕がなく、補助金や助成金がもらえないと現実的に厳しいという方も多いと思います。
ですが、開志創造大学 情報デザイン学部(仮称・設置構想中)は年間学費25万円と、とても学びやすい学費設定のため、社会人の学び直しにぴったりです。
将来活かせるITスキルを身につけたいという方は、開志創造大学 情報デザイン学部(仮称・設置構想中)がおすすめです!
まとめ
Excel(エクセル)で使えるデータ分析ツール機能は、仕事などにおいてとても便利なものです。
短時間での正確なデータ分析、19種類の分析手法、関連指標の同時計算など、データ分析ツールを使うメリットはとても大きいと言えます。
一方、Excelのデータ分析ツールには19種類に含まれない分析手法に対応していないこと、データサイズによってはフリーズや処理落ちのリスクがあること、データが更新されるたびに分析処理を要することなどのデメリットもあります。
データの容量が大きいときやその他の分析手法を使いたいときはPythonなどの分析ツールを使うなど、場面に合わせた使い分けをしましょう。
またExcelのデータ分析ツールを導入する方法はWindowsとMacで異なること、データの大きさによって処理に時間がかかること、データに不備があるとエラーが出ることなどには注意が必要です。
本記事をよく読み、きちんと理解をしたうえでExcelのデータ分析ツール機能を導入、活用してください。