データ分析の目的は、集めた資料の傾向や特徴を把握し、そこから考察を行うことである。
度数分布表: データをいくつかの階級に分け、各階級に属するデータの個数(度数)をまとめた表。
階級の幅: 各階級の大きさ。
階級値: 各階級の真ん中の値。
相対度数: 全体の度数に対する、その階級の度数の割合。
ヒストグラム(柱状グラフ): 度数分布表をグラフにしたもので、各階級の度数を長方形の棒で表す。データの分布の偏りを視覚的に捉えるのに役立つ。
代表値: データ全体の傾向を1つの数値で代表して表す値。
平均値 (Mean): 全てのデータの値を合計し、データの個数で割った値。
中央値 (Median): データを大きさ順に並べたとき、ちょうど真ん中にくる値。外れ値の影響を受けにくい。
最頻値 (Mode): データの中で最も度数が多い値。
データから傾向を読み取ることは、物事を判断したり、予測を立てたりするために利用される。
散らばりの程度: データが平均値の周りにどれだけ集中しているか、あるいは散らばっているかを分析する。
傾向の比較: 複数のグループのデータを度数分布表やヒストグラムで比較し、その特徴の違いを分析する。
確率とは、ある事柄が起こるとき、その起こりやすさの程度を数値で表したものである。
ある試行(実験や観察)を行ったときに、起こりうるすべての場合の数が同様に確からしい(どれも同じ程度に起こりやすい)と仮定できる場合、確率は以下の公式で求められる。
確率は常に 0以上1以下 の値をとる。(0≦確率≦1)
確率が1:必ずその事柄が起こる。
確率が0:絶対にその事柄は起こらない。
確率を求めるためには、まずすべての場合の数と、目的に合った場合の数を正確に数える必要がある。
樹形図: 起こりうるすべての場合を、枝分かれした図(樹形図)で書き出すと、数え間違いを防ぎやすい。
組み合わせと順番:
順番を考慮する場合: 例:サイコロを2回振るときの目の出方 (6×6 = 36通り)
順番を考慮しない場合: 例:A, B, C の3人から2人を選ぶ組み合わせ
余事象の確率: ある事柄 Aが起こらない確率を、事柄 $A$ の余事象の確率という。