12. 統計 – 集中趨勢的量度 (Measure of Central Tendency)

喺統計入面,要進行集中趨勢的量度,方法有好多。喺初中,我哋用嘅方法好簡單,只係比較吓唔同數據組嘅平均數、中位數、眾數、四分位間距等。

12.1         平均數 (Mean)

平均數是所有數據的總和除以數據的總數目所得的商,即

\(平均數 \bar{x}= \dfrac{(x_{1}+x_{2}+x_{3} + ⋯ + x_{n})}{n}\)

其中 \(\bar{x}\) 是平均數的符號,x、x2、x3等是第1、2、3個數據的值(共有n個)。

12.2         中位數 (Median)

中位數就是先把數據按大小順序排列後排喺“中間”的數據的值。

  • 如數據的數目n是奇數(單數),則第(n+1)/2 個數據是中位數。
    例如有7個數據,順序排好後第4個就是中位數。
  • 如數據的數目是雙數,則第n/2和第 (n/2 + 1)個這兩個數據的平均數是中位數。
    例如有8個數據,順序排好後第4和第5個數據的平均數是中位數。

12.3         眾數 (Mode)

眾數是指一組數據中,出現次數最多的數據的值。

12.4         求大量不分組數據的平均值、中位數及眾數

對於分組數據,一個數據出現的次數就是「頻數(Frequency)」。

 \(平均數 \bar{x}= \dfrac{(f_{1}x_{1}+f_{2}x_{2}+ ⋯ + f_{n}x_{n})}{f_{1} + f_{2} + f_{3} + … + f_{n}}\)

其中f、f2、f3等是各數據的頻數,而「f+f2+f3」則是數據的總數量 (好多時題目都會講我地知一共有幾多個數據的)。

  • 中位數可由頻數分佈表中間位置的的數據求得。
  • 眾數可由頻數分佈表中頻數最高的數據求得。

12.5         求大量分組數據的平均值、中位數及眾數組

所謂分組數據(Grouped Data)就是我們只知每組數據據的數量而不知當中各數據的值。例如「年齡由10至19歲的男生有5個」就是一組分組數據。

    • 我們可利用每組數據的組中點(Class Mark)來代表整組數據,從而求出全組數據的平均數。
    • 根據頻數分佈表繪畫累積頻數多邊形,一半的數據便是中位數。
    • 頻數分佈表中頻數最高的組別稱為眾數組(Modal Class)。

12.6         加權平均數

權(或權數)是用來表示一組數據中每一項目的比重。

\(加權平均數 = \dfrac{w_{1}x_{1}+w_{2}x_{2}+ … +w_{n}x_{n}}{w_{1}+w_{2}+w_{3}+⋯+w_{n}}  \)

\(\quad (x_{i} 是數據的值,w_{i} 是數據x_{i} 的權) \)

同學最常接觸的加權平均數應該是“成績表的平均分”。在計算平均分時,有些學校會把中文同英文的分數會“乘2”(即中、英文的權是2,其他科的權是1)。

  • 假設考試只考3科。一位學生的得分分別是中文80分、英文70分、數學60分;
  • \(加權平均分 = \dfrac{80×2+70×2+60}{2+2+1} = 72分\)

12.7         兩組數據的比較

  • 當A組數據的平均數、中位數及眾數都較B組數據高時,
    我們可以知道A組的數據整體上比B組大。
  • 當我們只掌握部分資料,或三個平均值不一致地較高或較低時,
    我們只能作出較有可能的判斷。

在不同的情況下,使用各平均值作比較有它的優點:

  • 當數據中沒有極端值時,平均數可以公平地量度集中趨勢。
  • 當數據中有極端值時,我們可以用中位數量度集中趨勢,原因是它不受極端值影響。
  • 當要着重於頻數最高的數據時,我們會用眾數(眾數亦不受極端值影響)。