Các biện pháp phân tán

Sau khi đọc bài viết này, bạn sẽ tìm hiểu về các biện pháp phân tán khác nhau được sử dụng trong nghiên cứu xã hội.

Trong nghiên cứu xã hội, chúng ta thường muốn biết mức độ đồng nhất và không đồng nhất giữa những người trả lời liên quan đến một đặc điểm nhất định. Bất kỳ tập hợp dữ liệu xã hội nào cũng có các giá trị có thể mô tả tính không đồng nhất. Tập hợp dữ liệu xã hội thường được đặc trưng bởi tính không đồng nhất của các giá trị.

Trong thực tế, mức độ mà chúng không đồng nhất hoặc khác nhau giữa chúng, có tầm quan trọng cơ bản trong thống kê. Các biện pháp của xu hướng trung tâm mô tả một đặc điểm quan trọng của một tập hợp dữ liệu thông thường nhưng chúng không cho chúng ta biết bất cứ điều gì về đặc tính cơ bản khác này.

Do đó, chúng ta cần các cách đo lường sự không đồng nhất - mức độ phân tán dữ liệu. Các biện pháp cung cấp mô tả này được gọi là các biện pháp phân tán hoặc biến thiên. Ba phân phối sau đây được hiển thị trong Hình 18.4 sẽ minh họa tầm quan trọng của việc đo lường sự phân tán của dữ liệu thống kê.

Phân phối giá trị trung bình cho các mẫu có kích thước khác nhau :

Có thể thấy rằng giá trị trung bình số học của cả ba đường cong trong hình trên là như nhau, nhưng phân phối các giá trị được mô tả bởi đường cong A cho thấy ít biến thiên (phân tán) hơn so với mô tả bởi đường cong B, trong khi đường cong B có ít biến đổi hơn so với đường cong được hiển thị bởi đường cong C.

Nếu chúng ta chỉ xem xét thước đo của xu hướng phân phối trung tâm, chúng ta sẽ bỏ lỡ một sự khác biệt quan trọng giữa ba đường cong. Để hiểu rõ hơn về mô hình của dữ liệu, chúng ta cũng phải lấy thước đo độ phân tán hoặc độ biến thiên của dữ liệu, bây giờ chúng ta chuyển sang xem xét các biện pháp phân tán khác nhau.

Phạm vi:

Phạm vi được định nghĩa là sự khác biệt giữa các giá trị cao nhất và thấp nhất: Về mặt toán học,

R (Phạm vi) = M n - M L

Trong đó M n và M l là giá trị cao nhất và thấp nhất. Do đó, đối với tập dữ liệu: 10, 22, 20, 14 và 14, phạm vi sẽ là chênh lệch giữa 22 và 10, tức là 12. Trong trường hợp dữ liệu được nhóm, chúng tôi lấy phạm vi là chênh lệch giữa các điểm giữa của cực trị các lớp học. Do đó, nếu trung điểm của khoảng thấp nhất là 150 và điểm cao nhất là 850, thì phạm vi sẽ là 700.

Ưu điểm duy nhất của phạm vi, biện pháp phân tán hiếm khi được sử dụng, là nó có thể dễ dàng tính toán và dễ hiểu. Mặc dù có lợi thế này, nó thường không phải là một biện pháp phân tán rất hữu ích; Hạn chế chính của nó là nó không cho chúng ta biết bất cứ điều gì về sự phân tán của các giá trị là trung gian giữa hai thái cực.

Phạm vi bán tứ phân hoặc độ lệch tứ phân vị:

Một biện pháp phân tán khác là phạm vi bán tứ phân vị, thường được gọi là Độ lệch tứ phân vị. Các phần tư là các điểm phân chia mảng hoặc chuỗi giá trị thành bốn phần bằng nhau, mỗi phần chứa 25 phần trăm của các mục trong phân phối. Các phần tư sau đó là giá trị cao nhất trong mỗi bốn phần này. Phạm vi giữa các phần tư là sự khác biệt giữa các giá trị của các phần tư thứ nhất và thứ ba.

Do đó, trong đó và Q 1 và Q 3 là viết tắt của tứ phân vị thứ nhất và thứ ba, phạm vi bán tứ phân vị hoặc độ lệch tứ phân vị được đưa ra theo công thức = Q 3iêuQ 1/2

Tính toán độ lệch tứ phân vị:

Độ lệch tứ phân là một thước đo tuyệt đối của sự phân tán. Nếu độ lệch tứ phân vị được sử dụng để so sánh độ phân tán của chuỗi thì cần phải chuyển đổi số đo tuyệt đối thành hệ số độ lệch tứ phân vị.

Độ lệch trung bình :

Độ lệch phạm vi và tứ phân vị chịu các nhược điểm nghiêm trọng, nghĩa là, chúng được tính bằng cách chỉ xem xét hai giá trị của một chuỗi. Do đó, hai biện pháp phân tán này không dựa trên tất cả các quan sát của loạt bài. Kết quả là, thành phần của bộ truyện hoàn toàn bị bỏ qua. Để tránh khiếm khuyết này, sự phân tán có thể được tính toán có tính đến tất cả các quan sát của chuỗi liên quan đến một giá trị trung tâm.

Phương pháp tính độ phân tán được gọi là phương pháp trung bình độ lệch (độ lệch trung bình). Như tên cho thấy rõ ràng, đó là trung bình số học của độ lệch của các mặt hàng khác nhau từ một thước đo của xu hướng trung tâm.

Như chúng ta đã biết, tổng độ lệch so với giá trị trung tâm sẽ luôn bằng không. Điều này cho thấy rằng để có được độ lệch trung bình (về giá trị trung bình hoặc bất kỳ một trong các giá trị trung tâm), chúng ta phải bằng cách nào đó hoặc bằng cách khác loại bỏ bất kỳ dấu hiệu tiêu cực nào. Điều này được thực hiện bằng cách bỏ qua các dấu hiệu và lấy giá trị tuyệt đối của sự khác biệt.

Trong ví dụ giả thuyết của chúng tôi, giá trị trung bình của số 12, 14, 15, 16 và 18 là 15. Điều này ngụ ý rằng sự khác biệt của 15 từ mỗi số này, bỏ qua các dấu hiệu và sau đó thêm kết quả, chúng ta sẽ nhận được tổng số sai lệch.

Chia cho 5, chúng tôi nhận được:

= 1.6 (trong đó | d | là viết tắt của tổng độ lệch tuyệt đối).

Do đó, chúng tôi có thể nói rằng trung bình điểm số khác với trung bình là 1.6.

Tính toán độ lệch trung bình trong ngày kết hợp (Quan sát riêng lẻ):

Tính toán độ lệch trung bình trong Chuỗi liên tục:

Hệ số sai lệch trung bình :

Để so sánh độ lệch trung bình của chuỗi, hệ số sai lệch trung bình hoặc độ lệch trung bình tương đối được tính toán. Điều này có được bằng cách chia độ lệch trung bình cho thước đo của xu hướng trung tâm mà từ đó độ lệch được tính toán. Như vậy

Hệ số trung bình. Độ lệch / X

Áp dụng công thức này cho ví dụ trước, chúng ta có,

Hệ số sai lệch trung bình = 148/400 = 0, 37

Độ lệch chuẩn :

Biện pháp phân tán hữu ích và thường xuyên nhất là độ lệch chuẩn hoặc độ lệch bình phương trung bình gốc về giá trị trung bình. Độ lệch chuẩn được định nghĩa là căn bậc hai của giá trị trung bình số học của bình phương độ lệch về giá trị trung bình. Tượng trưng

= = 2d 2 / N

Trong đó (chữ Hy Lạp Sigma) là viết tắt của độ lệch chuẩn, Σd 2 cho tổng bình phương độ lệch được đo từ giá trị trung bình và N cho số lượng vật phẩm.

Tính toán độ lệch chuẩn trong loạt các quan sát riêng lẻ:

Phương pháp cắt ngắn:

Tính toán độ lệch chuẩn trong chuỗi rời rạc :

Trong một chuỗi rời rạc, độ lệch so với trung bình giả định được tính toán đầu tiên và nhân với tần số tương ứng của các mặt hàng. Các độ lệch được bình phương và nhân với tần số tương ứng của các mặt hàng. Các sản phẩm này được tính tổng và chia cho tổng tần số. Độ lệch chuẩn được tính theo công thức sau:

Hình minh họa sau đây sẽ giải thích công thức:

Tính toán độ lệch chuẩn trong một chuỗi liên tục :

Trong một chuỗi liên tục, các khoảng thời gian của lớp được biểu thị bằng các điểm giữa của chúng. Tuy nhiên, thông thường các khoảng thời gian của lớp có kích thước bằng nhau và do đó, độ lệch so với trung bình giả định được biểu thị bằng đơn vị khoảng thời gian của lớp. Ngoài ra, độ lệch bước được đưa ra bằng cách chia độ lệch cho độ lớn của khoảng thời gian của lớp.

Do đó, công thức tính độ lệch chuẩn được viết như sau:

trong đó tôi là viết tắt của yếu tố chung hoặc độ lớn của khoảng thời gian của lớp.

Ví dụ sau sẽ minh họa công thức này:

Hệ số biến thiên:

Độ lệch chuẩn đại diện cho đo lường độ phân tán tuyệt đối. Cũng cần phải đo độ phân tán tương đối của hai hoặc nhiều phân phối. Khi độ lệch chuẩn có liên quan đến giá trị trung bình của nó, nó đo độ phân tán tương đối. Karl Pearson đã đưa ra một biện pháp đơn giản về độ phân tán tương đối thường được gọi là hệ số biến thiên.

Hệ số biến đổi của vấn đề trong Bảng 18.47 là: