Cỡ mẫu: Bài toán và Toán

Sau khi đọc bài viết này, bạn sẽ tìm hiểu về vấn đề và toán học về cỡ mẫu.

Vấn đề về cỡ mẫu:

Bây giờ chúng ta sẽ xem xét một trong những vấn đề khó khăn nhất liên quan đến lấy mẫu, viz., Vấn đề về cỡ mẫu. Những gì nên có kích thước phù hợp của mẫu liên quan đến kích thước của dân số? Đây là một mẫu lớn như thế nào? Câu hỏi thường được các sinh viên nghiên cứu đặt ra. Xo câu trả lời quyết định cho câu hỏi này có thể được đưa ra.

Điều này là do câu hỏi về kích thước chỉ có thể được trả lời khi chúng ta lấy mẫu các yếu tố cho dân số theo cách mà mỗi yếu tố có cùng cơ hội được đưa vào mẫu, tức là khi chúng ta áp dụng thiết kế xác suất lấy mẫu.

Chỉ có thiết kế xác suất mới có thể xây dựng kế hoạch lấy mẫu đại diện. Do đó, làm cho nó có thể xây dựng các kế hoạch lấy mẫu đại diện.

Do đó, câu hỏi, mẫu nên lớn đến mức nào để trở thành đại diện cho dân số có kích thước được chỉ định? Vượt lên trước quy trình lấy mẫu xác suất. Không thực hiện thủ tục này, tính đại diện của mẫu lớn đến mức nào chỉ có thể là vấn đề của hy vọng và phỏng đoán.

Những quan niệm sai lầm chung về kích thước của mẫu là kích thước của vũ trụ mà từ đó mẫu được rút ra sẽ xác định số lượng các trường hợp cần thiết để tạo ra một mẫu đầy đủ hoặc đại diện của vũ trụ đó.

Chúng ta sẽ làm tốt để lưu ý ngay rằng sự nhấn mạnh phải được đặt không phải dựa trên số lượng các trường hợp trong vũ trụ mà là số lượng của chúng trong mẫu.

Toán học cỡ mẫu:

Câu hỏi thực tế cơ bản về cách thức Xác định cỡ mẫu sẽ mang lại mức độ chính xác mong muốn theo quy định của nhà nghiên cứu cho một nghiên cứu nhất định? Tất nhiên, vấn đề lấy mẫu là giống nhau trong tất cả các nghiên cứu, ví dụ, để ước tính hoặc dự đoán một cái gì đó về dân số trên cơ sở kiến ​​thức về một cái gì đó về mẫu.

Nhà nghiên cứu phải biết loại thống kê nào trên mẫu sẽ phục vụ mục đích, ví dụ: tỷ lệ phần trăm, trung bình, độ lệch chuẩn, v.v., cho ước tính như vậy. Điều này rất quan trọng vì các loại thống kê khác nhau rất hữu ích tùy thuộc vào mức độ chính xác mong muốn trong lợi nhuận mẫu mà lần lượt được cung cấp bởi các cỡ mẫu khác nhau.

Trung bình và tỷ lệ phần trăm là số liệu thống kê mong muốn phổ biến hơn, do đó, chúng tôi sẽ giải quyết cụ thể câu hỏi về cỡ mẫu tương ứng với mức độ chính xác mong muốn đối với mức trung bình và tỷ lệ phần trăm.

Vì mẫu do nhà nghiên cứu rút ra chỉ là một trong nhiều mẫu có thể có của vũ trụ mà anh ta có thể đã chọn, nên anh ta cần biết mình có thể dựa vào mẫu nào như là đại diện của 'vũ trụ' mà anh ta muốn biết một cái gì đó hoặc có tham khảo mà anh ấy muốn khái quát.

Anh ta cần phải biết mẫu nên lớn đến mức nào để cho anh ta một mức độ chính xác thỏa đáng. Tính toán này có thể được thực hiện bằng cách truy vấn toán học vì trong lấy mẫu ngẫu nhiên (thiết kế lấy mẫu xác suất) trong đó mọi vật phẩm trong vũ trụ đều có xác suất đưa vào mẫu, độ chính xác của dự đoán hoặc ước tính có liên quan đến căn bậc hai của số vật phẩm trong mẫu.

Trước khi tiến hành tính toán kích thước cần thiết của mẫu cho một nghiên cứu nhất định, trong thực tế, cần phải bảo mật một số thông tin sơ bộ về dân số hoặc vũ trụ.

Nếu nhà nghiên cứu có ý định sử dụng mẫu để ước tính số đo trung bình của đặc tính riêng trong vũ trụ, anh ta cần có một số ước tính sơ bộ về độ lệch chuẩn (độ phân tán) trong phân bố các giá trị của vật phẩm trong vũ trụ đối với đến đặc tính đã cho.

Nhà nghiên cứu biết về phạm vi của các giá trị (độ lây lan) đối với một đặc tính cụ thể trong vũ trụ có thể có được ước tính sơ bộ về độ lệch chuẩn bằng cách chia phạm vi này cho 6, vì độ lệch chuẩn của vũ trụ (hữu hạn) có thể cho tất cả các mục đích thực tế được thực hiện là khoảng 1/6 của toàn bộ các biến thể.

Nói cách khác, phạm vi phân tán của phân phối có thể được lấy để bao gồm 6 đơn vị độ lệch chuẩn. Thông tin sơ bộ về vũ trụ có thể có được bằng một nghiên cứu thí điểm, kết quả của các cuộc khảo sát trong quá khứ, từ các báo cáo được công bố bởi các cơ quan thống kê, tính toán của các chuyên gia trong lĩnh vực này, v.v.

Nhà nghiên cứu, trước khi tiến hành tính toán kích thước của mẫu, phải quyết định mức độ chính xác dự kiến ​​của các ước tính. Kỳ vọng này dựa trên mục đích chính của nghiên cứu.

Nói cách khác, nhà nghiên cứu phải quyết định:

(a) Có bao nhiêu lỗi trong ước tính được lấy từ mẫu (so với giá trị thực, nghĩa là giá trị của 'vũ trụ') có thể được chấp nhận (gọi là biên sai số hoặc giới hạn chính xác) và

(b) Với mức độ đảm bảo có thể nói rằng ước tính sẽ nằm trong phạm vi sai số này (được gọi là, mức độ tin cậy hoặc xác suất).

Tuy nhiên, sẽ là đúng đắn khi xem xét những điều này một cách chi tiết hơn, hiện tại:

(a) Ký quỹ sai số hoặc giới hạn chính xác:

Câu hỏi cơ bản ở đây là: 'Bao nhiêu phần trăm hoặc trung bình được bảo đảm từ nghiên cứu mẫu có khả năng thay đổi so với giá trị trung bình thực (của dân số) và vẫn có thể được dung thứ?' Nhà nghiên cứu có thể chấp nhận sai số 5% hoặc anh ta có thể yêu cầu độ chính xác trong giới hạn 2%.

Tất cả phụ thuộc vào cách anh ta muốn biết chính xác hoặc chính xác. Chúng ta hãy giả sử rằng nhà nghiên cứu muốn biết trước trong số hai ứng cử viên tranh cử trong cuộc bầu cử sẽ giành được ghế. Nếu cuộc bỏ phiếu sắp kết thúc, nhà nghiên cứu chỉ có thể chịu đựng một lỗi nhỏ hơn nếu anh ta thực sự chắc chắn.

Anh ta có thể, ví dụ, đặt sai số cho phép ở mức dưới 2%. Mặt khác, nếu cuộc bầu cử dường như là một phía và khá thiên vị đối với một ứng cử viên cụ thể, nhà nghiên cứu có thể dự đoán kết quả ngay cả với sai số lớn hơn nhiều trong ước tính.

Nếu khảo sát mẫu xảy ra cho thấy 60% phiếu bầu sẽ có lợi cho ứng cử viên, thì sai số cao tới 9% có thể được chấp nhận. Trong trường hợp này, ngay cả khi cuộc thăm dò mẫu đã rút ra mẫu không may nhất sai lệch 9% so với giá trị thực, giá trị thực vẫn sẽ là 51%, tức là cao hơn 1% so với 50% là điểm quan trọng.

Do đó, cả giá trị ước tính là 60% và giá trị thực 51% sẽ nằm trên điểm tới hạn (nghĩa là 50%) và dự đoán sẽ đáng tin cậy.

(b) Xác suất hoặc mức độ tin cậy:

Ngoài giới hạn về độ chính xác, nhà nghiên cứu cũng phải quyết định tham khảo nghiên cứu của mình, mức độ tin cậy mà anh ta muốn đặt trong các ước tính mẫu gần với ước tính thực sự nằm trong giới hạn của dung sai hoặc độ chính xác được đặt bởi anh cho việc học.

Trong một số tình huống, anh ta có thể muốn cực kỳ chắc chắn rằng các ước tính của mình (dựa trên mẫu) sẽ nằm trong 51% giá trị thực trong khi trong một số tình huống khác, anh ta có thể hài lòng với mức độ đảm bảo thấp hơn một chút.

Trong nghiên cứu khoa học xã hội, hai mức độ xác suất hoặc sự tự tin rất nổi tiếng và thường được sử dụng.

Một trong số đó là 0, 95 mức xác suất, nghĩa là, sẽ có 95 cơ hội trong số 100 rằng ước tính mẫu sẽ không vượt quá giới hạn dung sai hoặc biên sai số, và mức thứ hai là mức 0, 99, nghĩa là có khả năng trong 99 cơ hội trong số 100 ước tính mẫu sẽ không vượt quá biên sai số nhằm vào.

Mức độ tin cậy thậm chí có thể được đặt ở mức 0, 999, nghĩa là ước tính mẫu sẽ không lệch khỏi giá trị thực (của vũ trụ) vượt quá giới hạn chịu đựng trong 999 cơ hội trong số 1000. Đối với một số mục đích nhất định, nhà nghiên cứu có thể nhắm mục tiêu thấp và đặt mức xác suất ở mức 0, 67 (nghĩa là 2 trên 3).

Cơ hội mà một mẫu cụ thể được rút ra cho một nghiên cứu sẽ mang lại ước tính về vũ trụ nằm trong phạm vi sai số, phụ thuộc vào sự thay đổi giữa các mẫu có thể được rút ra từ vũ trụ. Nếu các giá trị được bảo đảm từ các mẫu có xu hướng sai lệch đáng kể so với giá trị thực, thì khả năng của bất kỳ giá trị mẫu đã cho nào nằm trong giới hạn sai số cho phép là kém.

Lỗi tiêu chuẩn là thước đo cho chúng ta biết cơ hội của mẫu nằm trong giới hạn cho phép là bao nhiêu. Đó là thước đo sự thay đổi trong ước tính lấy mẫu có thể được dự kiến ​​trong lấy mẫu ngẫu nhiên. Các mẫu ngẫu nhiên có xu hướng tuân theo quy luật xác suất và các ước tính mẫu có xu hướng tập trung xung quanh giá trị thực của vũ trụ.

Những ước tính này có thể được biểu diễn bằng một đường cong hình chuông hoặc bình thường. Điểm giữa của đường cong này biểu thị giá trị thực (của vũ trụ) và độ biến thiên hoặc độ lệch tối đa của ước tính mẫu ngẫu nhiên từ giá trị thực này gấp khoảng ba lần sai số chuẩn.

Do đó, lỗi tiêu chuẩn là khoảng 1/6 của toàn bộ phạm vi biến thể lấy mẫu ngẫu nhiên. Tuy nhiên, đối với tất cả các mục đích thực tế, lỗi tiêu chuẩn được lấy bằng 1/4 phạm vi biến thể, vì các biến thể cực đoan rất hiếm khi xảy ra.

Các bảng xác suất cho thấy 95 trong số 100 ước tính mẫu có thể được dự kiến ​​sẽ nằm trong giới hạn +2 và -2 lỗi tiêu chuẩn. Điều này có nghĩa là nếu chúng tôi đã đặt mức độ tin cậy hoặc xác suất của chúng tôi là 0, 95, thì vấn đề của chúng tôi là sẽ lấy một mẫu ngẫu nhiên có sai số chuẩn bằng ½ (một nửa) biên sai số của chúng tôi.

Đối với mức xác suất cao hơn, chúng ta sẽ phải vẽ một mẫu có lỗi tiêu chuẩn, đó là một phần nhỏ hơn của biên sai số.

Cần lưu ý rằng lỗi tiêu chuẩn trở nên nhỏ hơn (độ chính xác cao hơn) khi các mẫu lớn hơn. Để tăng gấp đôi độ chính xác, kích thước mẫu phải được nhân với 4, tức là tăng gấp bốn lần; để tăng gấp ba, kích thước mẫu phải được nhân với 9; tăng gấp bốn lần nó, bằng 16 và cứ thế.

Điều này chỉ có nghĩa là độ chính xác tăng khi căn bậc hai của số lượng các trường hợp trong mẫu. Các nhà thống kê đã chuẩn bị các bảng cho thấy xác suất ước tính mẫu đến trong các giới hạn lỗi tiêu chuẩn khác nhau.

Các giới hạn này thường được nêu là + (cộng) và - (trừ). Chẳng hạn, các bảng như vậy dễ dàng chỉ ra rằng 95% các ước tính mẫu ngẫu nhiên nằm trong giới hạn sai số chuẩn +1, 96 và .961, 96, khoảng 68% ước tính nằm trong giới hạn + 1 và -1 lỗi tiêu chuẩn và 99% các ước tính nằm trong phạm vi của các lỗi tiêu chuẩn +2, 57 và -2, 57, v.v.

Khi xem xét đầy đủ (1) biên sai số và (2) xác suất hoặc mức độ tin cậy, nhà nghiên cứu có thể tiến hành tính toán cỡ mẫu mong muốn. Mildred Parten đã đưa ra công thức sau đây để tính kích thước mẫu, khi thống kê được ước tính là tỷ lệ phần trăm. Đây rõ ràng là một biến thể chuyển đổi của một công thức lỗi tiêu chuẩn.

Kích thước mẫu = PC (100-PC) Z 2 / T 2

Trong công thức trên, PC có nghĩa là ước tính sơ bộ về tỷ lệ phần trăm (từ vũ trụ).

Z có nghĩa là số đơn vị lỗi tiêu chuẩn được tìm thấy (từ bảng xác suất thông thường) để tương ứng với mức xác suất bắt buộc.

T có nghĩa là biên sai số có thể được chấp nhận (5% hoặc 2%).

Parten đã đưa ra công thức sau đây để tính kích thước mẫu để dự đoán hoặc ước tính giá trị trung bình của vũ trụ liên quan đến một đặc tính cụ thể ở một mức độ tin cậy nhất định và nhằm vào một mức độ nhất định hoặc sai số hoặc giới hạn cho phép.

Cỡ mẫu = (δ + Z / T) 2

Trong đó 8 là viết tắt của ước tính sơ bộ về độ lệch chuẩn của vũ trụ.

Z là viết tắt của số đơn vị lỗi tiêu chuẩn tương ứng với xác suất hoặc mức độ tin cậy cần thiết.

Hãy để chúng tôi lấy một ví dụ cụ thể và tìm ra cỡ mẫu. Giả sử chúng tôi muốn ước tính thu nhập trung bình hàng năm của các gia đình sống ở một địa phương 'trung lưu' nhất định của một thành phố.

Giả sử, chúng tôi đã đặt tỷ lệ sai số của chúng tôi là Rs.100 / -, nghĩa là, chúng tôi sẽ chấp nhận ước tính mẫu trong phạm vi cộng hoặc trừ 100 so với giá trị trung bình thực của dân số đối với thu nhập. Giả sử chúng ta đã đặt xác suất hoặc mức độ tin cậy ở mức 0, 95.

Giả sử cũng từ một cuộc khảo sát được thực hiện vài năm trước, chúng tôi ước tính độ lệch chuẩn đối với thu nhập hàng năm của dân số (địa phương) là 1.500 rupee / -. Giá trị của Z, nghĩa là các đơn vị lỗi tiêu chuẩn tương ứng với xác suất 0, 95 là 1, 96.

Thay thế các giá trị này trong công thức đã cho ở trên, chúng ta có

Kích thước đơn giản = (500 × 1, 96 / 100) 2

= (9, 8) 2

= 95

Điều này có nghĩa là một mẫu ngẫu nhiên gồm 95 trường hợp (gia đình, là đơn vị mẫu) sẽ cho chúng ta ước tính giá trị trung bình của "vũ trụ" đã cho trong phạm vi sai số đã đặt và ở mức độ tin cậy hoặc xác suất mong muốn, tương ứng, của R. 100 / - và 0, 95.

Nếu chúng tôi thắt chặt biên độ lỗi và đặt nó ở mức R. 50 / -, số lượng các trường hợp trong mẫu, nghĩa là kích thước yêu cầu của mẫu sẽ lớn gấp bốn lần (tức là 380) so với kích thước được yêu cầu cho biên sai số trước đó (100 rupee /).

Nếu một địa phương khác được đặc trưng bởi tính đồng nhất lớn hơn về thu nhập và giả sử, do đó, độ lệch chuẩn trong điều khoản thu nhập chỉ là 100, kích thước của mẫu cho biên sai số trên sẽ thấp hơn nhiều.

Nói cách khác, việc sử dụng công thức minh họa cho bài học cụ thể, độ đồng nhất càng lớn thì mẫu yêu cầu càng lớn và độ chính xác mong muốn càng lớn, kích thước mẫu cần thiết càng lớn.

Việc sử dụng lặp lại các thuật ngữ như biên độ sai số và mức độ tin cậy và các biểu thức số khác của xác suất và kích thước mẫu, có thể có xu hướng tạo ấn tượng rằng kích thước mẫu được tính theo công thức sẽ đảm bảo độ chính xác mong muốn.

Tuy nhiên, cần nhớ rằng các mối quan hệ được hiển thị trong các bảng thống kê xác suất đại diện cho những kỳ vọng bình thường trong một mẫu ngẫu nhiên lý tưởng. Nhưng nhiều như việc lấy mẫu thực tế hiếm khi lý tưởng, các mối quan hệ được thể hiện trong các bảng không thể được dự kiến ​​sẽ giữ.

Khó khăn chung và hiếm có của việc lấy mẫu lý tưởng có thể khiến người ta nghi ngờ về kết quả chính xác theo mong đợi.

Tuy nhiên, điều này không có nghĩa là nhà nghiên cứu không nên sử dụng hoặc thích kích thước mẫu chính xác được tính toán dựa trên công thức xác suất. Trên thực tế, đây chính xác là những gì anh ấy nên làm bởi vì đó là đặt cược tốt nhất của anh ấy. Tuy nhiên, anh ta không nên nhấn mạnh vào kích thước chính xác này nếu những cân nhắc thực tế làm cho nó thiếu kinh nghiệm.

Một cách tiếp cận khác nhau đáng kể đối với vấn đề xác định cỡ mẫu mong muốn là 'kiểm tra độ ổn định'. Điều này bao gồm thu thập dữ liệu cho các mẫu con tương đối nhỏ và lưu giữ hồ sơ hoạt động phân phối lợi nhuận.

Khi sau một thời điểm, việc thêm nhiều mẫu phụ không làm thay đổi kết quả đáng kể, nhà nghiên cứu có thể cho rằng tổng số mẫu được rút ra cho đến nay đã trở nên đầy đủ, kích thước khôn ngoan. Nhưng thủ tục này có thể được coi là lãng phí thời gian vì nó có hiệu lực đối với một nhà nghiên cứu tham gia vào một loạt các cuộc khảo sát riêng biệt trải đều trong một khoảng thời gian đáng kể.

Người ta đã lập luận rằng quy trình này không kinh tế ở chỗ thu thập được nhiều lịch hơn mức thực sự cần thiết, vì việc giảm dần đến điểm ổn định gần đúng không thể được xác định chắc chắn cho đến khi đường cong duy trì mức độ trong một thời gian.

Nhưng điều này dường như không phải là một hạn chế nghiêm trọng khi so sánh với thực tiễn bảo thủ của nhiều nghiên cứu có uy tín, thu thập nhiều hơn số lượng vật phẩm cần thiết / tối thiểu như một mẫu.

Ưu điểm chính của loại thử nghiệm độ ổn định này là thay vì phụ thuộc vào các tính toán dựa trên thông tin sơ bộ, người ta chỉ cần tăng đơn vị cỡ mẫu tổng thể mà nó được quan sát là đủ. Việc kiểm tra theo kinh nghiệm xem lợi nhuận và dừng lại khi chúng ổn định có vẻ đơn giản và thuyết phục.

Mối nguy hiểm chính của thủ tục này nằm ở chỗ các mẫu phụ liên tiếp được thu thập không có khả năng lan rộng trong vũ trụ. Kết quả có thể ổn định mặc dù chúng không đại diện cho dân số.

Trong thực tế, mẫu phụ càng ít đại diện, càng có nhiều khả năng là thêm nhiều trường hợp để mang lại kết quả tương tự và từ bỏ sự xuất hiện của sự ổn định. Trừ khi mẫu phụ là một mặt cắt ngang của vũ trụ, sẽ không có mẫu siêu nhạy để quan sát sự ổn định tiếp cận.

Yêu cầu cơ bản của quy trình này là mẫu đại diện đang phát triển phải có sẵn để quan sát. Các chi phí và khó khăn trong việc thu thập các mẫu phụ liên tiếp được lan truyền trong vũ trụ là những lý do chính tại sao điều này không có khả năng là đại diện.

Thử nghiệm độ ổn định theo kinh nghiệm có thể rất hiệu quả, tuy nhiên, khi các mẫu phụ được rút ra và thu thập đúng cách. Phương pháp này phù hợp nhất cho các cuộc phỏng vấn - khảo sát trên các khu vực hoặc cộng đồng tương đối nhỏ như thị trấn hoặc thành phố bởi vì sau đó, không quá khó khăn hoặc tốn kém để biến mỗi mẫu phụ thành một mẫu ngẫu nhiên của dân số.

Một hình thức kiểm soát thực nghiệm tinh tế hơn so với kiểm tra độ ổn định là một sự phát triển tương đối gần đây được gọi là Phân tích tuần tự. Quy trình chung liên quan, ở đây, là tiếp tục thêm vào mẫu và đồng thời tiếp tục kiểm tra mẫu có ý nghĩa cho đến khi mẫu tối thiểu được tích lũy sẽ cung cấp mức ý nghĩa cần thiết.