8 loại lấy mẫu xác suất quan trọng

Bài viết này đưa ra ánh sáng về tám loại lấy mẫu xác suất quan trọng được sử dụng để tiến hành nghiên cứu xã hội. Các loại là: 1. Lấy mẫu ngẫu nhiên đơn giản 2. Lấy mẫu có hệ thống 3. Lấy mẫu ngẫu nhiên phân tầng 4. Lấy mẫu phân tầng theo tỷ lệ 5. Lấy mẫu phân tầng không cân xứng 6. Lấy mẫu phân bổ tối ưu 7. Lấy mẫu cụm 8. Lấy mẫu nhiều pha.

Loại # 1. Lấy mẫu ngẫu nhiên đơn giản:

Lấy mẫu ngẫu nhiên đơn giản là trong một ý nghĩa, chủ đề cơ bản của tất cả các mẫu khoa học. Đây là thiết kế lấy mẫu xác suất chính. Thật vậy, tất cả các phương pháp lấy mẫu khoa học khác là các biến thể của lấy mẫu ngẫu nhiên đơn giản. Một sự hiểu biết về bất kỳ quy trình lấy mẫu tinh chế hoặc phức tạp nào đều đặt ra trước sự hiểu biết về lấy mẫu ngẫu nhiên đơn giản.

Một mẫu ngẫu nhiên đơn giản được chọn bởi một quy trình không chỉ mang lại cho mỗi thành phần trong quần thể cơ hội được đưa vào mẫu như nhau mà còn giúp lựa chọn mọi trường hợp kết hợp có thể có trong cỡ mẫu mong muốn, đều có khả năng như nhau. Giả sử, ví dụ, một người có dân số sáu trẻ em, viz., A, B, C, D, E và F.

Sẽ có các trường hợp kết hợp có thể xảy ra sau đây, mỗi trường hợp có hai yếu tố từ dân số này, viz., AB, AC, AD, AE, AF, BC, BD, BE, BF, CD, CE, EF, DE, DF, và EF, nghĩa là, trong tất cả 15 kết hợp.

Nếu chúng ta viết mỗi kết hợp trên các thẻ có kích thước bằng nhau, hãy đặt các thẻ vào một giỏ, trộn kỹ và để một người bịt mắt chọn một, mỗi thẻ sẽ có cơ hội được chọn / bao gồm trong mẫu.

Do đó, hai trường hợp (cặp) được ghi trên thẻ do người bịt mắt nhặt được, sẽ tạo thành mẫu ngẫu nhiên đơn giản mong muốn. Nếu một người muốn chọn các mẫu ngẫu nhiên đơn giản gồm ba trường hợp trong tổng số sáu trường hợp trên, thì các mẫu có thể, mỗi trường hợp sẽ là ABC, ABD, ABE, ABF, ACD, ACE, ACF, ADE, ADF, BCD, BCE, BCF, BDE, BDF, BEF, CDE, CDF, CEF và DEF, nghĩa là, tất cả 20 kết hợp.

Mỗi kết hợp này sẽ có cơ hội lựa chọn như nhau trong mẫu. Sử dụng cùng một phương pháp, người ta có thể chọn một mẫu ngẫu nhiên đơn giản gồm bốn trường hợp từ dân số này.

Về nguyên tắc, người ta có thể sử dụng phương pháp này để chọn các mẫu ngẫu nhiên có kích thước bất kỳ trong dân số. Nhưng trong thực tế, nó sẽ trở nên rất cồng kềnh và trong một số trường hợp, một nhiệm vụ bất khả thi là liệt kê ra tất cả các kết hợp có thể có của số lượng trường hợp mong muốn. Kết quả rất giống nhau có thể thu được bằng cách chọn từng yếu tố, từng yếu tố một, sử dụng phương pháp trên (xổ số) hoặc bằng cách sử dụng một cuốn sách các số ngẫu nhiên.

Cuốn sách các bảng bao gồm danh sách các số ngẫu nhiên được đặt theo tên của Tippet, người đầu tiên dịch khái niệm ngẫu nhiên thành một cuốn sách về các số ngẫu nhiên.

Cuốn sách này được chuẩn bị bởi một thủ tục rất phức tạp theo cách các con số không cho thấy bất kỳ bằng chứng nào về trật tự hệ thống, nghĩa là không ai có thể ước tính số tiếp theo, trên cơ sở số trước và ngược lại. Hãy để chúng tôi thảo luận về hai phương pháp vẽ một mẫu ngẫu nhiên đơn giản.

Phương pháp xổ số:

Phương pháp này bao gồm các bước sau:

(a) Mỗi ​​thành viên hoặc vật phẩm trong 'dân số' được gán một số duy nhất. Đó là, không có hai thành viên có cùng số,

(b) Mỗi ​​số được ghi chú trên một thẻ riêng hoặc chip. Mỗi chip hoặc thẻ phải giống với tất cả các loại khác về trọng lượng, kích thước và hình dạng, v.v.

(c) Các thẻ hoặc chip được đặt trong một cái bát và trộn kỹ,

(d) Một người bịt mắt được yêu cầu nhặt bất kỳ con chip hoặc thẻ nào từ bát.

Trong những trường hợp này, xác suất rút một thẻ bất kỳ có thể được dự kiến ​​giống như xác suất rút bất kỳ thẻ nào khác. Vì mỗi thẻ đại diện cho một thành viên của dân số, xác suất chọn từng thẻ sẽ giống hệt nhau.

Nếu sau khi chọn một thẻ (chip), nó đã được thay thế trong tô và nội dung được trộn lại kỹ lưỡng, mỗi chip sẽ có xác suất được chọn tương đương trên bản vẽ thứ hai, thứ tư hoặc thứ n. Một thủ tục như vậy cuối cùng sẽ mang lại một mẫu ngẫu nhiên đơn giản.

Chọn mẫu với sự trợ giúp của số ngẫu nhiên :

Chúng tôi đã nói những con số ngẫu nhiên là gì. Những con số này giúp tránh mọi sai lệch (cơ hội không đồng đều) đối với các mặt hàng bao gồm dân số, được đưa vào mẫu trong việc chọn mẫu.

Các số ngẫu nhiên này được chuẩn bị để chúng đáp ứng tiêu chí toán học về tính ngẫu nhiên hoàn toàn. Bất kỳ cuốn sách tiêu chuẩn về thống kê đều chứa một vài trang số ngẫu nhiên. Những con số này thường được liệt kê trong các cột trên các trang liên tiếp.

Sau đây là một phần của một tập hợp các số ngẫu nhiên:

Việc sử dụng các bảng số ngẫu nhiên bao gồm các bước sau:

(a) Mỗi ​​thành viên của dân số được gán một số duy nhất. Ví dụ: một thành viên có thể có số 77 và 83 khác, v.v.

(b) Bảng các số ngẫu nhiên được nhập tại một số điểm ngẫu nhiên (có dấu mù trên bất kỳ trang nào của sổ bảng) và các trường hợp có số đi lên khi di chuyển từ điểm này xuống cột được đưa vào mẫu cho đến khi số lượng các trường hợp mong muốn được thu được.

Giả sử dân số của chúng tôi bao gồm năm trăm yếu tố và chúng tôi muốn vẽ năm mươi trường hợp làm mẫu. Giả sử chúng ta sử dụng ba chữ số cuối cùng trong mỗi số năm chữ số (vì kích thước vũ trụ là 500, tức là ba chữ số).

Chúng tôi tiến hành xuống cột bắt đầu với 42827; nhưng vì chúng tôi đã quyết định chỉ sử dụng ba chữ số (nói ba chữ số cuối), chúng tôi bắt đầu bằng 827 (bỏ qua hai chữ số đầu tiên). Bây giờ chúng tôi lưu ý mỗi số ít hơn 501 (vì dân số là 500).

Mẫu sẽ được lấy để bao gồm các yếu tố của dân số mang số tương ứng với các yếu tố được chọn. Chúng tôi dừng lại sau khi chúng tôi đã chọn 50 yếu tố (kích thước do chúng tôi quyết định). Trên cơ sở của phần trên của bảng, chúng ta sẽ chọn 12 số tương ứng với các số được chọn. Chúng ta sẽ chọn 12 trường hợp tương ứng với các số 237, 225, 280, 184, 203, 190, 213, 027, 336, 281, 288, 251.

Đặc điểm của mẫu ngẫu nhiên đơn giản:

Chúng ta sẽ bắt đầu bằng cách xem xét một tính chất rất quan trọng của các mẫu ngẫu nhiên đơn giản; điều này, kích thước của mẫu càng lớn thì khả năng trung bình (giá trị trung bình) của nó càng gần với 'dân số', nghĩa là giá trị thực. Hãy để chúng tôi minh họa tài sản này bằng cách giả sử một dân số bao gồm sáu thành viên (trẻ em).

Đặt tuổi của những đứa trẻ này lần lượt là: A = 2 tuổi, B = 3 tuổi, C = 4 tuổi, D = 6 tuổi, E = 9 tuổi và F = 12 tuổi. Chúng ta hãy vẽ các mẫu ngẫu nhiên gồm một, hai, ba bốn và năm thành viên từ dân số này và xem trong mỗi trường hợp, mẫu có nghĩa là (trung bình) hành xử như thế nào với tham chiếu đến 'dân số' thực sự (nghĩa là 2 + 3 + 4 + 6 + 9 + 12 = 36/6 = 6). Bảng dưới đây minh họa hành vi của mẫu có nghĩa là liên quan đến kích thước của mẫu.

Bảng hiển thị các mẫu có thể có của một, hai, ba, bốn và năm yếu tố (trẻ em, từ dân số sáu trẻ em ở độ tuổi 2, 3, 4, 6, 9 và 12 tuổi):

Trong bảng đã cho, tất cả các mẫu ngẫu nhiên có thể có kích thước khác nhau (nghĩa là 1, 2, 3, 4 và 5) và phương tiện tương ứng của chúng được hiển thị. Trung bình (dân số) thực sự là 6 năm. Tất nhiên, giá trị trung bình này có thể được tính bằng cách cộng các giá trị trung bình của tổng số kết hợp các phần tử trong quần thể cho bất kỳ cỡ mẫu đã cho nào.

Trong bảng chúng ta thấy, ví dụ, đối với cỡ mẫu của ba phần tử, có 20 kết hợp các phần tử có thể có, mỗi kết hợp có cơ hội được chọn làm mẫu theo nguyên tắc xác suất.

Cộng các giá trị trung bình của các kết hợp có thể có trong bảng này, chúng ta sẽ có tổng điểm là 120. Giá trị trung bình sẽ là 120 ÷ 20 = 6, tất nhiên, cũng có nghĩa là dân số. Điều này giữ tốt cho các cột khác quá.

Bây giờ chúng ta kiểm tra bảng một cách cẩn thận. Chúng ta sẽ thấy rằng đối với các mẫu của một yếu tố, mỗi (cột A) chỉ có một giá trị trung bình không sai lệch quá 1 đơn vị so với trung bình dân số thực của 6 năm. Đó là, tất cả những người khác, viz., 2, 3, 4, 9 và 12, sai lệch nhiều hơn một đơn vị so với trung bình dân số, tức là 6. Khi chúng ta tăng kích thước của mẫu, ví dụ, trong cột B, trong đó cỡ mẫu là 2, chúng tôi thấy tỷ lệ phương tiện (trung bình) lớn hơn không sai lệch so với trung bình dân số hơn 1 đơn vị.

Bảng trên cho thấy rằng đối với mẫu của hai, có 15 kết hợp có thể và do đó 15 phương tiện có thể. Trong số 15 phương tiện này có 5 phương tiện không đi chệch khỏi dân số có nghĩa là hơn 1 đơn vị.

Đó là, có 33% mẫu có nghĩa là gần với dân số có nghĩa là trong các đơn vị +1 và -1. Trong cột C của bảng, chúng ta thấy rằng có 20 kết hợp các phần tử có thể có cho kích thước mẫu của ba phần tử, mỗi phần tử.

Từ trong số 20 phương tiện mẫu có thể, chúng tôi thấy rằng 10, nghĩa là, 50% không đi chệch khỏi trung bình dân số hơn 1 đơn vị. Đối với kích thước mẫu của bốn yếu tố, có 67% phương tiện nằm trong phạm vi đơn vị +1 và -1 so với trung bình thực (dân số).

Cuối cùng, đối với kích thước mẫu của năm yếu tố, có nhiều hơn nữa, tức là, 83% phương tiện hoặc ước tính như vậy. Bài học nổi lên từ các quan sát của chúng tôi khá rõ ràng, viz., Mẫu càng lớn, càng có nhiều khả năng ý nghĩa của nó sẽ gần với ý nghĩa dân số.

Đây là điều tương tự như việc nói rằng độ phân tán của ước tính (phương tiện) giảm khi kích thước mẫu tăng. Chúng ta có thể thấy rõ điều này trong bảng trên. Đối với cỡ mẫu của một (cột A), phạm vi phương tiện là lớn nhất, nghĩa là trong khoảng từ 2 đến 12 = 10. Đối với cỡ mẫu của hai phạm vi nằm trong khoảng từ 2, 5 đến 10, 5 = 8.

Đối với cỡ mẫu của ba, bốn và năm, phạm vi biến thiên của phương tiện tương ứng là 3 đến 9 = 6, 3, 8 đến 7, 8 = 4 và 4, 8 đến 6, 8 = 2. Bảng cũng sẽ được nhìn thấy từ bảng càng nhiều mẫu có nghĩa là khác với dân số - có nghĩa là nó ít xảy ra hơn.

Chúng ta có thể biểu thị hiện tượng này liên quan đến lấy mẫu ngẫu nhiên đơn giản rõ ràng với sự trợ giúp của một loạt các đường cong cho thấy mối quan hệ giữa sự thay đổi của ước tính và kích thước của mẫu. Hãy để chúng tôi xem xét một dân số lớn của cư dân. Người ta có thể tưởng tượng rằng độ tuổi của họ sẽ nằm trong khoảng dưới 1 năm (ít nhất) và trên 80 tuổi (nhiều nhất).

Kỳ vọng bình thường và hợp lý sẽ có những trường hợp ít hơn khi một người tiếp cận các thái cực và số lượng các trường hợp tiếp tục tăng dần và đối xứng khi chúng ta di chuyển ra khỏi các thái cực này.

Tuổi trung bình của dân số là, chúng ta hãy nói, 40 tuổi. Sự phân bố cư dân như vậy có thể được biểu diễn bằng một đường cong được gọi là đường cong bình thường hoặc hình chuông (A trong sơ đồ sau). Bây giờ chúng ta hãy giả sử rằng chúng ta lấy từ dân số này các mẫu ngẫu nhiên khác nhau có kích cỡ khác nhau, ví dụ: 10.100 và 10.000. Đối với bất kỳ cỡ mẫu nào, chúng ta sẽ nhận được một số lượng mẫu rất lớn từ dân số.

Mỗi mẫu này sẽ cho chúng ta một ước tính cụ thể về trung bình dân số. Một số phương tiện này sẽ là ước tính quá mức và một số ước tính dưới mức của đặc điểm dân số (tuổi trung bình hoặc tuổi trung bình). Một số phương tiện sẽ rất gần với nó, khá nhiều khá xa.

Nếu chúng ta vẽ đồ thị mẫu như vậy có nghĩa là cho một cỡ mẫu cụ thể và tham gia các điểm này, chúng ta sẽ trong mỗi trường hợp, có được một đường cong bình thường. Do đó, các đường cong thông thường khác nhau sẽ đại diện cho các giá trị của phương tiện mẫu cho các mẫu có kích thước khác nhau.

Sơ đồ trên xấp xỉ một bức tranh về cách các phương tiện mẫu sẽ hành xử tương ứng với kích thước của mẫu. Đường cong A đại diện cho vị trí tuổi của các cá nhân đơn lẻ. Các phương tiện ước tính của 10 mẫu, mỗi cá nhân, từ đường cong B cho thấy sự phân tán khá rộng từ dân số thực - có nghĩa là 40 năm).

Mỗi phương tiện của các mẫu gồm 100 cá thể, tạo thành một đường cong C bình thường cho thấy độ lệch ít hơn nhiều so với trung bình dân số. Cuối cùng, phương tiện của các mẫu 10.000 từ một đường cong gần như xấp xỉ đường thẳng đứng tương ứng với trung bình dân số. Độ lệch của các giá trị đại diện cho đường cong D từ trung bình dân số sẽ không đáng kể, như thể hiện khá rõ trên sơ đồ.

Cũng có thể nhận ra rất dễ dàng từ hình trên cho thấy các mẫu có kích thước bất kỳ, trung bình mẫu có khả năng nhất là trung bình dân số. Các giá trị tiếp theo rất có thể là giá trị trung bình gần với trung bình dân số.

Do đó, chúng tôi có thể kết luận rằng mẫu càng có nghĩa là lệch khỏi dân số - nghĩa là càng ít xảy ra. Và cuối cùng, chúng ta cũng thấy những gì chúng ta đã nói về hành vi của các mẫu, cụ thể là, mẫu càng lớn thì càng có nghĩa là ý nghĩa của nó sẽ gần với trung bình dân số.

Chính loại hành vi này trên một phần của các mẫu ngẫu nhiên (xác suất) đơn giản liên quan đến giá trị trung bình cũng như tỷ lệ và các loại thống kê khác, khiến chúng ta có thể ước tính không chỉ đặc tính dân số (ví dụ: giá trị trung bình) nhưng cũng có khả năng mẫu sẽ khác với giá trị dân số thực theo một số lượng nhất định.

Một đặc điểm điển hình của lấy mẫu ngẫu nhiên đơn giản là khi dân số lớn so với cỡ mẫu (ví dụ, lớn hơn gấp mười lần), độ biến động của phân phối lấy mẫu bị ảnh hưởng nhiều hơn bởi số lượng trường hợp tuyệt đối trong mẫu hơn tỷ lệ dân số mà mẫu bao gồm.

Nói cách khác, mức độ của các lỗi có thể phát sinh do lấy mẫu, phụ thuộc nhiều vào kích thước tuyệt đối của mẫu hơn là tỷ lệ mà nó mang theo trong dân số, nghĩa là, phần lớn hay nhỏ của một phần dân số.

Kích thước của mẫu ngẫu nhiên càng lớn, xác suất mà nó sẽ đưa ra ước tính hợp lý tốt về đặc tính dân số bất kể tỷ lệ của nó so với dân số.

Do đó, việc ước tính một cuộc bỏ phiếu phổ biến tại một cuộc thăm dò quốc gia, trong giới hạn sai số có thể chấp nhận được, sẽ không yêu cầu một mẫu lớn hơn đáng kể so với ước tính về phiếu bầu dân số ở một tỉnh cụ thể nơi kết quả cuộc thăm dò đang nghi ngờ

Để giải thích rõ hơn, một mẫu 500 (mẫu 100%) sẽ cho độ chính xác hoàn hảo nếu một cộng đồng chỉ có 500 cư dân. Một mẫu 500 sẽ cho độ chính xác cao hơn một chút đối với một thị trấn có 1000 cư dân so với thành phố 10.000 dân. Nhưng ngoài điểm mà mẫu là một phần lớn của 'vũ trụ', không có sự khác biệt đáng kể về độ chính xác với sự gia tăng kích thước của 'vũ trụ'.

Đối với bất kỳ mức độ chính xác nhất định nào, các cỡ mẫu giống hệt nhau sẽ cung cấp cùng một mức độ chính xác cho các cộng đồng có dân số khác nhau, ví dụ: từ 10.000 đến 10 triệu. Tỷ lệ kích thước mẫu với dân số của các cộng đồng này có nghĩa là không có gì, mặc dù điều này có vẻ quan trọng nếu chúng ta tiến hành bằng trực giác.

Loại # 2. Lấy mẫu có hệ thống:

Kiểu lấy mẫu này dành cho tất cả các mục đích thực tế, gần đúng với lấy mẫu ngẫu nhiên đơn giản. Nó đòi hỏi rằng dân số có thể được xác định duy nhất theo thứ tự của nó. Ví dụ, cư dân của một cộng đồng có thể được liệt kê và tên của họ được sắp xếp lại theo thứ tự abc. Mỗi tên này có thể được cung cấp một số duy nhất. Một chỉ số như vậy được gọi là "khung" của dân số được đề cập.

Giả sử khung này bao gồm 1.000 thành viên, mỗi thành viên có một số duy nhất, nghĩa là từ 1 đến 1.000. Giả sử, chúng tôi muốn chọn một mẫu 100. Chúng tôi có thể bắt đầu bằng cách chọn bất kỳ số nào trong khoảng từ 1 đến 10 (bao gồm cả hai). Giả sử chúng ta thực hiện lựa chọn ngẫu nhiên bằng cách nhập danh sách và nhận 7.

Sau đó chúng tôi tiến hành chọn thành viên; bắt đầu từ 7, với khoảng thời gian đều đặn là 10. Các thành viên được chọn để chọn: bắt đầu từ một khoảng thông thường là 10. Mẫu được chọn sẽ bao gồm các yếu tố mang số 7, 17, 27, 37, 47, đấm 977, 987, 997. Các yếu tố này cùng nhau sẽ tạo thành một mẫu có hệ thống.

Cần nhớ rằng một mẫu có hệ thống có thể được coi là mẫu xác suất chỉ khi trường hợp đầu tiên (ví dụ 7) được chọn ngẫu nhiên và sau đó, trường hợp thứ mười từ khung được chọn sau đó.

Nếu trường hợp đầu tiên không được chọn ngẫu nhiên, mẫu kết quả sẽ không phải là mẫu xác suất vì, về bản chất của trường hợp, hầu hết các trường hợp không ở khoảng cách mười so với số được chọn ban đầu sẽ có 0 (0 ) xác suất được đưa vào mẫu.

Cần lưu ý rằng trong lấy mẫu có hệ thống khi trường hợp đầu tiên được rút ngẫu nhiên, trước, không có giới hạn về cơ hội của bất kỳ trường hợp cụ thể nào được đưa vào mẫu. Nhưng một khi trường hợp đầu tiên được chọn, cơ hội của các trường hợp tiếp theo sẽ bị ảnh hưởng hoặc thay đổi quyết định. Trong ví dụ trên, các trường hợp khác 17, 27, 37, 47, v.v., không có cơ hội được đưa vào mẫu.

Điều này có nghĩa là kế hoạch lấy mẫu có hệ thống không đủ khả năng cho tất cả các trường hợp kết hợp có thể xảy ra, cùng một cơ hội được đưa vào mẫu.

Do đó, kết quả có thể khá lừa đảo nếu các trường hợp trong danh sách được sắp xếp theo thứ tự chu kỳ hoặc nếu dân số không được trộn lẫn kỹ lưỡng với các đặc điểm nghiên cứu (ví dụ, thu nhập hoặc giờ học), tức là theo cách rằng mỗi trong số mười thành viên có cơ hội được chọn như nhau.

Loại # 3. Lấy mẫu ngẫu nhiên phân tầng:

Trong lấy mẫu ngẫu nhiên phân tầng, dân số trước tiên được chia thành một số tầng. Các tầng lớp này có thể dựa trên một tiêu chí duy nhất, ví dụ: trình độ học vấn, mang lại một số tầng lớp tương ứng với các cấp độ giáo dục khác nhau) hoặc kết hợp hai hoặc nhiều tiêu chí (ví dụ: tuổi và giới tính), mang lại các tầng lớp như nam giới 30 tuổi và nam trên 30 tuổi, nữ dưới 30 tuổi và nữ trên 30 tuổi.

Trong lấy mẫu ngẫu nhiên phân tầng, một mẫu ngẫu nhiên đơn giản được lấy từ mỗi tầng và các mẫu phụ như vậy được kết hợp với nhau để tạo thành tổng mẫu.

Nói chung, sự phân tầng của vũ trụ cho mục đích lấy mẫu góp phần vào hiệu quả của việc lấy mẫu nếu nó thành lập các lớp, nghĩa là, nếu nó có thể phân chia dân số thành các lớp thành viên hoặc các yếu tố tương đối đồng nhất và tương đối với nhau, không đồng nhất với nhau, liên quan đến các đặc điểm đang được nghiên cứu. Chúng ta hãy giả sử rằng tuổi tác và giới tính là hai cơ sở tiềm năng của sự phân tầng.

Bây giờ, chúng ta có nên thấy rằng sự phân tầng trên cơ sở giới tính (nam / nữ) mang lại hai tầng khác biệt rõ rệt với nhau về điểm số trên các đặc điểm thích hợp khác đang nghiên cứu trong khi mặt khác, tuổi là cơ sở của phân tầng không các tầng năng suất khác biệt đáng kể so với nhau về điểm số trên các đặc điểm quan trọng khác, thì sẽ nên phân tầng dân số trên cơ sở giới tính thay vì tuổi.

Nói cách khác, tiêu chí về tình dục sẽ là cơ sở hiệu quả hơn của sự phân tầng trong trường hợp này. Hoàn toàn có thể là quá trình chia dân số thành các tầng đồng nhất nội bộ và tương đối không đồng nhất đối với các đặc điểm liên quan nhất định là rất tốn kém.

Trong tình huống như vậy, nhà nghiên cứu có thể chọn cách chọn một mẫu ngẫu nhiên đơn giản lớn và bù lại chi phí cao bằng cách tăng (thông qua một mẫu ngẫu nhiên đơn giản cỡ lớn) tổng kích thước của mẫu và tránh các mối nguy hiểm khi phân tầng.

Cần phải hiểu rõ rằng sự phân tầng hầu như không liên quan gì đến việc làm cho mẫu trở thành một bản sao của dân số.

Trên thực tế, các vấn đề liên quan đến quyết định phân tầng có được thực hiện hay không chủ yếu liên quan đến tính đồng nhất dự đoán của các tầng được xác định liên quan đến các đặc điểm nghiên cứu và chi phí so sánh của các phương pháp khác nhau để đạt được độ chính xác. Lấy mẫu ngẫu nhiên được phân tầng giống như lấy mẫu ngẫu nhiên đơn giản, bao gồm các kế hoạch lấy mẫu đại diện.

Bây giờ chúng ta chuyển sang thảo luận về các hình thức chính hoặc lấy mẫu phân tầng. Số lượng các trường hợp được lựa chọn trong mỗi tầng có thể tỷ lệ thuận với sức mạnh của tầng hoặc không tương xứng.

Số lượng các trường hợp có thể giống nhau từ tầng này đến tầng khác hoặc thay đổi từ tầng này sang tầng khác tùy thuộc vào kế hoạch lấy mẫu. Bây giờ chúng ta sẽ xem xét rất ngắn gọn hai hình thức này, nghĩa là các mẫu phân tầng và các mẫu phân tầng không cân xứng.

Loại # 4. Lấy mẫu phân tầng theo tỷ lệ :

Trong lấy mẫu theo tỷ lệ, các trường hợp được rút ra từ mỗi tầng theo tỷ lệ giống như chúng xảy ra trong vũ trụ. Giả sử chúng ta biết rằng 60% 'dân số' là nam và 40% là nữ. Lấy mẫu phân tầng theo tỷ lệ có liên quan đến 'dân số' này, sẽ liên quan đến việc vẽ một mẫu theo cách phân chia giống nhau giữa hai giới được phản ánh, tức là, 60:40, trong mẫu.

Nếu quy trình lấy mẫu có hệ thống được sử dụng trong một nghiên cứu, cơ sở mà danh sách được thực hiện sẽ xác định xem mẫu kết quả có phải là mẫu phân tầng tương xứng hay không. Ví dụ: nếu mỗi tên thứ 7 được chọn theo một chuỗi thông thường từ danh sách các tên được sắp xếp theo thứ tự bảng chữ cái, mẫu kết quả sẽ chứa khoảng 1/7 số tên bắt đầu bằng mỗi chữ cái của bảng chữ cái.

Mẫu kết quả trong trường hợp này sẽ là một mẫu bảng chữ cái phân tầng tương ứng. Tất nhiên, nếu sự sắp xếp theo thứ tự chữ cái hoàn toàn không liên quan và không liên quan đến vấn đề đang nghiên cứu, mẫu có thể được coi là một mẫu ngẫu nhiên với những hạn chế nhất định điển hình của các mẫu hệ thống đã thảo luận ở trên.

Nhiều lý do có thể được thêm vào để lấy mẫu các tầng khác nhau theo tỷ lệ không đồng đều hoặc không giống nhau. Đôi khi, cần phải tăng tỷ lệ được lấy mẫu từ các tầng có một số ít trường hợp để đảm bảo rằng các tầng này sẽ được lấy mẫu.

Ví dụ: nếu một người đang lên kế hoạch nghiên cứu về bán lẻ quần áo tại một thành phố nhất định tại một thời điểm nhất định, một mẫu cửa hàng bán lẻ vải ngẫu nhiên đơn giản có thể không cho chúng ta ước tính chính xác về tổng khối lượng bán hàng, vì nhỏ số lượng cơ sở có tỷ lệ rất lớn trong tổng doanh số, có thể bị loại khỏi mẫu.

Trong trường hợp này, người ta sẽ khôn ngoan trong việc phân tầng dân số của các cửa hàng vải theo một số ít cửa hàng vải có khối lượng bán hàng rất lớn sẽ tạo thành tầng trên cùng. Các nhà nghiên cứu sẽ làm tốt để bao gồm tất cả chúng trong mẫu của mình.

Đó là, đôi khi anh ta có thể lấy một mẫu 100% từ tầng này và tỷ lệ các trường hợp từ các tầng khác đại diện cho một số lượng lớn các cửa hàng (với khối lượng giao dịch thấp hoặc trung bình). Một mẫu không cân xứng như vậy rất có thể sẽ đưa ra các ước tính đáng tin cậy đối với dân số.

Một lý do khác để lấy một tỷ lệ lớn hơn các trường hợp từ một tầng thay vì từ các tầng khác là nhà nghiên cứu có thể muốn chia nhỏ các trường hợp trong mỗi tầng để phân tích thêm.

Do đó, các tầng con có nguồn gốc có thể không chứa đủ số lượng trường hợp để lấy mẫu và theo cùng tỷ lệ với các tầng con khác, do đó sẽ không đủ khả năng để làm cơ sở thích hợp cho phân tích tiếp theo. Đây là trường hợp, người ta có thể phải lấy ra tỷ lệ cao hơn các trường hợp từ tầng phụ.

Nói chung, có thể nói rằng độ chính xác và đại diện lớn nhất có thể đạt được nếu các mẫu từ các tầng khác nhau phản ánh đầy đủ các biến số tương đối của chúng đối với các đặc điểm nghiên cứu thay vì thể hiện kích thước tương đối của chúng trong 'dân số'.

Nên lấy mẫu nhiều hơn ở các tầng trong đó nhà nghiên cứu có lý do để tin rằng sự thay đổi về một đặc điểm nhất định, ví dụ, thái độ hoặc sự tham gia, sẽ lớn hơn.

Do đó, trong một nghiên cứu được thực hiện để dự đoán kết quả của các cuộc bầu cử quốc gia sử dụng phương pháp lấy mẫu phân tầng, với các trạng thái là cơ sở của sự phân tầng, nên lấy một mẫu nặng hơn từ các khu vực hoặc khu vực nơi kết quả bị che mờ nghiêm trọng và rất nghi ngờ .

Loại # 5. Lấy mẫu phân tầng không cân xứng :

Chúng tôi đã đề xuất các đặc điểm của lấy mẫu không cân xứng và cũng có một số lợi thế chính của quy trình lấy mẫu này. Rõ ràng là một mẫu phân tầng trong đó số lượng phần tử được rút ra từ các tầng khác nhau không phụ thuộc vào kích thước của các tầng này có thể được gọi là mẫu phân tầng không cân xứng.

Hiệu ứng tương tự này cũng có thể đạt được bằng cách rút ra từ mỗi tầng một số lượng các trường hợp bằng nhau, bất kể tầng đó được biểu thị mạnh hay yếu trong dân số.

Như một hệ quả của cách nó được chọn, một lợi thế của việc lấy mẫu phân tầng không cân xứng liên quan đến thực tế là tất cả các tầng đều có độ tin cậy như nhau theo quan điểm về kích thước của mẫu. Một lợi thế thậm chí quan trọng hơn là kinh tế.

Loại mẫu này là kinh tế ở chỗ, các nhà điều tra đã tránh được những rắc rối trong việc đảm bảo một khối lượng thông tin lớn không cần thiết từ các nhóm phổ biến nhất trong dân số.

Tuy nhiên, một mẫu như vậy cũng có thể phản bội những nhược điểm kết hợp của số lượng các trường hợp không đồng đều, nghĩa là nhỏ và không đại diện. Bên cạnh đó, một mẫu không cân xứng đòi hỏi kiến ​​thức sâu sắc về các đặc điểm thích hợp của các tầng lớp khác nhau.

Loại # 6. Mẫu phân bổ tối ưu :

Trong quy trình lấy mẫu này, kích thước của mẫu được rút ra từ mỗi tầng tương ứng với cả kích thước và mức độ lan truyền của các giá trị trong bất kỳ tầng nào. Việc sử dụng chính xác quy trình lấy mẫu này liên quan đến việc sử dụng các khái niệm thống kê nhất định chưa được giới thiệu đầy đủ hoặc thuyết phục.

Bây giờ chúng ta biết một cái gì đó về lấy mẫu ngẫu nhiên phân tầng và các biểu hiện khác nhau của nó. Bây giờ chúng ta hãy xem làm thế nào các biến hoặc tiêu chí cho phân tầng nên được lên kế hoạch.

Các cân nhắc sau đây lý tưởng nhất là đưa vào lựa chọn các điều khiển để phân tầng:

(a) Thông tin chính xác về thể chế của tầng lớp phải được cập nhật, chính xác, đầy đủ, áp dụng cho dân số và có sẵn cho nhà nghiên cứu.

Nhiều đặc điểm của dân số không thể được sử dụng làm đối chứng vì không có số liệu thống kê thỏa đáng về chúng. Trong một xã hội rất năng động, đặc trưng bởi những biến động lớn trong dân số, nhà nghiên cứu sử dụng chiến lược phân tầng thường có nguy cơ đi sai trong các ước tính của mình về kích thước của các tầng mà anh ta tác động trong mẫu.

(b) Nhà nghiên cứu nên có lý do để tin rằng các yếu tố hoặc tiêu chí được sử dụng để phân tầng là có ý nghĩa trong vấn đề nghiên cứu.

(c) Trừ khi tầng được xem xét đủ lớn và do đó người lấy mẫu và nhân viên hiện trường không gặp khó khăn lớn trong việc định vị ứng viên cho nó, không nên sử dụng nó.

(d) Khi chọn các trường hợp để phân tầng, nhà nghiên cứu nên cố gắng chọn những trường hợp đồng nhất với các đặc điểm có ý nghĩa đối với vấn đề đang nghiên cứu. Như đã nói trước đó, sự phân tầng có hiệu quả đến mức các yếu tố trong tầng này giống nhau và đồng thời khác nhau so với các yếu tố trong các tầng khác.

Bây giờ chúng ta hãy xem xét những ưu điểm và hạn chế của lấy mẫu ngẫu nhiên phân tầng một cách tổng quát:

(1) Khi sử dụng quy trình lấy mẫu ngẫu nhiên phân tầng, nhà nghiên cứu có thể yên tâm rằng sẽ không loại trừ các nhóm hoặc danh mục thiết yếu nào khỏi mẫu. Do đó, tính đại diện cao hơn của mẫu được đảm bảo và do đó các rủi ro không thường xuyên xảy ra trong lấy mẫu ngẫu nhiên đơn giản là do đó tránh được.

(2) Trong trường hợp dân số đồng nhất hơn, độ chính xác cao hơn có thể đạt được với ít trường hợp hơn.

(3) So với các mẫu ngẫu nhiên đơn giản, các mẫu phân tầng tập trung hơn về mặt địa lý, do đó giảm chi phí về thời gian, tiền bạc và năng lượng khi phỏng vấn người trả lời.

(4) Các mẫu mà người phỏng vấn chọn có thể mang tính đại diện hơn nếu hạn ngạch của anh ta được phân bổ theo thủ tục phân tầng không chính đáng so với khi anh ta sử dụng phán đoán của chính mình (như trong lấy mẫu hạn ngạch).

Hạn chế chính của lấy mẫu ngẫu nhiên phân tầng là để đảm bảo lợi ích tối đa từ nó trong quá trình nghiên cứu, nhà nghiên cứu cần biết rất nhiều về vấn đề nghiên cứu và mối quan hệ của nó với các yếu tố khác. Một kiến ​​thức như vậy không phải lúc nào cũng đến và khá thường xuyên chờ đợi là lâu.

Cần nhớ rằng quan điểm của lý thuyết lấy mẫu xác suất, về cơ bản không liên quan đến việc phân tầng được đưa ra trong quá trình lấy mẫu hay trong quá trình phân tích dữ liệu, ngoại trừ trước đây có thể kiểm soát kích thước của mẫu thu được từ mỗi tầng và do đó để tăng hiệu quả của thiết kế lấy mẫu.

Nói cách khác, quy trình vẽ một mẫu ngẫu nhiên đơn giản và sau đó chia nó thành các tầng có hiệu lực tương đương với việc vẽ một mẫu ngẫu nhiên phân tầng sử dụng làm khung lấy mẫu trong mỗi tầng, .population của tầng đó được bao gồm trong đơn giản đã cho mẫu thử ngẫu nhiên.

Loại # 7. Lấy mẫu cụm :

Thông thường, lấy mẫu ngẫu nhiên đơn giản và lấy mẫu ngẫu nhiên phân tầng đòi hỏi chi phí rất lớn khi giao dịch với các quần thể phân tán lớn và không gian hoặc địa lý.

Trong các kiểu lấy mẫu ở trên, các yếu tố được chọn trong mẫu có thể được phân tán rộng rãi đến mức việc phỏng vấn họ có thể đòi hỏi chi phí lớn, tỷ lệ thời gian phi sản xuất cao hơn (dành cho việc đi du lịch), khả năng thiếu thống nhất giữa những người phỏng vấn ' các câu hỏi, ghi âm và cuối cùng, một khoản chi lớn cho việc giám sát nhân viên hiện trường.

Ngoài ra còn có các yếu tố thực tế khác của việc lấy mẫu đó. Ví dụ, nó có thể được coi là ít phản đối hơn và do đó cho phép quản lý một câu hỏi cho ba hoặc bốn bộ phận của một nhà máy hoặc văn phòng thay vì quản lý nó trên một mẫu được rút ra từ tất cả các bộ phận trên cơ sở ngẫu nhiên đơn giản hoặc phân tầng, vì quy trình sau này có thể phá vỡ nhiều hơn các thói quen của nhà máy.

Đó là vì một số lý do mà các nghiên cứu khảo sát quy mô lớn hiếm khi sử dụng các mẫu ngẫu nhiên đơn giản hoặc phân tầng; thay vào đó, họ sử dụng phương pháp lấy mẫu cụm.

Trong lấy mẫu cụm, người lấy mẫu trước tiên lấy mẫu từ dân cư, một số nhóm lớn nhất định, ví dụ, cụm cụm. Các cụm này có thể là phường thành phố, hộ gia đình hoặc một số đơn vị địa lý hoặc xã hội. Việc lấy mẫu các cụm từ dân cư được thực hiện bằng các phương pháp lấy mẫu ngẫu nhiên đơn giản hoặc phân tầng. Từ các cụm được chọn này, các yếu tố cấu thành được lấy mẫu bằng cách truy đòi các thủ tục đảm bảo tính ngẫu nhiên.

Ví dụ, giả sử rằng một nhà nghiên cứu muốn thực hiện một nghiên cứu mẫu về các vấn đề của sinh viên đại học của các trường cao đẳng ở Maharashtra.

Anh ta có thể tiến hành như sau:

(a) Trước tiên, anh ta chuẩn bị một danh sách tất cả các trường đại học trong tiểu bang và chọn một mẫu của các trường đại học trên cơ sở 'ngẫu nhiên'.

(b) Đối với mỗi trường đại học của tiểu bang bao gồm m mẫu, anh ta lập một danh sách các trường đại học thuộc thẩm quyền của mình và lấy một mẫu các trường đại học trên cơ sở 'ngẫu nhiên'.

(c) Đối với mỗi trường đại học tình cờ được đưa vào mẫu, anh ta lập một danh sách tất cả các sinh viên đại học theo học với nó. Từ những sinh viên này, anh ta chọn một mẫu có kích thước mong muốn trên cơ sở 'ngẫu nhiên' (đơn giản hoặc phân tầng).

Theo cách này, nhà nghiên cứu có được một mẫu xác suất hoặc mẫu ngẫu nhiên, ít nhiều tập trung, theo địa lý. Bằng cách này, anh ta có thể tránh được chi tiêu nặng nề mà nếu không phải chịu, anh ta đã dùng đến phương pháp lấy mẫu ngẫu nhiên đơn giản hoặc phân tầng, nhưng anh ta không cần phải hy sinh các nguyên tắc và lợi ích của việc lấy mẫu xác suất.

Đặc trưng, ​​quy trình lấy mẫu này di chuyển qua một loạt các giai đoạn. Do đó, theo một nghĩa nào đó, một mẫu 'nhiều giai đoạn' và đôi khi được biết đến với tên này. Quy trình lấy mẫu này chuyển dần từ các đơn vị lấy mẫu ít bao gồm hơn, cuối cùng, nhà nghiên cứu đã đến các yếu tố dân số tạo thành mẫu mong muốn của mình.

Cần lưu ý rằng với lấy mẫu cụm, không còn đúng khi mọi sự kết hợp của số lượng phần tử mong muốn trong dân số đều có khả năng được chọn là mẫu của dân số. Do đó, loại hiệu ứng mà chúng ta đã thấy trong phân tích của chúng tôi về các mẫu ngẫu nhiên đơn giản, nghĩa là giá trị dân số là giá trị mẫu có thể xảy ra nhất, không thể thấy ở đây.

But such effects do materialize in a more complicated way, though, of course, the sampling efficiency is hampered to some extent. It has been found that on a per case basis, the cluster sampling is much less efficient in getting information than comparably effective stratified random sampling.

Relatively speaking, in the cluster sampling, the margin of error is much greater. This handicap, however, is more than balanced by associated economies, which permit the sampling of a sufficiently large number of cases at a smaller total cost.

Depending on the specific features of the sampling plan attendant upon the objects of survey, cluster sampling may be more or less efficient than simple random sampling. The economies associated with cluster sampling generally tilt the balance in favour of employing cluster sampling in large-scale surveys, although compared to simple random sampling, more cases are needed for the same level of accuracy.

Type # 8. Multi-Phase Sampling:

It is sometimes convenient to confine certain questions about specific aspects of the study to a fraction of the sample, while other information is being collected from the whole sample. This procedure is known as 'multi-phase sampling.'

The basic information recorded from the whole sample makes it possible to compare certain characteristics of the sub-sample with that of the whole sample.

One additional point that merits mention is that multi-phase sampling facilitates stratification of the sub-sample since the information collected from the first phase sample can sometimes be gathered before the sub-sampling process takes place. It will be remembered that panel studies involve multi-phase sampling.