25 tháng 11, 2011

CHỌN MẪU

Martin Bulmer
Nghiên cứu xã hội ở các nước đang phát triển-chương 7
Chủ biên : M. Bulmer và D.P. Warwick
1983, NXB John Wiley & Sons, Ltd.
Social Research in Developing Countries
M. Bulmer và D.P. Warwick biên tập
© 1983, John Willey & Sons, Ltd.
 Trần Hữu Quang dịch 2-2001
            Việc chọn lựa những cá nhân (hoặc những đơn vị khác) sẽ được nghiên cứu trong một cuộc điều tra – thông thường là trong một cuộc thăm dò, phỏng vấn từng người một – là một trong những vấn đề quan trọng nhất. Ý tưởng chọn mẫu (sampling) từ một dân số nào đó, chứ không phải là lấy toàn bộ dân số đó, đã được đề ra từ đầu thế kỷ XX và bây giờ đã trở thành phương pháp chuẩn mực trong việc chọn lọc ra một nhóm đại diện (representative) từ một dân số lớn hơn để tiến hành nghiên cứu. Tính chất đại diện được đảm bảo bởi việc sử dụng phương pháp chọn mẫu xác suất (hay ngẫu nhiên) (probability [or random] sampling), trong đó mỗi thành viên của dân số có một tỷ lệ cơ may được chọn nhất định nào đó. Bằng những phương pháp này, người ta có thể thu nhận được những chỉ số ước lượng tương đối chính xác về dân số chung bằng cách chỉ nghiên cứu một bộ phận rất nhỏ của toàn bộ dân số chung.[1] Có thể tham khảo những bài giới thiệu xuất sắc về các nguyên tắc chọn mẫu (như bài của Moser và Kalton, 1971, trang 61-210 ; Warwick và Lininger, 1975, trang 69-125), cũng như những bài chi tiết hơn (như bài của Hansen, Hurwitz và Madow, 1953 ; Kish, 1965 ; Yates, 1949).
            Có một tình hình nghịch lý liên quan tới cách thức lấy mẫu trong các cuộc điều tra ở các nước đang phát triển. Một mặt, người ta nhận thấy rằng một số ứng dụng tiến bộ nhất về phương pháp chọn mẫu đã được thực hiện ở chính các nước đang phát triển, bắt đầu từ công trình của Mahalanobis ở Ấn Độ trong thập niên 1940, và bước tiên phong của ông ta khi ông ta sớm tiến hành cuộc Điều tra Mẫu Quốc gia (National Sample Survey) ngay từ năm 1950, vốn là cuộc điều tra xã hội tổng quát cấp quốc gia đầu tiên trên thế giới. Sự tiến bộ của cuộc điều tra này được xem xét lại trong Chương 9. Gần đây hơn, cuộc Điều tra về Khả năng sinh sản trên thế giới (World Fertility Survey) đã đề ra một cách thiết kế mẫu toàn quốc rất công phu và đã đầu tư rất nhiều công sức cho công việc chọn mẫu nhân khẩu học trong Thế giới thứ ba (Verma và những người khác, 1980 ; World Fertility Survey, 1975).
            Nhưng mặt khác, ở nhiều nước đang phát triển, việc chọn mẫu theo các nguyên tắc chuẩn mực cũng đặt ra nhiều vấn đề nhiêu khê : các sách giáo khoa về phương pháp chọn mẫu đã được viết ra thường không chú ý đến tình hình đặc thù của các nước đang phát triển. Người ta thấy thường thiếu những cái khung để chọn mẫu (sampling frames), không có sổ bộ tập trung danh sách toàn bộ các công dân, những tập kết quả tổng điều tra dân số thường thiếu địa chỉ cụ thể của các gia đình, không có những danh bạ đầy đủ cho biết ai đang ở đâu. Nếu có một trong các tài liệu trên, thì phần lớn lại thường không đáng tin cậy, ngoại trừ ở một vài khu vực nông thôn (Kearl, 1976, trang 37). Như Zarkovich sẽ nói trong Chương 8, các điều kiện đều bất lợi về cơ bản. Không có truyền thống, thiếu kinh nghiệm, vân vân.
            Chúng ta có thể thấy những khó khăn thực tế qua kinh nghiệm thiết kế mẫu điều tra ở ba nước, Syria, Nepal và Somalia (Bergsten, 1980). Ở Syria, Tổng cục thống kê nắm được danh sách các đơn vị hộ có được từ cuộc tổng điều tra dân số, và danh sách này được cập nhật thường xuyên. Dân chúng sinh sống trong những ngôi làng nhất định, do đó đối với dân cư định cư, việc chọn mẫu là một việc có thể tiến hành dễ dàng. (Cuộc điều tra này không tiến hành nơi người Bedouin du cư, vì gặp phải những vấn đề cực kỳ khó khăn trong việc chọn mẫu). Ngược lại, ở Somalia, có những vấn đề khó khăn hơn nhiều. Những nơi nào có được bản đồ thì lại không xác định được một cách chính xác vị trí các ngôi làng. Danh sách các ngôi làng thì có, nhưng không phải lúc nào cũng ăn khớp với bản đồ. Dân cư thì không nhất thiết sinh sống ngay trong ngôi làng. Nhà cửa thì không có số, đường sá thì không có tên, và các ngôi nhà lại chen chúc lẫn nhau. Việc chọn mẫu nơi những người du cư (nomad) lại càng đặc biệt khó khăn, bởi lẽ các gia đình thường bị chia tách khi có những người phải đưa gia súc đi ăn cỏ ở nơi khác, đàn ông và lạc đà thường đi xa mỗi lần hàng nhiều tháng trời. Do đó, người ta đã tiến hành cuộc điều tra vào mùa khô, và chọn mẫu cư dân du cư bằng cách chọn các vũng nước làm đơn vị chọn mẫu cơ bản. Tác giả công trình điều tra này đã bình luận một cách gượng gạo rằng “nếp sống của người du cư chắc hẳn đã không thích hợp cho việc tiến hành một cách có hiệu quả những cuộc điều tra nhân khẩu” (Bergsten, 1980, trang 73).
            Ở Nepal, người ta hầu như không có được những thông tin cơ bản để có thể xây dựng một cái khung để chọn mẫu (sampling frame). Các ngôi làng thường xa xôi và cô lập, bản đồ và đường giao thông liên lạc thường hết sức thiếu thốn, và phần lớn các ngôi làng chỉ có thể đến được bằng cách đi bộ. Vào mùa mưa, những con đường vốn đã ít ỏi lại không thể sử dụng được, và các chuyến bay cũng hết sức khó khăn. Những hoàn cảnh trên đây hoàn toàn khác hẳn với các điều kiện cần có để tiến hành một cuộc điều tra hộ gia đình ở Tây Âu hay Bắc Mỹ – những điều kiện vốn thường được coi là mặc nhiên phải có và thường được mô tả trong các sách giáo khoa chuẩn mực. Kinh nghiệm ba nước trên đây cho thấy là tình hình có thể khác biệt nhau ghê gớm từ vùng này sang vùng khác trên thế giới, và trong phần lớn các trường hợp, việc chọn mẫu đều thường rời xa khỏi những chuẩn mực vốn đã ghi rõ trong các sách giáo khoa.

Những hạn chế về nguồn lực
            Tính hiệu quả trong việc thiết kế các cuộc điều tra chọn mẫu thường được định nghĩa là việc đạt tới một mức độ chính xác nhất định với một chi phí nào đó (Moser và Kalton, 1971, trang 64-74). Do đó, việc thiết kế mẫu điều tra được coi là vấn đề kết hợp giữa mục tiêu chính xác với chi phí để có thể đi đến quyết định về một cách thiết kế mẫu tối ưu. Như vậy, chẳng hạn, để đi đến quyết định là cần có mấy cấp độ trong việc chọn mẫu, hoặc cần phân nhóm đến mức độ nào đối với những đơn vị mẫu cơ bản, thì những điều này đều phụ thuộc một mặt vào sai số chọn mẫu, và mặt khác vào ngân sách cuộc điều tra.
            Một hạn chế cơ bản của các cuộc điều tra tại các nước kém phát triển nhất là hết sức thiếu thốn các nguồn lực, và hoàn toàn không có hoặc có rất ít loại cơ sở hạ tầng kỹ thuật thường có tại các nước công nghiệp. Như Zarkovich sẽ đề cập tới trong Chương 8, trong hoàn cảnh đó, cách thiết kế việc chọn mẫu bị qui định phần lớn bởi bối cảnh của công việc hơn là bởi kiến thức nghề nghiệp của người chọn mẫu. Việc thiết kế những cuộc điều tra chọn mẫu lúc này thực ra trở thành một sự nghiên cứu về những điều kiện hạn chế và từ đó là những hệ luận về mặt chọn mẫu, hơn là việc thực thi đúng các nguyên tắc và thực hiện đúng qui trình để làm thế nào đi đến một bản thiết kế điều tra tối ưu như tại các nước đã phát triển. Người ta đã cố gắng làm được nhiều việc để cải thiện các điều kiện và các tiêu chuẩn, đặc biệt là trong việc đào tạo những người nghiên cứu và những người làm công tác thống kê (xem Zarkovich, 1975), nhưng những hạn chế về nguồn lực và về cơ sở hạ tầng có lẽ sẽ vẫn tiếp tục cản trở công việc điều tra ở Thế giới thứ ba trong một tương lai nhất định.

Thiếu những cái khung để chọn mẫu
            Các cuốn sách giáo khoa về phương pháp điều tra thường giả định rằng thực tế mặc nhiên có những cái khung để có thể dựa vào đó mà chọn mẫu (sampling frames). Ở Anh chẳng hạn, sổ bộ cử tri (liệt kê danh sách những người được đi bầu từ 18 tuổi trở lên) và sổ bộ thuế (danh sách các hộ được liệt kê nhằm mục đích tính thuế) là hai cái khung thường được sử dụng nhiều nhất. Đối với những cuộc điều tra chọn mẫu phân tầng, người ta có thể lấy thêm thông tin về các khu vực có qui mô dân cư khác nhau (chẳng hạn các khu vực bầu cử, các phường, hoặc các họ đạo), và người ta có thể nắm được nhiều đặc điểm của dân cư ở các vùng đó qua kết quả tổng điều tra dân số.
            Tại các nước đang phát triển, những loại thông tin ấy hoặc là hoàn toàn không có, hoặc nếu có thì cũng thường mang mức độ sai lạc lớn lao. Trong thực tế, hai loại khó khăn đó thường quyện vào nhau, bởi lẽ thông tin không đầy đủ hoặc không chính xác (chẳng hạn một cái khung chọn mẫu không bao hàm chính số dân cư mà đáng lý nó phải bao hàm) thường cũng gây hậu quả sai lạc hay thậm chí còn tai hại hơn là tình trạng không có thông tin nào hết. Trong đoạn trên, chúng ta đã thấy tình trạng thiếu những cái khung chọn mẫu ở Somalia và Nepal. Trong Chương 18, Robert Mitchell sẽ đề cập tới tình trạng kém chất lượng và tình trạng không so sánh được của những cái khung chọn mẫu thường được sử dụng trong nhiều cuộc điều tra ở châu Á. Kinh nghiệm cho thấy là người ta thường không tìm ra được cái khung cần thiết để có thể tiến hành nghiên cứu về một dân cư nhất định nào đó, hoặc nếu muốn thiết lập một cái khung thì sẽ rất tốn kém. Trong cuộc Điều tra về Khả năng sinh sản trên thế giới (World Fertility Survey) chẳng hạn, người ta đã chẳng bao giờ sử dụng được một danh sách phụ nữ lập sẵn tại bất cứ nước nào, bởi vì thông thường không có danh sách này, hoặc nếu có thì cũng không được cập nhật hoặc không tìm ra được những cá nhân nằm trong danh sách (Verma, 1977, trang 104).
            Trong một số trường hợp, người ta cũng có thể sử dụng những sổ bộ kết quả của cuộc tổng điều tra dân số thường tiến hành 10 năm một lần, và coi đây như là một cái khung để tiến hành chọn mẫu. Tuy nhiên, ngoài những vấn đề như vấn đề xâm phạm vào đời tư mà cách làm này có thể gây ra (do đó ở các nước công nghiệp, người ta hạn chế không sử dụng tài liệu này), những dữ kiện tổng điều tra dân số liên quan tới địa chỉ của các cá nhân sẽ nhanh chóng trở nên lỗi thời và lại càng đáng nghi ngờ sau hơn một năm, nên khó mà sử dụng để chọn mẫu. Mặt khác, tại phần lớn các nước kém phát triển nhất, loại dữ kiện này thường không được công bố, và chỉ có những người làm công tác nghiên cứu cho chính phủ mới có thể tiếp cận được.
            Tại một số nước, chẳng hạn như Ấn Độ, chính quyền cấp xã có lập danh sách cư dân, có kèm theo một số chỉ tiêu cơ bản, hoặc chỉ là một sổ danh sách mà thôi. Những hệ thống sổ sách này có thể trở thành một phương tiện để tiến hành việc chọn mẫu, nhưng cũng thường mang nhiều khiếm khuyết nghiêm trọng. Một công trình của Lipton và Moore (1972, trang 52) cho biết những loại sổ sách ấy thường là không đáng tin cậy lắm. Vì nhiều lý do, chúng thường không đầy đủ và không thể trở thành một công cụ tốt để có thể chọn mẫu hoặc kiểm kê dân số cơ bản.
            Các sổ bộ đất đai, nhất là khi có liên quan tới thu nhập, có lẽ tỏ ra là một nguồn tư liệu có triển vọng hơn. Ở phần lớn các nước châu Á, đây là loại hồ sơ có tầm quan trọng đặc biệt vì thuế ruộng đất thường là phương tiện chính mà qua đó nhà nước và người nông dân tiếp xúc với nhau. Tại nhiều nơi, chẳng hạn trên hầu như trên khắp đất nước Ấn Độ, nhà nước thường tuyển người dân ở trong làng để đảm nhận các chức năng hành chính và quản lý sổ sách về ruộng đất. Ấn Độ và Pakistan là những nước có loại sổ sách này đầy đủ nhất, trong đó có những thông tin chi tiết về chủ sở hữu và về việc sử dụng ruộng đất. Nhưng người ta không thể tìm được loại sổ bộ này ở những nước theo phương thức du canh hay chăn thả súc vật, hoặc ở phần lớn các nước châu Mỹ La-tinh, nơi mà ruộng đất không bị đánh thuế và có cơ cấu quyền lực địa phương theo kiểu khác (Lipton và Moore, 1972, trang 47).
            Các loại sổ bộ nói trên, ngay cả khi có vẻ đầy đủ, cũng vẫn có thể có thiếu sót do những người quản lý chúng không chịu cập nhật hoặc cố ý làm cho sai lạc. Các quan chức quản lý sổ bộ thường được trả lương rất thấp và do đó họ chẳng có hứng thú gì để tiến hành việc cập nhật. Còn việc cố ý làm sai lạc số liệu (ghi thêm hoặc ghi bớt số liệu về sở hữu ruộng đất hoặc sử dụng ruộng đất) thường xảy ra vì sổ sách này được dùng để tính thuế. Do đó nhà điều tra cần phải thận trọng khi sử dụng loại sổ sách này để nghiên cứu về ngôi làng (Lipton và Moore, 1972, trang 48-51).
            Tuy vậy, sự thận trọng này không có nghĩa là không thể tiến hành việc chọn mẫu xác suất ở Thế giới thứ ba. Chúng ta phải hiểu rằng việc chọn mẫu từ một danh sách các cá nhân là trường hợp ngoại lệ, chứ không phải là làm theo đúng nguyên tắc. Ở các nước công nghiệp, người ta ít khi áp dụng những cách làm này, trừ phi cần nghiên cứu những đối tượng dân cư đặc biệt.

Những giải pháp khác
            Nếu không tìm được những cái khung sẵn có thích hợp để có thể chọn mẫu, thì người ta có thể áp dụng những giải pháp khác. Thí dụ, đối với những công trình nghiên cứu ở khu vực nông thôn, người ta có thể dựa vào bản đồ không ảnh hoặc hình chụp không ảnh. Kể cả ở khu vực đô thị, phương pháp này cũng đáng tin cậy hơn nhiều so với các kết quả tổng điều tra dân số đã cũ hoặc không đủ số liệu. R.C. Mitchell (1973) chẳng hạn đã mô tả việc sử dụng hình chụp không ảnh để chọn ra mẫu nghiên cứu trong một cuộc điều tra ở Ibadan, thuộc Nigeria. Nhằm lập được một danh sách mẫu ngẫu nhiên từ một khu vực mà trong đó các căn hộ nằm phân tán một cách lộn xộn và không được đánh số, ông đã sử dụng các tấm hình chụp không ảnh để tiến hành việc chọn mẫu. Phương pháp được sử dụng là chia tấm bản đồ của khu vực điều tra ra thành một ma trận gồm các ô vuông (như một tấm lưới), mỗi ô vuông được đánh số theo kiểu “ngoằn ngoèo”, và cuối cùng mỗi ô vuông thứ n được chọn theo tỷ lệ chọn mẫu ngẫu nhiên nhất định (J. Ascroft, trong cuốn sách của Kearl, 1976, trang 37).
            Người ta thường sử dụng các bản đồ để chọn mẫu nhằm bổ sung cho các hoạt động tổng điều tra dân số vốn thường đòi hỏi phải chuẩn bị các tấm bản đồ thích hợp trên toàn quốc gia (xem Mabogunje, 1976). Đối với các giai đoạn thứ nhất và thứ hai trong một cuộc điều tra nhiều tầng (multistage survey), người ta phải sử dụng bản đồ, và tiến hành qui trình chọn lọc dựa trên tấm lưới các ô vuông trên tấm bản đồ. Một khi đã chọn được các ô vuông theo phương pháp ngẫu nhiên, người ta sẽ tìm cách nhận diện ra khu vực tương ứng trên mặt đất và liệt kê danh sách cư dân trên khu vực đó để có thể tiến hành việc chọn mẫu vào giai đoạn cuối cùng. Bản đồ cũng có thể được sử dụng để chọn mẫu ở cấp làng xã. Nếu đã chọn được một làng (vào giai đoạn chọn mẫu ban đầu), nhà điều tra sẽ thấy rất tiện dụng nếu lập được một tấm bản đồ đơn giản về khu vực mà mình sẽ chọn mẫu xác suất, và sau đó liệt kê danh sách toàn bộ dân cư trong khu vực đó. Người ta có thể vẽ loại bản đồ này theo một tiêu chuẩn chấp nhận được mà không cần kinh nghiệm điều tra chuyên nghiệp, và nhờ đó có được một cái khung chọn mẫu các hộ (Lipton và Moore, 1972, trang 43-46).
            Một điểm đặc biệt quan trọng phải thiết lập (nhất là trong các cuộc điều tra ở nông thôn) là các đường ranh giới địa lý của các đơn vị : “Đã xảy ra nhiều trường hợp cuộc điều tra bị tổn hại đáng kể vì không đảm bảo được việc nhận diện một cách chính xác các đường ranh giới của các đơn vị trong cái khung” (Casley và Lury, 1981, trang 74). Nếu cái khung không bao hàm được toàn bộ các bộ phận của một khu dân cư (chẳng hạn những căn hộ nằm bên ngoài ngôi làng chính) thì đây sẽ là một cái khung không đầy đủ và điều này sẽ dẫn đến những sai lệch nơi cái mẫu sẽ được chọn cuối cùng.

Chọn mẫu khu vực
            Có một cách thiết kế mẫu thường được áp dụng tại các nước đang phát triển, đó là chọn mẫu khu vực (area sampling). Người ta thường dễ dàng có được danh sách các ngôi làng hoặc các khu dân cư trong một nước, vốn được lập để tiến hành tổng điều tra dân số hoặc để phục vụ cho công tác thuế khóa. Vì danh sách này thường đáng tin cậy và đầy đủ, nên nó có thể được sử dụng để chọn một mẫu ngẫu nhiên. Trong một cuộc nghiên cứu về thái độ của nông dân Thổ Nhĩ Kỳ (1963), Frey đã tìm cách lập một mẫu những người Thổ Nhĩ Kỳ từ 16 tuổi trở lên đang cư trú trong những khu dân cư có qui mô từ 2.000 dân trở xuống. Việc chọn mẫu được thiết kế theo kiểu phân ra làm hai giai đoạn, đơn vị ở giai đoạn thứ nhất là các ngôi làng, và đơn vị ở giai đoạn thứ hai là người dân trong làng. Cuộc tổng điều tra dân số quốc gia năm 1960 đã lập ra một danh sách toàn bộ 35.000 ngôi làng trong cả nước, trong đó có địa điểm và dân số. Từ danh sách này, ông ta đã chọn ra 458 ngôi làng, phân tầng theo vùng và theo mức độ lân cận với từng trung tâm đô thị, với xác suất tương ứng với qui mô.
            Vào giai đoạn thứ hai, nhóm nghiên cứu của Frey đã công khai loại bỏ các danh sách đang có ở cấp làng (danh sách cử tri, và danh sách cư dân, do chính quyền trung ương và xã trưởng nắm) vì họ không coi đấy như là những cái khung thích hợp để có thể chọn mẫu. Thay vào đó, trong 9/10 số làng, các danh sách này chỉ được dùng như một khởi điểm, và từ đó, họ đã tiến hành việc xóa tên khỏi danh sách (đối với những người đã chết hoặc những người đã chuyển đi nơi khác), và ghi thêm những tên mới (đối với những người mới chuyển đến, những người đến tuổi trưởng thành, những người bị sót tên, v.v...), với sự trợ giúp của các xã trưởng và những người am hiểu. Còn trong số 1/10 số làng vốn không có danh sách cư dân, nhóm nghiên cứu đã phải lập danh sách từ đầu. Cuối cùng, họ đã sử dụng các danh sách thu được trên đây để lập ra một mẫu ngẫu nhiên bao gồm những người từ 16 tuổi trở lên (Frey, 1963).
            Trong Chương 9, có đoạn mô tả qui trình chọn mẫu khu vực nhiều tầng như trên đây (multistage area sampling) mà cuộc Điều tra mẫu toàn quốc Ấn Độ (Indian National Sample Survey) đã sử dụng. Đặc điểm đáng chú ý của cách thiết kế mẫu này là nó thu hẹp bớt khu vực địa lý cần phải nghiên cứu ngay từ những giai đoạn đầu. Để chuẩn bị cho việc chọn lựa mẫu lần sau cùng, nhóm nghiên cứu sẽ chuẩn bị danh sách các hộ hoặc các cá nhân sẽ được chọn mẫu vào giai đoạn cuối cùng.
            Một qui trình tương tự cũng đã được áp dụng cho nhiều cuộc điều tra cấp quốc gia trong khuôn khổ cuộc Điều tra về Khả năng sinh sản trên thế giới (World Fertility Survey). Những giai đoạn chính của khâu chọn mẫu trong các cuộc điều tra này là :
(1) Thiết lập một cái khung chọn mẫu khu vực (lập bản đồ).
(2) Lập danh sách các căn nhà (dwellings) và/hoặc các hộ (households) trong những khu vực được chọn ở giai đoạn (1) (danh sách).
(3) Thu thập dữ kiện về khả năng sinh sản trên một mẫu “lớn” rút ra từ giai đoạn (2).
(4) Lập danh sách các thành viên của các hộ ở giai đoạn (3) để xác định những người phụ nữ cần phải tiến hành phỏng vấn cá nhân.
(5) Việc phỏng vấn cá nhân đối với những phụ nữ nằm trong tuổi sinh đẻ thuộc các hộ.
            Kinh nghiệm của dự án rất qui mô này chứng tỏ rằng việc chọn mẫu xác suất có thể được tiến hành thành công tại những nước kém phát triển nhất.
            “Cuộc Điều tra về Khả năng sinh sản trên thế giới (WFS) đã khám phá ra rằng tuyệt đại đa số các nước đều có các huyện liệt kê trong các cuộc tổng điều tra dân số, kèm theo là bản đồ và một số số liệu về qui mô dân cư – các huyện này đều là những đơn vị khu vực ít nhiều thích hợp cho việc chọn ra một cái mẫu hoàn toàn ngẫu nhiên đại diện cho loại đối tượng cần khảo sát. Thực ra thì nhiều lúc cũng còn thiếu nhiều tư liệu : chẳng hạn... những bản đồ khu vực có được lại không chính xác, hoặc dữ kiện về dân cư trong khu vực có thể bị lạc hậu. Tuy nhiên, mặc dù có những khiếm khuyết đó, nhưng tình hình xét về đại thể vẫn rất đáng phấn khởi... Một trong những kết luận quan trọng nhất rút ra từ cuộc điều tra WFS là người ta có thể tiến hành những cuộc điều tra dựa trên phương pháp chọn mẫu ngẫu nhiên nghiêm nhặt tại phần lớn các nước đang phát triển” (Verma, 1977, trang 105).

Những hạn chế của việc chọn mẫu xác suất
            Bất cứ thiết kế chọn mẫu nào cũng bao hàm sai số, trong đó có thể chia ra làm sai số chọn mẫu (sampling error) và sai số ngoài chọn mẫu (non-sampling error). Sai số chọn mẫu là phần sai biệt giữa mẫu và giá trị nơi dân cư toàn bộ mà người ta có thể đo lường được nếu tiến hành với một cuộc tổng điều tra dân số theo những qui trình tương tự. Nếu không có bản liệt kê đầy đủ, thì các sai số chọn mẫu là do những biến thiên nội tại nơi các đơn vị dân cư. Trong trường hợp sử dụng các phương pháp chọn mẫu xác suất để chọn ra mẫu điều tra, các sai số chọn mẫu có thể được tính toán về mặt thống kê để đưa ra những số liệu ước lượng của dân số mẹ căn cứ trên các giá trị của mẫu điều tra (Moser và Kalton, 1971, trang 61-78 ; Warwick và Lininger, 1975, trang 82-94).
            Các sai số ngoài chọn mẫu (non-sampling error) là những sai số xuất phát từ những nguyên nhân khác dẫn đến việc đo lường một giá trị bị sai lệch và trở nên không chính xác. Những sai số loại này thường xuất hiện từ những khiếm khuyết trong qui trình tiến hành việc chọn mẫu hoặc trong những giai đoạn khác của cuộc điều tra. Chẳng hạn, nếu một số đơn vị của dân cư bị loại trừ khỏi cái khung chọn mẫu, thì điều này sẽ dẫn đến những sai lệch (bias) nơi mẫu điều tra vốn cũng là một nguồn gốc gây ra sai số ngoài chọn mẫu trong các kết quả điều tra. Khác với sai số chọn mẫu, sai số ngoài chọn mẫu rất khó phát hiện ra và rất khó ước lượng. Nhiều đoạn sau trong quyển sách này sẽ đề cập tới những nguồn gốc khác nhau của sai số ngoài chọn mẫu.
Hình 7.1
            Sai số tổng cộng có thể được trình bày bằng một hình tam giác (Hình 7.1). Bất cứ cuộc điều tra xã hội nào cũng có sai số, và cái chính của một bản thiết kế tốt là cố gắng làm sao giảm thiểu sai số càng nhiều càng tốt. Điều thấy rõ qua Hình 7.1 là nếu chỉ giảm sai số chọn mẫu mà thôi thì sẽ không đủ để giảm sai số tổng cộng, và việc giảm sai số tổng cộng sẽ ít hơn là mức độ giảm tương ứng trong sai số chọn mẫu. Việc giảm sai số đòi hỏi phải giảm cả sai số chọn mẫu lẫn sai số ngoài chọn mẫu, và nếu chỉ chú ý giảm sai số chọn mẫu mà thôi (chẳng hạn bằng cách tăng số lượng mẫu) thì điều này cũng sẽ dẫn đến chỗ giảm giá trị các kết quả.
            Điều này đặc biệt có khả năng xảy ra trong các cuộc điều tra tại các nước đang phát triển, nơi mà việc kiểm soát các sai số ngoài chọn mẫu thường phụ thuộc vào một số nhân tố như có định nghĩa các khái niệm một cách kỹ lưỡng hay không, các định nghĩa tác nghiệp có thích hợp hay không, những điều chỉ dẫn cho điều tra viên có rõ ràng và rạch ròi hay không, tình trạng biết chữ, kiến thức và mức độ hợp tác của những người trả lời, điều kiện sống, bối cảnh, kinh nghiệm và cường độ làm việc của các điều tra viên, tình trạng giao thông và liên lạc, mức độ giám sát cuộc điều tra có hiệu nghiệm hay không, và những nhân tố khác mà “nhà thống kê điều tra chỉ kiểm soát được rất ít hoặc không kiểm soát gì được cả” (Murthy, 1978, trang 246). Qui mô và mức độ nghiêm trọng của các sai số ngoài chọn mẫu, mà Michael Ward bàn luận trong Chương 10 và Robert Mitchell trong Chương 18, cũng như trong các phần IV và V của quyển sách này, có thể lớn hơn so với các sai số chọn mẫu. Ward đã trích dẫn lại một công trình nghiên cứu ở Tây Phi cho rằng chúng lớn hơn gấp bốn lần. Một công trình nghiên cứu ở Ấn Độ cho rằng chúng có thể lớn hơn các sai số chọn mẫu đến sáu lần (Casley và Lury, 1981, trang 87).
            Trong quá trình nghiên cứu của các ngành khoa học hàn lâm như xã hội học, nhân học và chính trị học, cách chọn mẫu phi xác suất (non-probability sampling) thường được sử dụng nhiều hơn là cách chọn mẫu xác suất (probability sampling) do “đối tượng dân cư không rõ rệt, thiếu những cái khung chọn mẫu, ngân sách nhỏ, thiếu thời gian, nhân viên thiếu kinh nghiệm, áp lực phải ra kết quả, và những thứ đại loại như vậy” (Hursh-César và Roy, 1976, trang 194). Cách chọn mẫu xác suất trên qui mô quốc gia như từng được áp dụng trong cuộc Điều tra mẫu toàn quốc Ấn Độ (Indian National Sample Survey) hay cuộc Điều tra về Khả năng sinh sản trên thế giới (World Fertility Survey) thực ra được thực hiện với ngân sách tương đối lớn của các chính phủ hoặc các tổ chức quốc tế.
            Tuy nhiên, khi lập kế hoạch nghiên cứu, người ta thường có thể chọn lựa giữa nhiều cách thiết kế mẫu khác nhau. Các loại mẫu phi xác suất (non-probability sample), mẫu phán đoán (judgemental sample) hay mẫu có mục đích (purposive sample) có thể được xây dựng theo nhiều cách thức khác nhau, chẳng hạn như mẫu theo hạn ngạch (quota sample), mẫu tình nguyện (volunteer sample), mẫu theo từng khoanh (chunk sample) và mẫu theo kiểu hòn tuyết (snowball sample). Tất cả các loại mẫu này đều ít tốn kém hơn nhiều so với những phương pháp xác suất thực sự, vốn thường hết sức tốn kém, nhưng không có cái nào có cơ sở lý thuyết để có thể cho phép suy rộng những giá trị từ mẫu ra toàn bộ dân số mẹ. Việc sử dụng phương pháp này chỉ dựa trên hy vọng rằng các đơn vị được phân bố một cách đồng đều và do đó mẫu có được sẽ mang tính chất “điển hình” (typical). Tuy vậy, trong thực tế, hiếm có khi nào được như vậy. Chẳng hạn, nếu chọn mẫu theo hạn ngạch (quota) hay theo từng khoanh (“chunk”) tại một khu chợ thì sẽ có nhiều khả năng là không đại diện cho dân cư, bởi lẽ tính chất sai lệch có hệ thống đã nằm ngay trong địa điểm địa lý nơi mà người ta lấy mẫu (xem Moser  và Stuart, 1953).
            Tuy nhiên, mức độ khá phổ biến của các sai số ngoài chọn mẫu trong các cuộc điều tra tại các nước đang phát triển đã khiến một số nhà bình luận đặt vấn đề nghi ngờ về giá trị tuyệt đối của chính phương pháp chọn mẫu xác suất. Quan điểm này đã được Michael Ward trình bày rất rõ ràng trong Chương 10, mặc dù nó cũng đã được nhắc đến trong Phần VI liên quan tới những cách thức kết hợp phương pháp luận. Ward lập luận rằng những công trình điển cứu (case studies) định tính qui mô nhỏ vẫn có khả năng đưa ra những dữ kiện hữu ích không kém gì so với kết quả có được từ những cái mẫu xác suất qui mô rộng với những dữ kiện không đầy đủ (ông ta trích dẫn những cuộc điều tra về thu nhập và chi tiêu để làm thí dụ).
            Lẽ tất nhiên, có những trường hợp mà người ta cần chọn phương pháp chọn mẫu phi xác suất thì hay hơn. Nếu mục tiêu không phải là có được một cái mẫu mang tính đại diện, mà là nghiên cứu về một số ít trường hợp, nhận diện các vấn đề hoặc phác thảo ra giả thuyết, thì cách làm này chắc chắn là phù hợp. Khi không có được cái khung để chọn mẫu và những cân nhắc về tài chính không cho phép tạo ra một cái khung chọn mẫu mới, thì người ta nên loại bỏ phương pháp chọn mẫu ngẫu nhiên. Phương pháp chọn mẫu phi xác suất cũng tỏ ra thích hợp khi cần mô tả những hệ thống hay thiết chế có số lượng nhỏ đến mức mà người ta không cần áp dụng các thủ tục thống kê – chẳng hạn, trong những công trình nghiên cứu về một ngôi làng, một nhà máy hay một công sở.
            Người ta cũng chứng minh được rằng cách chọn mẫu phi xác suất có thể chấp nhận được trong trường hợp một cư dân trong đó các thành viên mang những tính chất tương đồng nhau (homogeneous) hoặc được giả định là có những điều kiện giống nhau (homogeneity). Khi bạn mô tả một đơn vị, thì cũng có nghĩa là bạn đang mô tả tất cả các đơn vị khác. Trong một cuộc nghiên cứu về kinh doanh nông nghiệp ở Nigeria, lập luận này đã được sử dụng để biện minh cho phương pháp chọn mẫu phán đoán (judgemental sampling). Tại đây, người ta nhận thấy dường như có một mức độ tư bản hóa giống nhau[2] trong phương thức canh tác cổ truyền, bởi lẽ lao động vẫn còn là yếu tố nhập lượng chủ yếu và việc tiếp nhận những biện pháp cải tiến canh tác nông nghiệp đều gần như như nhau giữa các nông hộ. Vì không có độ chênh lệch gì lớn trong việc sử dụng các nguồn lực cũng như trong việc canh tác, nên việc không áp dụng phương pháp chọn mẫu xác suất có thể được coi là chính đáng (Kearl, 1976, trang 44). Tuy nhiên, việc đánh giá xem những điều kiện tỏ ra tương đồng đến mức nào là một vấn đề cần được xem xét, cân nhắc trong từng trường hợp cụ thể, chứ không thể coi đây như một lý do khỏa lấp để biện minh cho việc áp dụng phương pháp phi xác suất vào việc chọn mẫu. Những ai sử dụng những phương pháp này cần phải nhớ rằng họ đang thay thế phương pháp xác suất có thể đo lường được một cách khoa học bằng một sự phán đoán dựa trên trực giác. Trong trường hợp này, người ta không thể đo được các sai số chọn mẫu, cũng như không thể biết được mức độ sai lệch có thể có trong việc chọn mẫu.




[1] Hay còn thường gọi là dân số mẹ (chú thích của người dịch).
[2] Tức là mức độ sử dụng vốn giống nhau giữa các hộ (chú thích của người dịch).

16 nhận xét:

  1. Case studies = nghiên cứu loạt ca,Hà Nội thường dịch là chùm ca
    Ở đây tôi học thêm là Điển Cứu

    Trả lờiXóa
  2. có một trường hợp người ta dịch nó là "nghiên cứu trường hợp" nưa

    Trả lờiXóa
    Trả lời
    1. All you have to do learn English.beacaus it's very important of researcher.

      Xóa
  3. It's a shame you don't have a donаte button! I'd definitely donate to this brilliant blog! I suppose for now i'll sеttle foг boоk-marking and adding your RЅS feed to mу Gоogle аccount.
    I loоk forωaгԁ to bгand new updatеs
    and ωill share thіѕ ѕіte
    with mу Facеbook grοup.
    Chаt soon!

    Look intο my page - Mintedpoker offer

    Trả lờiXóa
  4. The elliptical treadmill also includes an indicator demonstrating specifically how many calories are burned.



    Feel free to visit my web site :: getfitnstrong.com

    Trả lờiXóa
  5. Great ωeblоg heгe! Also уour site lots up very fast!

    What web hοst aгe you uѕing?
    Can I am getting your associate lіnk on youг host?
    I ωish my site loaded uр as quiсkly as yours lol

    My ωebsite Red Kings Poker Bonus

    Trả lờiXóa
  6. Again when I experienced hours to commit within the bodyweight room for the reason that of the lack of other responsibilities,
    I accustomed to mock the commercials that insisted that using the BowFlex process,
    someone could sculpt a system similar to the ones shown using the devices.



    Here is my homepage: http://www.getfitnstrong.com/bowflex-dumbbells/bowflex-selecttech-dumbbells-ultimate-home-exercising/

    Trả lờiXóa
  7. The method includes everything that is available in the basic set but adds in the black resistance band which includes
    a resistance level of almost 25 lbs.

    My page ... cheap dumbbell sets

    Trả lờiXóa
  8. These dumbbells are adjustable from 5 kilos the many way up
    to 52.

    My weblog ... Skip Navigation

    Trả lờiXóa
  9. SelectTech 552 and 1090 dumbbells are particularly handy to your dwelling
    fitness centers and training parts since confined space
    is absolutely not a problem with its modern compact structure.


    my blog post: http://www.getfitnstrong.com/bowflex-dumbbells/bowflex-selecttech-dumbbells-ultimate-home-exercising/

    Trả lờiXóa
  10. Now they will use their laptop computer to observe on the net Television set, pop in the DVD
    for the film, examine the information on line and much more.


    my blog post: http://www.getfitnstrong.com/bowflex-dumbbells/reviewing-bowflex-selectt...

    Trả lờiXóa
  11. Αftеr I initіally commеnted I apρeaг to have clicked on the -Nоtifу me
    when new comments are added- сheсκbox and noω eаch time a сomment iѕ added Ι гecіeѵe 4 emailѕ ωith the exact ѕame comment.
    Ιs thеre a way you can remove me from that ѕervice?
    Kudoѕ!

    My ωebsite ... AmericasCardRoom Bonus

    Trả lờiXóa
  12. I say "try" because you WILL slip every now and then, and there will be times you might just should make do
    inside a situation and consume that Big Mac, darn it!



    Here is my webpage :: Suggested Studying

    Trả lờiXóa
  13. However this tends to show significant gains when to
    begin with starting, a plateau is usually achieved soon after
    awhile that will have creating human body builders switching over
    to cost-free weights.

    Feel free to visit my blog http://www.getfitnstrong.com/bowflex-dumbbells/

    Trả lờiXóa
  14. Waу cool! Sоme eхtremelу vаlіd poіnts!

    І appreciate you wrіting this article anԁ аlѕo the гest
    of the ѕite is also νeгy gοod.

    My ωebsitе - 888 Poker Offer ()

    Trả lờiXóa

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.