Hôm nay, ngày 19/04/2025 Đăng nhập | Đăng ký | Quên mật khẩu
Tin tức
THỐNG KÊ TRUY CẬP
Số lượt truy cập: 10.538
Tổng số Thành viên: 0
Số người đang xem:  2
Dữ liệu di động với Thống kê chính thức - P6 : Kinh nghiệm của Namibia với dữ liệu di động

Đăng ngày: 13/08/2020 12:13
    Dữ liệu di động với Thống kê chính thức - P6

5.3. Namibia

Cơ quan Thống kê Namibia (NSA) đã thực hiện dự án “nghiên cứu sử dụng dữ liệu di động trong lĩnh vực thống kê di cư”[1], nhằm mục đích:

-    Khám phá cách thức ước tính dòng người di cư nội địa hàng năm từ mô hình hóa dữ liệu CDR được thu thập tại các trạm BTS trên toàn quốc.

-    So sánh kết quả mức độ ước tính chính xác với dữ liệu di cư từ Tổng điều tra dân số 2011 ở Namibia.

Nguồn dữ liệu

 Để so sánh kết quả mức độ ước tính chính xác dòng người di cư nội địa từ nguồn CDR với dữ liệu di cư từ nguồn Tổng điều tra dân số thì dữ liệu cần thiết từ các nguồn:

Nguồn dữ liệu di cư từ Tổng điều tra dân số: Dữ liệu được lấy từ số liệu báo cáo di cư do NSA công bố 2015 (báo cáo được viết dựa trên kết quả Tổng điều tra dân số 2011).

Nguồn dữ liệu từ các bản ghi chi tiết cuộc gọi (CDR): dữ liệu được cung cấp bởi nhà mạng viễn thông di động MTC (MTC là nhà khai thác mạng lớn nhất ở Namibia với 76% thị phần người sử dụng và vùng phủ sóng 95% trên toàn quốc).

NSA sử dụng dữ liệu gồm 72 tỷ dòng bảng ghi dữ liệu ẩn danh CDR (10/2010 - 4/2014).Tuy nhiên, dữ liệu CDR không công khai vì thỏa thuận giữa MNO và NSA.

Bộ dữ liệu CDR có cấu trúc dữ liệu gồm các biến: thời gian, vị trí trạm BTS cho mỗi liên lạc, và một số ngẫu nhiên duy nhất (hashed_msisdn) được tạo cho mỗi người dùng. Vị trí gần đúng của người dùng được xác định bởi vị trí của trạm BTS cho mỗi liên lạc. Các dữ liệu vị trí được tổng hợp đến cấp vùng để phù hợp với dữ liệu vị trí di cư trong Tổng điều tra dân số và giảm thiểu việc sử dụng dữ liệu cấp độ cá nhân. 

NSA ước tính nơi cư trú của người dùng điện thoại di động là nơi người dùng được quan sát thấy thường xuyên nhất trong suốt thời gian thu thập (Nơi cư trú đề cập đến địa điểm mà một người thường sống tại đó ít nhất 6 tháng trở lên). 

Do đó, một cá nhân được coi là người di cư  nếu các vị trí của nơi cư trú thông thường (dưới 6 tháng) hoặc nơi cư trú trước đó không phù hợp với dữ liệu di cư từ nguồn Tổng điều tra dân số năm 2011.

Ngoài ra, dữ liệu về người dùng điện thoại di động không thường xuyên hoặc ngắn ngày (như trường hợp du lịch ít ngày, đi nghỉ lễ) có thể gây ra nhiễu thông tin trong việc xác định nơi cư trú.

Trong dự án, NSA lọc loại bỏ dữ liệu quan sát các bảng ghi những thông tin thuê bao người dùng di động hoạt động dưới 30 ngày trong mỗi năm. Và để khớp với mốc thời gian dữ liệu được sử dụng trong Tổng điều tra dân số 2011 có thể so sánh được giữa các giai đoạn 2011 và 2012, thì xác định nơi cư trú của người dùng di động theo từng giai đoạn cho mỗi năm: Năm 1 (10/2010 - 9/2011), Năm 2 (10/2011 - 9/2012) và Năm thứ 3 (10/2012 - 9/2013). Sau đó, so sánh các ước tính dòng người di cư từ nguồn CDR trong giai đoạn 2011 và 2012 thông qua so sánh nơi cư trú giữa năm 1 và 2 và giữa năm 2 và 3. Nếu người dùng di động thay đổi nơi cư trú giữa hai năm, thì được coi là người di cư, và ngược lại.

Phương pháp

Dự án sử dụng phương pháp mô hình dự báo và phân tích hồi quy tuyến tính để thực hiện khai thác dữ liệu di động. Các phương pháp mô hình được sử dụng gồm có ba loại và phân tích dữ liệu bằng phần mềm R (phiên bản 3.5.2) có sử dụng Gói tiện ích caret (Kuhn 2008). để phân tích và mô phỏng kết quả ước tính. Sau khi dữ liệu từ nguồn CDR đã được loại bỏ các trường hợp người dùng di động hoạt động ít hơn 30 ngày trong mỗi năm).

Giống như các phương pháp mô hình dự báo của điều tra dân số truyền thống, có ba loại mô hình để khám phá cách thức dự báo ước tính mức độ chính xác dòng người di cư từ nguồn CDR được trình bày trong (Bảng S1: Bảng mô hình chung) như (Hình 5.3.1)

 

Hình 5.3.1. Bảng các mô hình ước tính được sử dụng trong dự án

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

  

a: Mô hình tối ưu của từng hộ cho các vùng (trừ Zambezi), với RMSE thấp nhất (Hình S8).

b: Mô hình tối ưu của từng hộ cho các vùng, với RMSE thấp nhất (Hình S8)

  Trong bảng S1, các mô hình gồm:

1) Mô hình tuyến tính CDR (hay còn gọi mô hình CDRLM: mô hình giản đơn): mô hình chỉ sử dụng biến số lượng người di cư từ dữ liệu CDR hoặc kết hợp với hiệp phương sai được sử dụng trong mô hình trọng số; 

2) Mô hình tương tác không gian trọng số GTSIM (hay còn gọi là mô hình trọng số), được áp dụng để ước tính dòng người di cư dựa trên một phạm vi di chuyển. Các yếu tố liên quan tác động gồm: dân số và khoảng cách giữa nơi gốc và nơi đến. 

3) Mô hình CGTSIM (hay còn gọi là mô hình mở rộng): là mô hình mở rộng từ mô hình GTSIM bằng cách thêm một số biến liên quan từ dữ liệu CDR.

 

Mô hình tuyến tính CDR (CDRLM) . 

Mô hình tuyến tính CDR sử dụng các hệ số tương quan Pearson để đánh giá mối tương quan giữa dữ liệu di cư từ nguồn CDR và nguồn Tổng điều tra dân số. Nhằm giúp cho dữ liệu di cư từ nguồn CDR có thể sử dụng tốt nhất khi kết hợp với dữ liệu di cư từ nguồn Tổng điều tra dân số. Trong dự án, thiết kế bốn mô hình con của mô hình CDRLM ở bảng 1 (mô hình 1, 2, 3a, và 4b), có sử dụng các biến độc lập là biến số người dùng di động lấy từ nguồn CDR hoặc kết hợp với các đồng biến (xem mục 1.4 tài liệu bổ sung), mô hình tuyến tính CDRLM như mô tả dưới đây:

Mô hình trọng số (GTSIM) 

Mô hình trọng số dạng đơn giản nhất được dùng mô tả: số lượng dòng người di cư giữa các vùng tỷ lệ thuận với tổng số dân của vùng và tỷ lệ nghịch với khoảng cách giữa các vùng (bản chất mô hình trọng số mô tả: với khoảng cách gần số lượng người di cư nhiều và ngược lại):

Mô hình mở rộng (CGTSIM)

Mô hình mở rộng là mô hình được bổ sung thêm các yếu tố tiềm năng vào mô hình trọng số GTSIM, ví dụ như yếu tố đô thị hóa (Thành thị và nông thôn) và thiên tai (lượng mưa trung bình hàng năm) có thể ảnh hưởng đến sự di cư của con người giữa các vùng, từ đó suy rộng kết quả ước tính cho các vùng ở Namibia. Tuy nhiên, số lượng vùng ở Namibia không nhiều (13 vùng). Để đảm bảo kết quả cho các mô hình mở rộng, việc ước tính thử nghiệm chỉ thay thế tổng dân số với các biến tỷ lệ dân số sống ở thành thị (  và và yếu tố lượng mưa trung bình hàng năm ( và ở nơi gốc và nơi đến tương ứng. 

Mặc dù cả hồi quy logistic và Poisson đã được sử dụng trong mô hình trọng số để dự đoán dòng người di cư. Nên kết quả đầu ra từ hồi quy logistic sẽ giống với kết quả hồi quy Poisson. Nhưng thử nghiệm với với  mô hình GTSIM, kết quả ước tính cho thấy chỉ có mô hình hồi quy logistic phù hợp dưới đây:

Kết quả dự án

  1. 1.   Phân tích mối tương quan dữ liệu di cư từ nguồn Tổng điều tra dân số với nguồn CDR . 

 

Hình 5.3.2. Bản đồ di cư nội địa từ nguồn Tổng điều tra dân số ở Namibia (9/2010 – 8/2011)

(A) Bản đồ dòng người di cư theo vùng (Số lượng người di cư được ghi dưới tên từng vùng).

(B) Đồ thị mô tả dòng người di cư giữa các vùng (Nơi gốc và nơi đến của dòng người di cư có cùng một màu và biểu thị bằng các đoạn vòng tròn). Số lượng người di cư được ghi trên các đoạn hình tròn.

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

 

Hình 5.3.3. (A) Bản đồ mạng lưới đường bộ và các đô thị (Dữ liệu lấy từ bản đồ Trái đất (www.naturalearthdata.com/doads/10m-cestation-vector/10m-urban-area/) và dữ liệu mạng lưới đường bộ lấy từ DIVA-GIS (www.diva-gis.org); (B) Bản đồ mật độ dân số  (www.worldpop.org); (C) Bản đồ lượng mưa hàng năm (worldclim.org/version2).

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Theo Tổng điều tra dân số và nhà ở Namibia năm 2011, có 40.867 người (2,0% trong tổng số 2.013.671 người) di cư (thay đổi nơi cư trú giữa các vùng ở Namibia trong thời gian một năm trước Tổng điều tra dân số vào tháng 8 năm 2011), với dòng người nhập cư cao nhất là khu vực Khomas và khu vực thủ đô của Namibia. Dòng người xuất cư cao nhất khu vực Zambezi ở phía đông bắc Namibia (xem Hình 5.3.2 và 5.3.3). 

Dựa trên dữ liệu (CDR) từ 10/2010 - 4/2014. Cơ quan Thống kê Namibia ước tính (11,2% người di cư sử dụng điện thoại trong 1.049.379 người dùng di động). Cách ước tính số người dùng di động di cư bằng cách so sánh vị trí nơi cư trú của người dùng di động giữa hai năm (10/2010 - 9/2011) và (10/2011 - 9/2012) trong Giai đoạn 2011 (Hình 5.3.4 và Hình 5.3.5). 

 

Hình 5.3.4. So sánh vị trí thuê bao hàng tháng và hàng năm từ nguồn CDR (2012).

(A)    Tỷ lệ người dùng điện thoại từ dữ liệu CDR hàng tháng để xác định vị trí thuê bao;

(B)     Người dùng có vị trí thuê bao hàng tháng khớp với vị trí hàng năm (loại trừ người dùng CDR dưới 1 tháng).

(C)    Tỷ lệ vị trí thuê bao hàng tháng khớp với vị trí hàng năm xác định theo vùng. (Tỷ lệ được xác định là vị trí thường xuyên nhất quan sát thấy có phát sinh dữ liệu CDR ở cấp vùng trong toàn bộ khoảng thời gian thu thập).

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Hình 5.3.5. So sánh các khoảng thời gian khác nhau để xác định vị trí người dùng.  (A) Tỷ lệ vị trí hàng tháng khớp với vị trí hàng năm sử dụng dữ liệu CDR thời gian khác nhau và trong ba giai đoạn: Năm 1 (10/2010 – 9/2011), Năm 2 (10/2011 – 9/2012) và Năm 3 (10/2012 – 9/2013); (B) Tỷ lệ Z (có vị trí hàng tháng khớp với vị trí hàng năm) (Giải thích Hình 5.3.4).

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Từ (Hình 5.3.5 A): Tỷ lệ trong Năm 1 và Năm 2 gần như giống nhau

Phân tích hệ số tương quan (r = 0,83) chứng tỏ mối tương quan cao giữa dữ liệu di cư từ nguồn Tổng điều tra dân số với nguồn CDR trong giai đoạn 2011 (Hình 5.3.6). 

 

Hình 5.3.6. Mối quan hệ giữa số dân di cư từ nguồn Tổng điều tra dân số năm 2011 với nguồn CDR theo cấp vùng trong các giai đoạn 2011 (A) và 2012 (B). Các đường liền màu xanh lục biểu thị sự phù hợp hồi quy tuyến tính, với các giá trị p và  .

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Mặt khác, khi phân tích mối tương quan giữa dữ liệu di cư (r = 0,91) từ nguồn Tổng điều tra dân số và nguồn CDR ước tính 117.173 người di cư (11,2% người di cư có dùng di động trong 1.049.379 người dùng di động) (Hình 5.3.7 và Hình 5.3.8).

Hệ số tương quan cao, nhưng sự khác biệt đáng kể trong ước tính số lượng người di cư đã được nhận thấy khi so sánh dữ liệu di cư từ nguồn Tổng điều tra dân số (40.867 người) và từ nguồn CDR (117.173 người di cư). Qua mô hình phân tích (Hình 5.3.8 và Hình 5.3.9) đã chỉ ra sự khác biệt ở vùng Zambezi.

Vùng Zambezi (Theo số liệu điều tra dân số 2011 có gần 70000 người dân), với số dân giảm một tỷ lệ đáng kể (5,5% số người dùng di động tương đương khoảng 60.000 người), nguyên nhân được cho là dòng người di cư vì lũ lụt xảy ra tại Zambezi từ tháng 4 - 6/2010, ngoài khung thời gian thu thập thông tin của Tổng điều tra dân số và CDR (Số liệu công bố bởi NSA 2015).

 

 

Hình 5.3.7. Mối tương quan cao giữa dữ liệu số dân di cư từ nguồn Tổng điều tra dân số 2011 và nguồn CDR ở cấp độ vùng, trong đó, (A) và (B) cho tất cả 13 vùng của Namibia, (C) và (D) cho 12 vùng (trừ Zambezi). Đường thẳng màu xanh biểu thị sự phù hợp hồi quy tuyến tính, với các giá trị p và .

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

 

 

Hình 5.3.8. Biểu đồ dòng người di cư giữa các vùng ở Namibia từ nguồn CDR

năm 2011 (A) và năm 2012 (B) (giải thích ý nghĩa biểu đồ xem Hình 5.3.1)

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

 

Hình 5.3.9. Mối tương quan giữa số dân di cư từ nguồn Tổng điều tra dân số năm 2011 và nguồn CDR của các vùng ở  Namibia (trừ Zambezi) trong giai đoạn 2011 (A) và 2012 (B). Các chấm màu xanh biểu thị cho dân số di cư từ vùng này sang vùng khác và các chấm đỏ biểu thị cho cư dân số ở cùng vùng (Không di cư).

Các đường thẳng màu xanh biểu thị hồi quy tuyến tính phù hợp với giá trị p và .

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Mặt khác, theo định nghĩa được sử dụng trong Tổng điều tra dân số của Cơ quan thống kê Namibia 2015), nếu người dân chuyển đến nơi mới trước tháng 9/2010 và vẫn ở nơi như vậy vào thời điểm Tổng điều tra dân số, thì được coi là người không di cư. 

Vì thế, người dân di cư khỏi Zambezi đi đến nơi mới trước tháng 9 năm 2010 (trùng với thời gian người dân đi tránh trận lũ ở Zambezi từ tháng 4 - 6/2010) có thể đã bị phân loại sai là người di cư trong cuộc Tổng điều tra dân số (28/8/2011 -15/9/2011)

Để phân tích kỹ hơn, dự án đã quan sát dữ liệu từ CDR hàng tháng, thấy rằng dòng người di cư ở Zambezi dường như là theo mùa không có thay đổi bất thường từ 10/2010 -  4/2014 (Hình 5.3.10). 

 

Hình 5.3.10. Dòng người nhập cư (màu hồng) và xuất cư (màu xanh) ở vùng Zambezi từ nguồn CDR với các nơi cư trú được xác định từ tháng 1 (A) đến tháng 6 (F) qua các năm. Nơi cư trú ở cấp vùng được xác định là vị trí thường xuyên quan sát được của người dùng di động trong khoảng thời gian tương ứng.

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Sau khi lọc bỏ dữ liệu người di cư ở vùng Zambezi khỏi dữ liệu từ nguồn Tổng điều tra dân số, các mối tương quan giữa dữ liệu di cư từ nguồn Tổng điều tra dân số và nguồn CDR được cải thiện đáng kể, với giá trị r tăng từ 0,84 lên 0,96.

Do đó, các kết quả dưới đây được trình bày với hai trường hợp ước tính có tất cả các vùng ở Namibia và ước tính loại trừ vùng Zambezi

So sánh lựa chọn mô hình dự báo di cư. Để phân tách bộ dữ liệu phục vụ tính toán các chỉ số mức độ phù hợp với Tổng điều tra dân số cho từng mô hình, dự án đã sử dụng phương pháp xác thực chéo phù hợp (Hastie và cộng sự, 2009) , trong đó các chỉ số được tính toán bao gồm: RMSE,  và AIC để lựa chọn mô hình dự báo phù hợp. Mô hình có RMSE thấp nhất được xác định là mô hình tối ưu để sử dụng ước tính dòng người di cư giữa các vùng ở Namibia.

Trong dự án cho thấy rằng mô hình CDRLM có khả năng dự đoán tốt hơn các mô hình GTSIM, CGTSIM. Qua đó, thấy rằng sự bổ sung thêm các yếu tố không giúp cho mô hình trọng số mở rộng CGTSIM dự báo tốt hơn (Hình 5.3.11 – 5.3.13).

 

 

Hình 5.3.11. Chỉ số RMSE của mô hình CDRLM, GTSIM, CGTSIM từ nguồn CDR.

(A), (B) và (C): RMSE cho tất cả các vùng, (D), (E) và (F): RMSE loại trừ Zambezi .

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Hình 5.3.12. Chỉ số của các mô hình CDRLM, GTSIM và CGTSIM.

(A), (B) và (C):  cho tất cả các vùng,  (D), (E) và (F):  loại trừ vùng Zambezi .

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Hình 5.3.13. Tiêu chí Akaike (AIC) để lựa chọn mô hình CDRLM, GTSIM và CGTSIM.

(A), (B) và (C): AIC cho tất cả các vùng.

(D), (E) và (F): AIC cho tất cả các vùng (loại trừ Zambezi).

 (Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Hơn nữa để chắc chắn, Khi sử dụng các mô hình hồi quy không gian tự tương quan và phi không gian có thể tồn tại trong dữ liệu CDR (Tobler 1970; Getis 2008; Sorichetta và cộng sự, 2016), một thử nghiệm được sử dụng để kiểm tra đã thực hiện xáo trộn vị trí người dùng di động để đánh giá xem có sự ảnh hưởng của yếu tố không gian đến kết quả của mô hình ước tính. 

Đầu tiên, thực hiện hoán đổi vị trí dữ liệu di cư ngẫu nhiên có nơi gốc từ dữ liệu Tổng điều tra dân số trên tất cả các vùng. Sau đó, tính toán RMSE cho mỗi mô hình đã được hoán đổi bằng cách sử dụng từng biến phụ thuộc đã được hoán vị. Với cách thực hiện  hoán vị như vậy, RMSE có thể được tính toán thông qua 1000 lần lặp. Nhưng trong dự án thử nghiệm (Hình 5.3.14) đã đưa ra kết luận giả định rằng các yếu tố không gian không ảnh hưởng tới các mô hình ước tính dòng người di cư.

 

Hình 5.3.14. Chỉ số RMSE của các mô hình được kiểm tra từ nguồn Tổng điều tra dân số được xáo trộn thông qua 1000 lần lặp.

(A) CDRLM chỉ dùng một biến CDR chưa được điều chỉnh

(B), (C) và (D) kết quả ước tính của CDRLM, GTSIM và CGTSIM tối ưu tương ứng, sử dụng CDR chưa điều chỉnh và các đồng biến khác (Hình 5.3.1 và 5.3.11) (loại trừ Zambezi)

* Mô hình con số 1 của mô hình CDRLM.

** Mô hình con số 3 của mô hình CDRLM.

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Với RMSE thấp nhất thì cả ba loại mô hình tối ưu được lựa chọn có thể nắm bắt được các mô hình dòng người di cư giữa các vùng (Hình 5.3.15),

 

Hình 5.3.15. So sánh các mô hình ước tính di cư giữa các vùng ở Namibia (trừ Zambezi).

(A) Biểu đồ ước tính dòng người di cư từ nguồn Tổng điều tra dân số Namibia năm 2011.

(B) Biểu đồ ước tính được thực hiện bởi mô hình CDRLM.

(C) Biểu đồ ước tính được thực hiện bởi mô hình GTSIM.

(D) Biểu đồ ước tính được thực hiện bởi mô hình CGTSIM.

RMSE thấp nhất từ nguồn CDR chưa điều chỉnh (Hình 5.3.1 và Bảng 5.3.11).

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

Dựa vào tiêu chí AIC của mô hình nào thấp nhất sẽ là mô hình tốt nhất, thì thấy rằng AIC của mô hình CRDLM là thấp nhất (Hình 5.3.16 C). Với mô hình CDRLM đơn giản có độ ước tính chính xác cao hơn so với GTSIM và CGTSIM (Hình 5.3.16).

 

Hình 5.3.16.Đánh giá ba chỉ số của các mô hình suy rộng từ nguồn Tổng điều tra dân số.

( A ) RMSE; ( B ) ; ( C ) AIC; ( D ) - ( F ): Mô tả sự phân bố dữ liệu di cư từ nguồn CDR chưa được điều chỉnh sử dụng các mô hình CDRLM, GTSIM, CGTSIM (trừ Zambezi). 

Chỉ có các mô hình GTSIM và CGTSIM có RMSE thấp nhất được trình bày ở đây. 

Công thức của các mô hình chi tiết (Hình 5.3.1 và Hình. 5.3.11 – 5.3.13)

*   Mô hình con số 1 của mô hình CDRLM. 

** Mô hình con số 3 của mô hình CDRLM.

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Ngoài ra, dòng người di cư theo vùng, có các ước tính từ CDRLM tương quan cao (  = 0,97, 0,97 và 0,94) với dữ liệu từ Tổng điều tra dân số (Hình 5.3.17 và Hình 5.3.18).

 

Hình 5.3.17. So sánh ước tính dòng người di cư từ nguồn Tổng điều tra dân số 2011 với nguồn CDR chưa điều chỉnh bằng các mô hình cho tất cả các vùng (trừ Zambezi) ở Namibia:

 ( A ), ( B ) và ( C ): thực hiện bởi mô hình CDRLM

 ( D ), ( E ) và ( F ): thực hiện bởi mô hình GTSIM

 ( G ), ( H ) và ( I ): thực hiện bởi mô hình CGTSIM

(Chỉ có mô hình có RMSE thấp nhất được trình bày ở đây).

 (Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

 

 

Hình 5.3.18. So sánh ước tính dòng người di cư từ nguồn Tổng điều tra dân số 2011 với nguồn CDR chưa điều chỉnh bằng các mô hình cho tất cả các vùng ở Namibia.

 (A), (B) và (C): thực hiện bởi mô hình CDRLM

 (D), (E) và (F): thực hiện bởi mô hình GTSIM

 (G), (H) và (I): thực hiện bởi mô hình CGTSIM

(Chỉ có mô hình có RMSE thấp nhất được trình bày ở đây).

 (Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Ước tính dòng người di cư cho giai đoạn 2012 từ mô hình được lựa chọn CDR. Vì Tổng điều tra dân số tiến hành 2011, nên dữ liệu di cư 2012 bị thiếu để sử dụng cho các mô hình ước tính dòng người di cư trong giai đoạn 2012, Do đó, Mô hình CDRLM chỉ sử dụng dữ liệu từ nguồn CDR trong giai đoạn 2012 cùng với các hệ số điều chỉnh phù hợp cho giai đoạn 2011 để dự đoán dòng người di cư giai đoạn 2012 và so sánh kết quả của mô hình ước tính dòng người di cư qua các năm. Hơn nữa, số lượng người dùng điện thoại di động tăng từ năm 2011. Do vậy, dữ liệu sử dụng từ nguồn CDR trong giai đoạn 2012 bị ảnh hưởng nặng nề bởi yếu tố này (Hình 5.3.8 và 5.3.19). Để khắc phục sai số đó  được thực hiện bằng cách điều chỉnh tăng quyền sở hữu điện thoại di động qua các giai đoạn (hay được gọi là dữ liệu CDR được điều chỉnh).

Quyền sở hữu điện thoại di động .Vì số người dùng di động chỉ đại diện cho một tỷ lệ nhóm nhất định của toàn bộ dân số ở Namibia. Do đó, Cơ quan Thống kê Namibia sử dụng dữ liệu  của  Bộ Y tế Namibia 2014) để đánh giá mức độ Quyền sở hữu điện thoại di động để loại trừ một số nhóm nhất định ở cấp độ hộ gia đình trong bộ dữ liệu CDR (Xem dữ liệu bảng S2 và S3 trong tài liệu bổ sung)

Trong kết quả phân tích dự án, để giải thích cho xu hướng sở hữu điện thoại di động tăng trên các vùng, các mô hình được đề cập ở trên cũng được kiểm tra bằng cách sử dụng dữ liệu CDR được điều chỉnh theo hai cách tiếp cận tương ứng: 1) Sử dụng tỷ lệ sở hữu điện thoại di động để giảm sự ảnh hưởng của dữ liệu di cư từ dữ liệu CDR theo vùng; 2) Thêm tỷ lệ quyền sở hữu như là một biến bổ sung vào các mô hình.

 

Hình 5.3.19. Ước tính dòng người di cư theo mô hình CDRLM chỉ sử dụng nguồn CDR  cho giai đoạn 2011 và 2012.

(A), (B) và (C): Đồ thị ước tính dòng người di cư cho tất cả các vùng

(D), (E) và (F): Đồ thị ước tính dòng người di cư cho tất cả các vùng (trừ vùng Zambezi)

(A) và (D): Đồ thị ước tính số người dùng điện thoại từ nguồn CDR  

(B) và (E): Các ước tính dòng người di cư  bởi CDRLM từ nguồn CDR 2011 chưa điều chỉnh

(C) và (F): Các ước tính dòng người di cư  bởi CDRLM từ nguồn CDR 2011 điều chỉnh để dự đoán di cư 2012.

 (Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Để so sánh các kiểu di cư giữa hai giai đoạn. Dự án đã điều chỉnh số lượng di cư sử dụng điện thoại di động CDR năm 2012 theo vùng để bù đắp cho tỷ lệ ngày càng tăng quyền sở hữu qua các giai đoạn. 

Sau đó, mô hình CDRLM chỉ sử dụng dữ liệu CDR và các hệ số ước tính cho giai đoạn 2011 đã được sử dụng để dự đoán di cư cho Giai đoạn 2012 sử dụng dữ liệu CDR được điều chỉnh tương ứng (Hình 5.3.19). Việc thực hiện phải nhất quán mô hình ước tính các dòng người di cư giữa các giai đoạn 2011 đến 2012 cũng như các dòng người di cư được tổng hợp theo vùng (Hình. 5.3.19 – 5.3.21). 

 

Hình 5.3.20. So sánh dòng người di cư từ nguồn Tổng điều tra dân số năm 2011 và dùng CDRLM thực hiện dự báo cho năm 2012. (Các mô hình CDRLM chỉ sử dụng nguồn CDR 2011 để dự đoán di cư vào năm 2012, tương ứng)

(A) Ước tính sử dụng nguồn CDR 2012 chưa điều chỉnh cho tất cả các vùng.

(B) Ước tính sử dụng nguồn CDR 2012 được điều chỉnh cho tất cả các vùng (dựa vào dữ liệu người dùng di chuyển có sử dụng điện thoại di động)

(C) Ước tính sử dụng nguồn CDR 2012 chưa điều chỉnh cho tất cả các vùng (trừ Zambezi).

(D) Ước tính sử dụng nguồn CDR 2012 được điều chỉnh cho tất cả các vùng  (trừ Zambezi).

 

 (Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

 

Hình 5.3.21. So sánh ước tính dòng người di cư giữa các vùng của mô hình CDRLM cho giai đoạn 2012 từ Tổng điều tra dân số năm 2011 (Các mô hình CDRLM chỉ sử dụng nguồn CDR 2011 để dự đoán di cư vào năm 2012, tương ứng)

(A), (B) và (C): Dự báo dòng người di cư giữa các vùng bằng CDRLM sử dụng CDR 2012 chưa điều chỉnh.

(D),(E) và (F): Dự báo dòng người di cư giữa các vùng bằng CDRLM sử dụng CDR 2012 được điều chỉnh. (Loại trừ Zambezi)

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

 

 

Nhận xét: dòng người di cư giữa các giai đoạn có sự khác biệt lớn hơn trong dòng người di cư giữa các vùng, với nhiều người xuất cư từ các khu vực Tây-Nam và nhập cư khu vực phía bắc Namibia (Hình 5.3.22).

 

Hình 5.3.22. Số liệu ước tính dòng người di cư của mô hình CDRLM sử dụng nguồn CDR cho thấy sự khác biệt giữa sự di cư theo vùng giai đoạn 2011(A) và giai đoạn 2012 (B). Số liệu ước tính sử dụng CDR chưa điều chỉnh, và được điều chỉnh của Giai đoạn 2012 được ghi dưới tên của từng vùng tương ứng (trừ Zambezi)

(Nguồn: https://www.researchgate.net/publication/331967667_Exploring_the_use_of_mobile_phone_data_for_national_migration_statistics)

Kết luận dự án

Qua dự án, Mamibia đã so sánh bộ dữ liệu CDR và dữ liệu truyền thống cho kết quả rất khả quan. Đây là căn cứ đánh giá tiềm năng dữ liệu di động có thể sản xuất ra số liệu thống kê di cư.

| Chia sẻ |
THẢO LUẬN  
Chưa có thảo luận nào
Ý KIẾN CỦA BẠN  
  Hãy đăng nhập để thảo luận
  Tin cùng loại cũ hơn
Dữ liệu di động với Thống kê chính thức - P5 Kinh nghiệm Estonia với dữ liệu di động
Dữ liệu di động với Thống kê chính thức - P4 : Kinh nghiệm Indonesia với dữ liệu di động
Dữ liệu di động với Thống kê chính thức - P3 : Công nghệ và quy trình khai thác dữ liệu di động
Dữ liệu di động với Thống kê chính thức - P2 : Ứng dụng dữ liệu di động trong các lĩnh vực thống kê
Dữ liệu di động với Thống kê chính thức - P1 : Tổng quan về dữ liệu di động