Hôm nay, ngày 19/04/2025 Đăng nhập | Đăng ký | Quên mật khẩu
Tin tức
THỐNG KÊ TRUY CẬP
Số lượt truy cập: 10.538
Tổng số Thành viên: 0
Số người đang xem:  3
Dữ liệu di động với Thống kê chính thức - P4 : Kinh nghiệm Indonesia với dữ liệu di động

Đăng ngày: 13/08/2020 12:12
    Dữ liệu di động với Thống kê chính thức - P4

  1. 4.   Kinh nghiệm một số tổ chức và quốc gia trên thế giới về khai thác dữ liệu di động trong thống kê

Trên thế giới hiện nay có nhiều Cơ quan thống kê quốc gia ứng dụng dữ liệu di động trong thống kê, có những Cơ quan Thống kê triển khai khá sớm như, Indonesia (2016), Estonia (2007), Namibia (2010). Đặc biệt, kinh nghiệm của Indonesia đã được UNSC viết thành tài liệu hướng dẫn cho các nước khác tham khảo khi xây dựng dự án ứng dụng dữ liệu di động cho thống kê. Do đó, báo cáo trình bày kinh nghiệm của ba quốc gia trên.

5.1. Indonesia

Năm 2015, tại Hội nghị thượng đỉnh về phát triển bền vững của Liên hợp quốc, hơn 150 nhà lãnh đạo thế giới đã thông qua Chương trình nghị sự 2030 mới về phát triển bền vững, bao gồm 17 Mục tiêu phát triển bền vững (SDGs). Các mục tiêu đưa ra nhằm mục đích chấm dứt nghèo đói, bất bình đẳng, hành động về biến đổi khí hậu và môi trường, cải thiện khả năng tiếp cận với y tế và giáo dục, xây dựng các thể chế và quan hệ đối tác mạnh mẽ, v.v. Trong đó, Indonesia đã sử dụng dữ liệu điện thoại di động để hỗ trợ thực hiện tính toán một số chỉ tiêu trong các mục tiêu toàn cầu số 8, số 12 và số 14 trong 17 mục tiêu toàn cầu:

  Chỉ tiêu SDG 8: Thúc đẩy tăng trưởng kinh tế bền vững, toàn diện, liên tục; tạo việc làm đầy đủ, năng suất và việc làm tốt cho tất cả mọi người

è Mục tiêu: 8.9  Đến năm 2030, phát triển du lịch bền vững, tạo việc làm, tạo sản phẩm và dịch vụ du lịch có khả năng cạnh tranh với các nước trong khu vực và thế giới; thúc đẩy quảng bá văn hóa và sản phẩm địa phương

     Chỉ tiêu SDG 12: Đảm bảo mô hình sản xuất và tiêu dùng bền vững.

è Mục tiêu 12.b: Xây dựng và thực hiện các công cụ để giám sát tác động sư phát triển bền vững ngành du lịch, ngành tạo ra nhiều công ăn việc làm, thúc đẩy văn hóa và các sản phẩm địa phương.

     Chỉ tiêu SDG 14: Bảo tồn và sử dụng bền vững đại dương, biển và nguồn lợi biển để phát triển bền vững

è Mục tiêu 14.7 Đến năm 2030 tăng cường lợi ích kinh tế cho các quốc đảo nhỏ đang phát triển và nước kém phát triển bằng việc sử dụng  các nguồn tài nguyên biển một cách bền vững, thông qua việc quản lý ngành nghề thủy sản, nuôi trồng thủy sản và du lịch.

Thông qua dự án “Sử dụng dữ liệu di động để sản xuất số liệu thống kê về nơi lưu trú tại Indonesia[1]. Chúng ta sẽ phân tích tìm hiểu công nghệ khai thác dữ liệu và cách thực hiện quy trình khai thác dữ liệu điện thoại di động ở Indonesia để sản xuất số liệu thống kê về vị trí nơi lưu trú, và di cư tại Indonesia. Đồng thời hỗ trợ cho việc thực hiện tính toán các chỉ tiêu SDG mà Indonesia đang thực hiện tính toán.

Dự án được BPS triển khai từ tháng 10 năm 2016, tiến hành kết hợp thu thập khai thác từ dữ liệu định vị của thuê bao di động (MPD). Bên cạnh đó, BPS cũng tiến hành dự án khảo sát gửi phiếu điện tử đối với 50.000 khách du lịch nhằm khắc phục các hạn chế của MPD hiển thị sai lệch vị trí thuê bao di động dựa trên hệ thống định vị (GPS) ở các vùng biên giới giữa với các quốc gia khác xung quanh Indonesia. Dàn mẫu của khảo sát điện tử được chọn từ bộ dữ liệu của MPD.

MPD (Mobile Positioning Data) là dữ liệu định vị di động, cho phép người dùng xác định vị trí lộ trình di chuyển và điểm đến của của người dùng điện thoại di động. Thông qua việc sử dụng MPD. BPS có thể trích xuất được các dữ liệu cần thiết phục vụ cho công tác thống kê du lịch như: lịch trình di chuyển của khách du lịch, số lượng khách du lịch, thời gian lưu trú, địa điểm du lịch phổ biến,….

Trước khi sử dụng dữ liệu MPD để hỗ trợ sản xuất số liệu thống kê về di chuyển của khách du lịch, thì BPS sử dụng dữ liệu khách du lịch nội địa từ nguồn dữ liệu hành chính của Tổng cục Di trú của Indonesia.

Quy trình khai thác dữ liệu di động của Indonesia

-      Chuẩn bị dữ liệu

BPS phối hợp với một nhà mạng di động Telkomsel có thị phần lớn nhất Indonesia (có phạm vi phủ sóng khoảng 92% dọc biên giới và 70% trên toàn quốc) để thực hiện thu thập khai thác dữ liệu định vị di động. MPD được sử dụng để điều chỉnh các vị trí ngoài ranh giới tại 19 vùng mà việc kiểm tra di cư khó khăn và không thực hiện được khảo sát dọc biên giới. Mục đích là để tăng phạm vi đảm bảo chính xác vị trí của thuê bao di động trong nước. Vì vậy, dữ liệu MPD được sử dụng như một nguồn dữ liệu bổ sung cho nguồn dữ liệu hành chính ở Indonesia.

Nguồn dữ liệu di động BPS cần khai thác và trích xuất phục vụ cho thống kê số lượng và di chuyển của khách du lịch bao gồm:

+ Vị trí thuê bao, trong đó:

-         Dữ liệu định vị thường xuyên cố định của thuê bao (VD: từ nhà đến chỗ làm)

-         Dữ liệu di chuyển mang tính không thường xuyên (VD: thuê bao đi du lịch tại những địa điểm mới khác với địa điểm thường xuyên cố định thuê bao).

+ Thời gian lưu trú tại một địa điểm của thuê bao nhằm mục đích thống kê tình hình di chuyển và lưu trú của một khách du lịch.

 

 Hình 5.1.1. Dữ liệu di động mô tả lịch trình di chuyển của thuê bao

(Nguồn:_https://www.researchgate.net/publication/333892477_The_Use_of_Mobile_Positioning_Data_to_Obtain_Accommodation_Statistics_Case_Study_of_Indonesia)

Cấu trúc dữ liệu di động

Trong Dự án triển khai của Indonesia thu thập thông qua các trạm BTS nên nguồn dữ liệu di động có thể từ:

-   Dữ liệu các bản ghi thông tin cuộc gọi (CDR)

-   Dữ liệu từ dịch vụ dựa trên vị trí (LBS).

Để BPS sử dụng dữ liệu di động được trích xuất từ MNO đúng mục đích thì các yêu cầu đặt ra: Lựa chọn phương pháp thu thập và thuật toán phù hợp để khai thác.

Với các yêu cầu đặt ra, phương pháp thu thập dữ liệu định vị di động thụ động (CDR) là phù hợp với mục đích. Bởi vì, phương pháp thu thập dữ liệu định vị di động thụ động (CDR) thu thập dữ liệu hình thành mỗi khi sự kiện (gọi/nhắn tin) được thực hiện bởi người dùng điện thoại di động.

Trong khi đó, Phương pháp thu thập dữ liệu di động từ dịch vụ dựa trên vị trí (LBS) thu thập dữ liệu hình thành định kỳ do sự hiện diện của người dùng điện thoại di động tại một địa điểm nhất định.

Dữ liệu bản ghi thông tin các cuộc gọi (CDR) được sử dụng để biên soạn số liệu thống kê liên quan đến vị trí lưu trú của người dùng điện thoại, đặc biệt là tính toán thời gian lưu trú trung bình của thuê bao tại một ví trí lưu trú, gồm hai bảng có cấu trúc dữ liệu:

Bảng 1 (bảng dữ liệu thô): dữ liệu của khách hàng từ các sự kiện phát sinh cước phí trong vùng phát sóng, bảng có cấu trúc dữ liệu bao gồm:

• hashed_msisdn: dãy số được tạo ngẫu nhiên để xác định số thuê bao là duy nhất

• trx_date: ngày giao dịch

• datetime: thời gian giao dịch (ngày, giờ)

• lac: Mã vùng của trạm thu phát gốc (BTS)

• cell_id: Mã số của trạm BTS

• calltype: loại sự kiện, bao gồm

-         CHG_POST (được ghi nếu có một cuộc gọi/tin nhắn (SMS) gửi đi)

-         CHG_PRE (được ghi lại nếu có là một cuộc gọi /nhắn tin (SMS) nhận được)

-         LBA_ALL (được ghi lại khi có cập nhật vị trí từ nơi khách hàng di chuyển).

• Timezone: múi giờ, bao gồm WIB, WITA và WIT.

-         WIB: Múi giờ miền Tây Indo (sớm hơn 7 giờ so với GMT (UTC + 07:00)

-         WITA: Múi giờ miền Trung Indo (sớm hơn 8 giờ so với GMT (UTC + 08:00

-         WIT: Múi giờ miền Đông Indo (sớm hơn 9 giờ so với GMT  (UTC + 09:00)

 

Hình 5.1.2. Ảnh mô tả cấu trúc một phần dữ liệu bảng 1 (Dữ liệu thô)

(Nguồn: https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Bảng thứ 2: Thông tin tham chiếu về khu vực cho mỗi sự kiện phát sinh cước phí được ghi trong Bảng 1, bao gồm các thông tin:

• lac: Mã vùng của trạm thu phát gốc (BTS)
• cell_id: Mã số của trạm BTS
• province: Mã tỉnh
• districts: Mã Quận/huyện
• sub-district: Mã khu vực (nhỏ hơn cấp Quận/ huyện)
• kelurahan: Mã Thôn (gồm nhiều làng/bản)
• longitude: kinh độ của trạm BTS
• latitude: vĩ độ của trạm BTS

 

Hình 5.1.3. Ảnh mô tả cấu trúc một phần dữ liệu bảng 2 (Bảng tham chiếu)

(Nguồn:https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Hai bảng sẽ được nối dựa trên thông tin thuê bao và dữ liệu về lac (Mã vùng) và cell_id để lấy thông tin không gian. Mỗi bản ghi được ghi trong bảng raw_data sẽ được bổ sung bằng mô tả địa lý dựa trên bảng vùng thông số.

 

Hình 5.1.4. Ảnh mô tả kết hợp dữ liệu di động bảng 1 và bảng 2

(Nguồn: https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Sau khi dữ liệu đã được liên kết từ hai bảng, BPS đưa ra một khung phân tích, nhằm phân loại được trường hợp nào là đi du lịch, trường hợp nào là đi làm việc, bản mô tả chi tiết thuật toán cho khung phân tích có thể xem trong tài liệu của dự án. Thuật toán của khung phân tích được mô tả như hình dưới đây.

 

Hình 5.1.5: Ảnh mô hình khung phân tích để lọc đối tượng di chuyển

(Nguồn: https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Sau khi khung phân tích được thiết kế. BPS thực hiện sử dụng công cụ HiveQL viết thành chương trình để xử lý dữ liệu đưa vào khung phân tích để khai thác dữ liệu.

 

Hình 5.1.6: Ảnh mô tả thuật toán lọc đối tượng di chuyển đi du lịch hay đi làm việc

(Nguồn: https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Trong quá trình khai thác xử lý dữ liệu chương trình sẽ lọc các dữ liệu thuê bao được xác định là đi làm nhờ điều kiện lọc thông qua biến thời gian nếu ở nhà trong khoảng (17.00 – 08.59) và được theo dõi hàng ngày và hàng tuần thì đây là trường hợp đi làm. Như hình ảnh mô tả dưới đây.

 

Hình 5.1.7. Ảnh mô tả xử lý lọc dữ liệu đối tượng đi làm

(Nguồn: https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Từ kết quả lọc BPS sử dụng phần mềm R để phân tích như hình ảnh dưới đây.

 

Hình 5.1.8: Ảnh sử dụng phần mềm R phân tích dữ liệu di động

(Nguồn: https://unstats.un.org/bigdata/events/2019/jakarta/default.asp)

Kết quả đạt được của dự án[2]:

            Dự án triển khai từ năm 2016 và được áp dụng vào phân tích dữ liệu di động trong khoảng thời gian diễn ra Asian Games 2018 cho thấy có khoảng 80.000 du khách nước ngoài đến từ 126 quốc gia số lượng được mô tả trong hình ảnh dưới đây.

 

Hình 5.1.9. Số lượng khách du lịch đến Indonesia trong thời gian Asian Games 2018

(Nguồn: https://www.positium.com/blog/project-highlight-analysing-asian-games-the-biggest-sports-event-in-asia)

Kết quả Dự án đã tính được thời gian lưu trú trung bình của khách du lịch tại Indonesia, thể hiện qua độ đậm nhạt của màu xanh như trong hình ảnh dưới đây:

 

Hình 5.1.10: Thời gian trung bình du khách ở lại Indonesia (Asian Games 2018)

(Nguồn: https://www.positium.com/blog/project-highlight-analysing-asian-games-the-biggest-sports-event-in-asia)

 (Hình 5.1.10), Dữ liệu di động tiết lộ rằng khách du lịch ở xa như Châu Âu và Châu Mỹ hầu như không đến với Asian Games 2018. Du khách Ấn Độ đến và ở lại thời gian lâu nhất. Những nơi được thăm quan nhiều nhất khi đại hội diễn ra là Bandung, Banyuasin, đảo Kemaro, Batam và Bali. 

Với kết quả dự án trên BPS đã đạt được mục tiêu:

-   Sử dụng dữ liệu di động, BPS có thể ghi lại và giám sát sự di chuyển của khách du lịch nước ngoài đến Indonesia tại biên giới một cách hiệu quả và chính xác.

-   Sử dụng dữ liệu di động trong thống kê là hoạt động phù hợp với chiến lược phát triển thống kê của Indonesia 2015-2019 với mục tiêu tối đa hóa việc sử dụng CNTT, đồng thời phù hợp với khuyến nghị của Liên Hợp Quốc về cách mạng dữ liệu được nêu trong báo cáo Một thế giới đếm số.

-   Sử dụng dữ liệu di động hỗ trợ bổ sung cho nguồn dữ liệu hành chính trong việc tính các chỉ tiêu di cư và du lịch và tính toán được các chỉ tiêu SDG của Indonesia.

Điểm mới của dự án

-   Tính toán được thời gian trung bình lưu trú của khách du lịch đến Indonesia.

-   Tính được số lượng khách. Việc tính toán được BPS áp dụng rất đơn giản bằng cách lấy tất cả dữ liệu từ thuộc tính thông tin hashed_msisdn duy nhất, lọc bỏ các đối tượng sử dụng thuê bao di động là đi làm, thì những đối tượng còn lại là đi du lịch.

Công nghệ khai thác dữ liệu

-   Sử dụng Hadoop để lưu trữ Dữ liệu định vị di động với kích thước rất lớn.

-   Sử dụng công cụ ngôn ngữ lập trình HiveQL, Map Reduce để xử lý dữ liệu lớn.

Bên cạnh những kết quả đạt được thì một số hạn chế cũng được chỉ ra:

-      BPS tự viết chương trình khung phân tích để thực hiện lọc dữ liệu từ nguồn dữ liệu di động, điều này sẽ rất khó đòi vì hỏi những kỹ sư lập trình có kinh nghiệm trong xử lý dữ liệu .

-      Cơ chế phối hợp thu thập dữ liệu nhờ vào một biên bản ký cam kết giữa Telkomsel và BPS [3], Trong trong tương lai BPS tự thực hiện triển khai sẽ rất khó khăn

-      Dữ liệu di động cũng có một số hạn chế như: thiếu sự kiểm soát chất lượng dữ liệu; thiếu các thông tin như mục đích chuyến đi, loại hình lưu trú của khách du lịch; mức chi tiêu của chủ thuê bao, hành vi của người sử dụng điện thoại di động

-      Ví dụ, Cư dân Indonesia có thể sử dụng thẻ SIM nước ngoài khi họ đi qua biên giới và có thể được xác định là khách du lịch nước ngoài (ví dụ chính là Malaysia). Ngược lại, cư dân Malaysia có thể sử dụng thẻ SIM của Indonesia vì có những người bán thẻ sim ở cửa khẩu, họ bán cả hai thẻ SIM (Indonesia và Malaysia).

-       Điểm trống: có khả năng một khách du lịch, người đã ở trong nước vài ngày trước khi đến điểm kiểm tra nhập cư, dữ liệu định vị di động biến mất (có thể do điện thoại di động bị tắt), sau đó tín hiệu định vị di động được thu bởi các điểm thu ở biên giới (có thể tính trùng gấp đôi).

-      Mã di động quốc gia (MCC)  hoặc mã mạng di động (MNC) sai do đầu tư (ví dụ là rất nhiều số của Việt Nam ở Timor Leste, có thể đó không phải là người Việt mà là người Timor Leste).

| Chia sẻ |
THẢO LUẬN  
Chưa có thảo luận nào
Ý KIẾN CỦA BẠN  
  Hãy đăng nhập để thảo luận
  Tin cùng loại cũ hơn
Dữ liệu di động với Thống kê chính thức - P3 : Công nghệ và quy trình khai thác dữ liệu di động
Dữ liệu di động với Thống kê chính thức - P2 : Ứng dụng dữ liệu di động trong các lĩnh vực thống kê
Dữ liệu di động với Thống kê chính thức - P1 : Tổng quan về dữ liệu di động