BÁO CÁO NGHIÊN CỨU: DỮ LIỆU DI ĐỘNG VỚI THỐNG KÊ CHÍNH THỨC
Tổng hợp: Công Hoan, Phòng NCPP – TC - QTTK
NỘI DUNG
TÓM TẮT.. 3
GIỚI THIỆU.. 3
1. Tổng quan về dữ liệu di động. 6
1.1. Khái niệm dữ liệu di động. 6
1.2. Cấu trúc dữ liệu của dữ liệu di động. 7
1.3. Các thuộc tính thông tin của dữ liệu di động. 8
1.3.1. Thuộc tính thông tin về số thuê bao di động. 8
1.3.2. Thuộc tính thông tin về thiết bị di động. 9
1.4. So sánh dữ liệu di động và dữ liệu truyền thống. 11
1.5. Nguồn dữ liệu di động. 12
1.6. Thu thập dữ liệu di động. 13
1.7. Lưu trữ dữ liệu di động. 14
1.8. Mô hình khai thác dữ liệu di động hiệu quả. 15
1.9. Ý nghĩa Dữ liệu di động đối với thống kê. 16
2. Ứng dụng dữ liệu di động. 17
3. Công nghệ khai thác dữ liệu di động. 23
3.1. Công cụ trực quan hóa dữ liệu. 23
3.2. Cơ sở dữ liệu quan hệ. 23
3.3. GIS. 23
3.4. Hadoop. 23
3.5. R 24
3.6. SAS. 24
3.7. NoSQL.. 24
3.8. Điện toán đám mây. 24
3.9. API 24
3.10. Python. 24
4. Quy trình khai thác dữ liệu di động với thống kê. 26
4.1. Chuẩn bị dữ liệu. 26
4.2. Ẩn danh dữ liệu. 27
4.3. Mã hóa dữ liệu. 27
4.4. Truyền dữ liệu. 27
4.5. Lưu trữ dữ liệu. 27
5. Kinh nghiệm một số tổ chức và quốc gia trên thế giới về khai thác dữ liệu di động trong thống kê 29
5.1. Indonesia. 29
5.2. Estonia. 38
5.3. Namibia. 48
6. Đề xuất. 71
DANH MỤC TỪ VIẾT TẮT/GIẢI THÍCH
|
|
AIC
|
Tiêu chí thông tin Akaike (dùng lựa chọn mô hình tối ưu)
|
BPS
|
Cơ quan Thống kê Indonesia
|
CDR
|
Dữ liệu nhật ký chi tiết cuộc gọi
|
DDR
|
Dữ liệu chi tiết – hồ sơ trao đổi dữ liệu trong mạng di động
|
GPS
|
Hệ thống định vị toàn cầu
|
GWG
|
Nhóm làm việc toàn cầu về dữ liệu lớn của Liên hợp quốc
|
HLR
|
Dữ liệu vị trí đăng ký ban đầu của thuê bao
|
IMEI
|
Số nhận dạng thiết bị di động trên toàn thế giới
|
IMEISV
|
Số nhận dạng thiết bị di động quốc tế - Phiên bản phần mềm
|
IPDR
|
Dữ liệu bản ghi chi tiết giao thức Internet
|
ITU
|
Liên minh viễn thông quốc tế
|
LBS
|
Dữ liệu từ dịch vụ dựa trên vị trí
|
MNO
|
Các nhà cung cấp dịch vụ mạng viễn thông (Nhà mạng)
|
MPD
|
Dữ liệu định vị của thuê bao di động
|
MPO
|
Các nhà cung cấp dịch vụ mạng viễn thông (Nhà mạng)
|
RMSE
|
Sai số bình phương trung bình gốc
|
SDGs
|
Mục tiêu phát triển bền vững
|
SE
|
Cơ quan Thống kê Estonia
|
SGSN
|
Thông tin đăng ký của khách hàng
|
SIM
|
Số thuê bao
|
SMS
|
Tin nhắn
|
SNA
|
Cơ quan Thống kê Namibia
|
SPSS
|
Phần mềm SPSS
|
UN
|
Liên Hợp Quốc
|
UNSC
|
Cơ quan Thống kê Liên Hợp Quốc
|
UNSTATS
|
Cơ quan Thống kê Liên Hợp Quốc
|
VLR
|
Dữ liệu vị trí hiên tại mới nhất của thuê bao
|
|
Kiểm định R
|
TÓM TẮT
Các nghiên cứu dữ liệu di động trong thống kê di cư có khả năng cung cấp những hiểu biết giá trị về sự di chuyển của người dùng điện thoại di động. Điều này, giúp các nhà hoạch định chính sách dự báo trước sự dịch chuyển quy mô dân số theo các vùng trong cả nước. Qua đó có được quyết định chính sách phát triển xã hội kịp thời và phù hợp theo từng vùng. Thông qua phân tích về tiềm năng của dữ liệu di động đối với lĩnh vực thống kê nói chung và thống kê di cư nói riêng để thấy rõ điều này.
GIỚI THIỆU
Trong lịch sử hình thành và phát triển của điện thoại ngày nay, thời kỳ đầu điện thoại cố định ở một địa điểm và chỉ thực hiện một chức năng duy nhất nghe gọi. Về sau, điện thoại được cải tiến di chuyển dễ dàng mang theo người, chức năng của điện thoại cũng được mở rộng hơn có thể nhắn tin (SMS). Cho đến nay, điện thoại đã được cải tiến vượt trội (điện thoại thông minh). Ngoài các chức năng của điện thoại truyền thống, thì chúng còn có khả năng làm việc như một máy tính xử lý dữ liệu khối lượng lớn, và tạo ra dữ liệu có giá trị được lưu trữ. Những dữ liệu đó có ý nghĩa giúp chúng ta thống kê, hiểu biết rõ hơn về sự di chuyển của người dùng điện thoại, và rộng hơn là dự đoán được sự chuyển dịch quy mô dân số trong tương lai.
Hơn nữa, trong những năm gần đây nguồn dữ liệu di động (thường đề cập đến dữ liệu điện thoại di động) là một trong những nguồn dữ liệu lớn với nhiều tiềm năng để sử dụng trong thống kê chính thức. Với một kỳ vọng dữ liệu điện thoại di động có thể lấp đầy các khoảng trống dữ liệu trong lĩnh vực thống kê nói chung và thống kê di cư nói riêng.
Theo số liệu thống kê của Liên minh viễn thông quốc tế (ITU) (Bảng 1.1) cho thấy:
Bảng 1.1. Số lượng thuê bao di động trên toàn cầu sử dụng dữ liệu di động 3G (2019)
Đơn vị: triệu thuê bao
Phân loại nhóm các nước (trình độ phát triển)
|
Số lượng
|
Phân loại nhóm các nước (Khu vực Địa lý)
|
Số lượng
|
Các nước phát triển
|
1252
|
Châu Âu
|
682
|
Các nước đang phát triển
|
5876
|
Châu Á và Thái Bình Dương
|
4049
|
Các nước chậm phát triển (LCDs)
|
815
|
Châu Mỹ
|
966
|
|
|
Châu Phi
|
825
|
|
|
Các nước Ả Rập
|
386
|
|
|
Cộng đồng các quốc gia độc lập
|
213
|
(Nguồn: Số liệu báo cáo về số thuê bao di động của Liên minh viễn thông quốc tế (ITU): https://www.itu.int/en/ITU-D/Statistics/Documents/statistics/2019/ITU_Key_2005-2019_ICT_data_with%20LDCs_28Oct2019_Final.xls)
|
Ở Việt nam, theo số liệu thống kê của Cục Viễn thông, Bộ Thông tin và Truyền Thông tính đến tháng 5/2020 số lượng thuê bao di động có sử dụng dữ liệu đang hoạt động là gần 127 triệu thuê bao di động[1]
Hình 1.1. Tổng hợp số liệu về số lượng thuê bao di động tại Việt Nam (Tháng 5/2020)
(Nguồn: Bộ Thông tin và Truyền thông)
Bên cạnh đó, cơ sở hạ tầng số lượng lớn các trạm phát sóng tín hiệu dữ liệu di động tại Việt Nam sử dụng dựa trên nhiều loại nền tảng công nghệ khác nhau như công nghệ GSM, công nghệ UTMS (3G) và LTE (4G) được tổng hợp tại bảng dưới đây.
Bảng 1.2. Bảng tổng hợp số lượng các trạm BTS tai Việt Nam
Đơn vị tính: Trạm
Quốc gia
|
Tổng số trạm
|
GSM
(phổ biến)
|
CDMA (tốc độ cao)
|
UMTS (3G)
|
LTE (4G)
|
Việt Nam
|
219,455
|
65.093
|
0
|
147.361
|
7,001
|
(Nguồn: https://www.opencellid.org/stats.php)
Đặc biệt, Nhóm nghiệp vụ về dữ liệu điện thoại di động thuộc nhóm làm việc toàn cầu GWG của Liên Hợp Quốc đã đưa ra số liệu, dựa theo số liệu của ITU trong báo cáo năm 2018[2] cho thấy số lượng các thuê bao di động ngày càng phát triển. Tuy nhiên, ITU cũng chỉ ra rằng vẫn còn khoảng cách về mức độ sử dụng điện thoại di động giữa khu vực thành thị và nông thôn. Nhưng nhìn chung ITU cho rằng mức độ sử dụng điện thoại di động là phổ biến trên toàn cầu. Từ nhìn nhận đó, GWG đã xem xét phát triển ứng dụng dữ liệu điện thoại di động trong thống kê chính thức và biên soạn tài liệu hướng dẫn chi tiết để các quốc gia có thể tham khảo trong quá trình thiết kế một dự án sử dụng dữ liệu điện thoại di động trong hoạt động thống kê của mình[3].
Do đó, trong báo cáo nghiên cứu sẽ chia sẻ về các nội dung liên quan đến dữ liệu di động với thống kê chính thức, nhằm giúp chúng ta có những hiểu biết về tiềm năng và các ứng dụng thực tiễn của dữ liệu di động trong lĩnh vực thống kê và các lĩnh vực khác.
Báo cáo gồm 6 phần (Tổng quan về nguồn dữ liệu di động; Ứng dụng dữ liệu di động trong thực tiễn nói chung và thống kê di cư nói riêng; Công nghệ khai thác nguồn dữ liệu di động; Quy trình khai thác dữ liệu di động trong thống kê; Kinh nghiệm của một số tổ chức và quốc gia trên thế giới về ứng dụng dữ liệu di động trong lĩnh vực thống kê; Đề xuất nghiên cứu ứng dụng dữ liệu di động cho Thống kê Việt Nam).
1. Tổng quan về dữ liệu di động
Hiện nay, trong nghiên cứu khoa học cách hiểu và giải thích về dữ liệu di động chưa có sự đồng thuận với nhau giữa các tổ chức và các quốc gia trên thế giới, nên phần tổng quan sẽ làm rõ những nội dung: Bản chất dữ liệu di động là gì; Cấu trúc dữ liệu của dữ liệu di động; Nguồn dữ liệu di động đến từ đâu; Cách thức thu thập và lưu trữ dữ liệu di động; Dữ liệu di động chứa những thuộc tính thông tin gì có giá trị đối với thống kê.
1.1. Khái niệm dữ liệu di động
Theo WhatIs.com[4]: Dữ liệu di động là nội dung thông tin Internet được gửi đến các thiết bị di động như điện thoại thông minh và máy tính bảng thông qua kết nối dữ liệu internet không dây.
Theo Ting.com[5]: Dữ liệu di động là dữ liệu cho phép điện thoại của chúng ta kết nối internet không dây khi không có mạng Wi-Fi. Các thiết bị di động có thể gửi và nhận thông tin qua kết nối internet không dây.
Dễ hiểu hơn, Mobile data is the one which allows your phone to connect with the internet[6] (Dữ liệu di động là dữ liệu cho phép điện thoại của chúng ta kết nối với internet).
Ví dụ, chúng ta có thể đăng ký 1 gói dịch vụ dữ liệu di động 3G để truy cập internet, thay vì việc phải sử dụng mạng wifi để truy cập internet. Khi đó, dữ liệu 3G chính là dữ liệu di động của các nhà mạng cung cấp cho chúng ta. Khi bắt đầu đăng ký gói dịch vụ 3G, chúng ta phải đăng ký những thuộc tính thông tin cơ bản với nhà mạng, như tên, số thuê bao, vị trí ban đầu khi đăng ký thuê bao v.v... Tuy nhiên, những thuộc tính thông tin đăng ký đó sẽ được nhà mạng tự trích xuất kiểm tra từ kho cơ sở dữ liệu thuê bao sẵn có của họ, đây là kho dữ liệu chủ động của nhà mạng lưu trữ khi người dùng đăng ký mua SIM lần đầu tiên. Và trong quá trình sử dụng gói dịch vụ 3G đó thực hiện nhắn tin, gọi điện, truy cập internet sẽ sinh ra các dữ liệu về nội dung cuộc gọi, dữ liệu tin nhắn, dữ liệu về vị trí tạm thời của các thuê bao, dữ liệu truy cập web các dữ liệu này được các nhà mạng thu thập và lưu trữ dữ liệu thụ (tự) động.
Từ những khái niệm và ví dụ trên đã đề cập, có thể thấy dữ liệu di động chủ yếu từ nguồn dữ liệu điện thoại di động. Do đó, báo cáo nghiên cứu dữ liệu di động sẽ tập trung vào dữ liệu điện thoại di động, mà không tập trung đến dữ liệu thiết bị di động khác như máy tính bảng v.v.
1.2. Cấu trúc dữ liệu của dữ liệu di động
Sự khác biệt rõ nhất giữa dữ liệu di động và dữ liệu truyền thống. Đó là, khả năng dữ liệu di động cho phép chúng ta sử dụng truy cập internet,và chứa đựng rất nhiều thông tin đa dạng. Do cấu trúc dữ liệu của dữ liệu di động chứa đựng rất nhiều thuộc tính thông tin có chức năng đặc biệt, mà cấu trúc dữ liệu truyền thống không có. Để rõ hơn về khả năng đó của dữ liệu di động. Chúng ta sẽ thấy được qua mô hình dưới đây, mô tả về cấu trúc dữ liệu của dữ liệu di động.

Hình 1.2. Mô hình cấu trúc dữ liệu cho dữ liệu di động
(Nguồn: Cấu trúc dữ liệu cho dữ liệu di động: https://dl.acm.org/doi/abs/10.5555/314161.314435)
Một cấu trúc dữ liệu của dữ liệu di động duy trì các thuộc tính quan trọng trong một hệ thống các thuộc tính thông tin luôn thay đổi. Việc duy trì thay đổi dựa trên một thuật toán (kinetise) biến đổi dữ liệu tĩnh thành dữ liệu mới có cấu trúc mới hợp lệ và liên tục thay đổi. Để mô tả cho cấu trúc dữ liệu di động (Hình 1.2). Trong hình, b,d,e,f là các sự kiện gọi hoặc nhắn tin liên tục. Khi bắt đầu (1) và khi diễn ra sự kiện tiếp theo (2) giữa các lần của các sự kiện có thể diễn ra như trong hình: khi bắt đầu (1) sự kiện d gặp sự kiện e, và b không gặp e, khi sang sự kiện tiếp theo (2) sự kiện b gặp e, trong khi đó d không gặp e. Cấu trúc dữ liệu di động vẫn đảm bảo cho sự liên tục về thông tin liên tục thay đổi. Đây là điều khác biệt rõ nét giữa cấu trúc dữ liệu của dữ liệu di động và dữ liệu truyền thống.
(Hình 1.2) cho thấy cấu trúc dữ liệu di động được thiết kế rất linh hoạt giúp cho MNO có thể làm được nhiều ứng dụng khác nhau, trong khi cấu trúc dữ liệu truyền thống đơn giản không có thuật toán đi kèm. Ngoài để sử dụng truy cập mạng, dữ liệu di động còn giúp chúng ta có thể làm nhiều ứng dụng khác. Ví dụ, từ nguồn dữ liệu điện thoại di động của nhà mạng, có thể trích xuất cho nhiều mục đích khác nhau như giám sát sức khoẻ cộng đồng, theo dõi và giám sát tình hình giao thông, được thực hiện thông qua các thuật toán được thiết kế phù hợp cho từng lĩnh vực riêng.
1.3. Các thuộc tính thông tin của dữ liệu di động
Cấu trúc dữ liệu di động, có thành phần quan trọng bên trong gồm các thuộc tính thông tin của dữ liệu, những thuộc tính thông tin đó được hình thành từ 2 cách:
Cách chủ động: khi người dùng mua SIM (sở hữu số thuê bao) đăng ký thông tin thuê bao di động với các nhà MNO. Khi đó, MNO sẽ tiến hành lưu trữ các thuộc tính thông tin về số thuê bao di động.
Cách cách thụ động: khi người sử dụng thuê bao di động có một sự kiện gọi điện hoặc đăng ký sử dụng dịch vụ dữ liệu điện thoại di động. Ngay lúc đó, các thông tin về thiết bị di động và nội dung cuộc gọi đều được MNO cập nhật vào hệ thống và lưu trữ nội dung của các thuộc tính thông tin về cuộc gọi và thông tin thiết bị điện thoại di động.
Do đó, các thuộc tính thông tin của dữ liệu di động có được từ các MNO chính là các thuộc tính có được từ việc đăng ký số thuê bao di động và việc đăng ký sử dụng các dịch vụ dữ liệu di động của thiết bị di động.
1.3.1. Thuộc tính thông tin về số thuê bao di động
Các thuộc tính thông tin của số thuê bao di động phù hợp nhất để sử dụng cho thống kê di cư là những thuộc tính giúp phân biệt các thuê bao riêng lẻ với nhau và thường tồn tại lâu hơn so với thuộc tính thông tin liên quan đến thiết bị, vì trong thực tế mọi người hay có xu hướng thay đổi thiết bị điện thoại nhiều hơn là thay đổi số SIM. Điểm quan trọng để lựa chọn thuộc tính thông tin số thuê bao cho mục đích thống kê di cư là:
- • Số thuê bao phải là duy nhất trong khoảng thời gian theo dõi.
- • Số thuê bao được lựa chọn phải tồn tại trong thời gian theo dõi.
Do đó, nên lựa chọn người chỉ dùng một số thuê bao duy nhất để tránh trường hợp có thể có người sử dụng nhiều số thuê bao khác nhau với một điện thoại di động. Sẽ gây ra nhiễu dữ liệu nhận nhầm đó là nhiều người khác nhau, nhưng thực tế chỉ là một người.
Ngoài các thuộc tính thông tin về thuê bao, MNO còn lưu trữ thông tin bổ sung về người sở hữu số thuê bao trong cơ sở dữ liệu thuê bao. Thông tin thuộc tính về người sở hữu số thuê bao được thu thập và lưu trữ của MNO thường bao gồm:
• Đặc điểm thông tin cá nhân của người sở hữu số thuê bao (chủ sở hữu hợp đồng), tuổi tác, giới tính, ngôn ngữ ưa thích, nơi ban đầu đăng ký số thuê bao v.v.
• Thông tin chi tiết về hợp đồng và dịch vụ:
- Người sở hữu số thuê bao là tư nhân hay doanh nghiệp (dựa vào hoá đơn)
- Chi phí của dịch vụ
- Loại hợp đồng (SIM trả trước, SIM trả sau, v.v….)
Thông tin người sở hữu số thuê bao luôn luôn nhạy cảm và không phải lúc nào cũng chính xác (người dùng điện thoại có thể khác với chủ làm hợp đồng sở hữu số thuê bao). Tuy nhiên, những thông tin trên cũng có giá trị góp phần cho phân tích thống kê di cư theo giới tính, hoặc phân nhóm di cư theo khu vực thành thị và nông thôn, và có thể phân nhóm di cư theo nhóm độ tuổi.
1.3.2. Thuộc tính thông tin về thiết bị di động
Tất cả các thiết bị di động trên toàn cầu đều được nhận dạng duy nhất bởi IMEI (Số nhận dạng thiết bị di động trên toàn thế giới) hoặc IMEISV (Số nhận dạng thiết bị di động quốc tế - Phiên bản phần mềm). Những thuộc tính thông tin thiết bị này không liên quan chặt chẽ với số thuê bao, vì các thuộc tính thông tin IMEI và IMEISV của thiết bị được giữ lại khi chúng ta sử dụng số thuê bao khác cho thiết bị này. Các thuộc tính thông tin IMEI và IMEISV được coi là thông tin tạm thời có thể được lưu trữ trong dữ liệu HLR(dữ liệu vị trí đăng ký ban đầu của thuê bao), SGSN (Thông tin đăng ký của khách hàng) hoặc VLR (dữ liệu vị trí hiên tại mới nhất của thuê bao).
Đối với thống kê, các thuộc tính thông tin trong cấu trúc dữ liệu di động cần quan tâm bao gồm các thuộc tính thông tin được được thể hiện trong bảng cấu trúc dữ liệu thanh toán được thu thập tự động cho tất cả người dùng điện thoại di động của MNO[7] dưới đây.
Hình 1.3. Mô hình hoạt động gọi/nhận của điện thoại di động
(Nguồn: https://bluehub.jrc.ec.europa.eu/bigdata4migration/uploads/attachments/cjb4tjkhj0065cigffxclyplq-z-smoreda.pdf)
Từ mô hình hoạt động của điện thoại di động. Những thuộc tính thông tin dữ liệu di động tự động thu thập và sau đó được MPO mã hoá thành bảng như hình 1.4, dưới đây.
Hình 1.4. Cấu trúc dữ liệu của dữ liệu di động (Dữ liệu thanh toán)
(Nguồn: https://bluehub.jrc.ec.europa.eu/bigdata4migration/uploads/attachments/cjb4tjkhj0065cigffxclyplq-z-smoreda.pdf)
Những dữ liệu quan trọng phục vụ cho công tác thống kê di cư từ nguồn dữ liệu di động là thông tin về số thuê bao máy gọi, máy nhận, thời gian gọi, và vị trí máy gọi và máy nhận, từ những thông tin đó có thể trực quan hoá thành bản đồ dòng người di cư của người dùng điện thoại di động, và các yêu cầu tính toán liên quan đến thống kê di cư.
Hình 1.5. Mô hình trực quan hoá dữ liệu thành bản đồ từ dữ liệu thanh toán
(Nguồn: https://bluehub.jrc.ec.europa.eu/bigdata4migration/uploads/attachments/cjb4tjkhj0065cigffxclyplq-z-smoreda.pdf)
1.4. So sánh dữ liệu di động và dữ liệu truyền thống
Theo UNSTATS[8], Nguồn dữ liệu di động có thể bổ sung cho nguồn dữ liệu truyền thống. Tuy nhiên, để sử dụng dữ liệu di động bổ sung hoặc thay thế dữ liệu truyền thống trong thống kê thì nguồn dữ liệu di động phải có những ưu điểm hơn so với nguồn dữ liệu truyền thống, qua bảng so sánh dưới đây sẽ cho thấy những ưu điểm của nguồn dữ liệu di động so với nguồn dữ liệu truyền thống:
Bảng 1.3. So sánh ưu và nhược điểm của dữ liệu di động và dữ liệu truyền thống
So sánh
|
Nguồn dữ liệu di động
|
Nguồn dữ liệu truyền thống
|
Ưu điểm
|
Nguồn dữ liệu di động mới được khám phá và phong phú (thu thập từ nhiều nhà mạng khác nhau).
|
Nguồn dữ liệu truyền thống của cơ quan thống kê ngày càng thu hẹp phạm vi do liên quan chính sách và kinh phí điều tra.
|
Thu thập dữ liệu thụ động và dễ dàng thông qua các nhà mạng cung cấp dịch vụ viễn thông (giảm gánh nặng đối với người trả lời),
|
Thu thập dữ liệu thông qua các cuộc điều tra, khảo sát phỏng vấn
|
Có thể thu thập và tổng hợp số liệu thống kê tạo ra các chỉ số thống kê có chất lượng cao trong thời gian thực.
|
Thu thập và tổng hợp số liệu thống kê tạo ra các chỉ số thống kê luôn có độ trễ về thời gian.
|
Hiệu quả về chi phí so với phương pháp thu thập dữ liệu với cùng cỡ mẫu, ví dụ tổng điều tra dân số)
|
Chi phí cho Tổng điều tra rất lớn
|
Nhược điểm
|
Số lượng dữ liệu mẫu thu thập phụ thuộc vào cơ sở hạ tầng thu thập và lưu trữ của các nhà mạng.
|
Số lượng dữ liệu mẫu thu thập thu thập phụ thuộc vào số lượng theo phương án điều tra của Cơ quan thống kê.
|
Công nghệ thu thập, khai thác và xử lý dữ liệu di động phụ thuộc vào khả năng công nghệ thu thập của các nhà mạng.
(Qua đơn vị xử lý trung gian)
|
Công nghệ thu thập, khai thác và xử lý dữ liệu truyền thống phụ thuộc vào khả năng của cơ quan thống kê
(Không qua đơn vị xử lý trung gian)
|
Xử lý dữ liệu di động phức tạp đòi hỏi các phần mềm chuyên sâu.
|
Xử lý dữ liệu truyền thống chỉ cần các phần mềm xử lý dữ liệu thông dụng như SPSS, stata…
|
(Nguồn: Tự tổng hợp)
|
1.5. Nguồn dữ liệu di động
Dữ liệu di động là dữ liệu cho phép chúng ta kết nối với internet. Từ đó, chúng ta thấy được nguồn dữ liệu di động là do các MNO quản lý. Vì chỉ có MNO mới có thể cung cấp được các dịch vụ dữ liệu di động để điện thoại di động có thể kết nối internet không dây. Vậy dữ liệu di động đó được hình thành và quản lý như thế nào bởi MNO?. Trong hoạt động khai thác dịch vụ dữ liệu từ các MNO thì dữ liệu di động được hình thành và quản lý từ 2 cách (Chủ động và bị động)[9]
Cách chủ động
Mỗi MNO đều có một trung tâm dịch vụ thanh toán chính là nơi dữ liệu được lưu trữ định kỳ để thanh toán và là một kho dữ liệu nhằm mục đích phục vụ phân tích thông tin về tình số số lượng thuê bao di động của MNO để quy hoạch và quản lý mạng.
Như (Hình 1.6) dưới đây, dữ liệu đăng ký thuê bao điện thoại di động của MNO được hình thành dựa trên hệ thống đăng ký được thu nhận từ các trạm thu phát tín hiệu con, sau đó được lưu trữ trên máy chủ quản lý các thuê bao. Tất cả dữ liệu thông tin về thuê bao được lưu trữ tại kho dữ liệu thuê bao của MNO. Đây là nguồn dữ liệu chủ động mà MNO có được khi các người dùng đăng ký thuê bao. Những thông tin định danh như tên, năm sinh,vị trí đăng ký thuê bao của người dùng là một nguồn dữ liệu quý giá đối với các MNO.

Hình 1.6. Hệ thống lưu trữ dữ liệu, có thể trích xuất dữ liệu từ các trạm thu phát con/
(Nguồn dữ liệu di động trong hệ thống của MNO)
Cách thụ động
Khi có một sự kiện xảy ra đối với điện thoại di động của chúng ta, ví dụ như sự kiện là một hành động nhắn tin hoặc gọi đến một thuê bao khác. Hầu hết các sự kiện như vậy đều tạo ra dữ liệu cuộc gọi/ tin nhắn và được MNO ghi nhận và lưu trữ lại thành bản ghi nhật ký chi tiết cuộc gọi (CDR). Đây chính là dữ liệu thụ động mà MNO có và lưu trữ được. Những dữ liệu thụ động chính là cơ sở dữ liệu chứa nhiều thuộc tính như VLR (lưu trữ mã vùng vị trí mới của điện thoại di động).
Đối với thống kê nói chung và thống kê di cư nói riêng các thuộc tính thông tin cần thiết trong dữ liệu di động đối với một thuê bao gồm các thuộc tính thông tin như số thuê bao, dữ liệu định vị theo thời gian và không gian (kinh độ, vĩ độ), dữ liệu về tin nhắn, dữ liệu cuộc gọi liên quan đến quá trình sử dụng các dịch vụ của điện thoại di động. Từ những thuộc tính thông tin đó, chúng ta có thể phân loại được trường hợp nào là di cư ban ngày (di cư tạm thời), trường hợp nào là di cư theo quan điểm truyền thống. (Ví dụ, đối với các thuê bao phát sinh cuộc gọi thì MNO sẽ ghi nhận dữ liệu về vị trí cuộc gọi và thời gian cuộc gọi, từ những dữ liệu đó có thể phân loại và xử lý. Nếu vị trí cuộc gọi có không gian (kinh độ và vĩ độ) khác nhau và được lặp đi lặp lại trong thời gian theo dõi (trên 6 tháng), thì có thể khẳng định trường hợp đó là di cư tạm thời. Ngược lại, sẽ là trường hợp được tính là di cư theo truyền thống. Tuy nhiên, vẫn có những ngoại lệ, như trường hợp khách hàng đi du lịch kết hợp làm việc dài hạn (đây là trường hợp đi du lịch), nhưng chúng ta rất dễ phân loại nhầm đây là trường hợp di cư truyền thống.
1.6. Thu thập dữ liệu di động
Dữ liệu di động do các nhà mạng quản lý như trong (Hình 1.6). Do đó, để thu thập dữ liệu di động chúng ta phải hợp tác với MNO. Riêng đối với MNO thì có những cách thức sau để thu thập thông tin dữ liệu di động:
Cách 1: Thu thập dữ liệu di động từ hệ thống lưu trữ dữ liệu tập trung của MNO
Các loại thông tin thu thập bao gồm:
- Các dữ liệu về cuộc gọi chi tiết (CDR). Đây là dữ liệu sẽ được lưu trữ sau khi các giao dịch thanh toán cước phí được thực hiện hoàn tất.
- Các dữ liệu về các thuê bao: bao gồm các thông tin về người sử dụng (như họ tên, địa chỉ, tuổi, giới tính, nơi đăng ký ban đầu của thuê bao.)
Nhìn chung, Cách thu thập dữ liệu di động từ kho dữ liệu tập trung của MNO có:
Ưu điểm: dữ liệu là vô cùng lớn và phong phú vì dữ liệu được tập trung lưu trữ từ nhiều nguồn dữ liệu di động khác nhau và dễ dàng thu thập nhất.
Nhược điểm: không dễ dàng truy cập bởi chính sách bảo mật thông tin của MNO.
Cách 2: Thu thập dữ liệu di động từ các trạm cơ sở phát tín hiệu của các MNO
Ở các trạm phát cơ sở phát tín hiệu dữ liệu di động chủ yếu là dữ liệu thăm dò.
Dữ liệu thăm dò: Dữ liệu thăm dò có hai loại thăm dò chủ động và thụ động. Dữ liệu thăm dò chủ động là dữ liệu có được từ hoạt động thăm dò được MNO thực hiện để theo dõi hiệu suất cả mạng lưới các thuê bao của MNO. Còn dữ liệu thăm dò thụ động là dữ liệu từ hoạt động giám sát các luồng dữ liệu giữa các thuê bao khác nhau của MNO. Do đó dữ liệu thăm dò thụ động là một cách hữu hiệu thu thập thông tin từ các mạng của MNO.
Loại dữ liệu này cũng có khả năng cung cấp các thông tin không được lưu trữ lại các trung tâm cước phí và hệ thống kho dữ liệu, chẳng hạn như dữ liệu về vị trí tạm thời của các thuê bao (VLR).
Nếu MNO đã có các hệ thống kho lưu trữ dữ liệu thăm dò thì các cơ quan thống kê nên khai thác nguồn dữ liệu này để bổ sung cho nguồn dữ liệu điều tra truyền thống hiện nay ngày càng thu hẹp. Ngược lại, nếu nhà mạng chưa sẵn có cơ sở hạ tầng thì cơ quan thống kê sẽ cần cân nhắc sử dụng loại dữ liệu từ cách thu thập này vì chi phí để lắp đặt hệ thống cơ sở hạ tầng rất lớn.
1.7. Lưu trữ dữ liệu di động
Dữ liệu di động được thu thập từ dữ liệu các bản ghi chi tiết cuộc gọi của các trung tâm thanh toán của MNO, hay thu thập từ dữ liệu thăm dò chủ động và bị động của các trạm phát tín hiệu cơ sở. Tuy nhiên, nếu dữ liệu thu thập được để như trên sẽ gây khó khăn cho quản lý của các MNO khi thanh toán cước phí. Do đó, MNO đã phân loại dữ liệu thu thập thành các loại dữ liệu riêng biệt dưới đây để thuận tiên cho việc quản lý theo dõi và thanh toán cước phí[10]:
1. Dữ liệu điện thoai di động trong nước ( Quản lý theo vùng/ tỉnh): Đây là dữ liệu CDR của 2 thuê bao trong cùng một MNO gọi hoặc nhắn tin cho nhau, có thể trong cùng một tỉnh hoặc khác tỉnh, điều này sẽ tạo ra ít nhất hai sự kiện trong nước (một cuộc gọi bắt đầu, một cuộc gọi nhận).
2. Dữ liệu điện thoại di động chuyển vùng bên ngoài: Dữ liệu này thường là dữ liệu thuê bao sử dụng điện thoại di động khi đi du lịch nước ngoài.
3. Dữ liệu điện thoại di động chuyển vùng trong nước: Dữ liệu của thuê bao nước ngoài sử dụng dịch vụ chuyển vùng tại quốc gia khác. Hoặc có thể là dữ liệu các thuê bao trong nước từ một MNO khác sử dụng dịch vụ chuyển vùng vì không có sự tiếp nhận bởi chính MNO của thuê bao bao đó.
Cách thức lưu trữ dữ liệu di động của các MNO, giúp cho Thống kê giải quyết được bài toán về di cư nội địa và di cư quốc tế. Thông qua cách lưu trữ dữ liệu có thể phân loại được bài toán di cư. Đối với di cư nội địa chúng ta chỉ quan tâm đến khối dữ liệu điện thoại di động trong nước. Đối với di cư quốc tế chúng ta quan tâm đến khối dữ liệu điện thoại di động chuyển vùng bên ngoài và bên trong.
1.8. Mô hình khai thác dữ liệu di động hiệu quả
Dữ liệu di động được thu thập và lưu trữ tập trung tại các trung tâm dịch vụ thanh toán của MNO và tại các trạm phát tín hiệu cơ sở. Nhưng sau cùng, tất cả dữ liệu đều được chuyển về lưu trữ tại một máy chủ trung của MNO. Vậy làm thế nào MNO khai thác dữ liệu di động hiệu quả tốt nhất khi mà dữ liệu di động luôn thay đổi và cập nhật thông tin dung lượng lớn trong thời gian thực. Chúng ta có thể xem xét qua một nghiên cứu mô hình khai thác dữ liệu di động hiệu quả[11]. Mô hình khai thác hiệu quả được đề xuất trong nghiên cứu dựa trên mục đích tối ưu hóa chi phí khai thác dữ liệu. Điểm khác biệt giữa hai mô hình khai thác dữ liệu di động hiệu quả với mô hình truyền thống:
Đối với mô hình khai thác dữ liệu truyền thống tất cả các sự kiện (hoạt động gọi điện/nhắn tin) thay đổi hoặc cập nhật thông tin dữ liệu đều được ghi lại lên máy chủ. Do đó, nếu máy chủ không đủ dung lượng lớn và cấu hình xử lý mạnh thì sẽ khó khăn trong khai thác dữ liệu di động. Nhưng với Mô hình khai thác hiệu quả chỉ cho phép các sự kiện mới (dữ liệu mới) hoặc có thay đổi bổ sung được cập nhật, đối với các sự kiện đã tồn tại trong máy chủ thì hệ thống chỉ tóm tắt lại sự kiện mà không phải ghi lại như trong mô hình khai thác truyền thống. Với cách thức tóm tắt các sự kiện, mô hình hiệu quả đã giải quyết được một vấn đề lớn tối ưu hoá dữ liệu lưu trữ và tăng khả năng khai thác dữ liệu di động.
Trong trường hợp, các cơ quan Thống kê có dự định thử nghiệm riêng tự xây dựng hệ thống khai thác dữ liệu di động hiệu quả tương tự như các MNO, thì đây là một nguồn tài liệu có giá trị để tham khảo.
1.9. Ý nghĩa Dữ liệu di động đối với thống kê.
Dữ liệu điện thoại di động gồm các thuộc tính thông tin như[12]:
- Dữ liệu Danh bạ liên lạc (đã xóa và chưa xóa)
- Dữ liệu tin nhắn SMS (đã xóa và chưa xóa)
- Dữ liệu tin nhắn email (đã xóa và chưa xóa)
- Dữ liệu tin nhắn MMS (đã xóa và chưa xóa)
- Dữ liệu nhật ký cuộc gọi (đã xóa và chưa xóa)
- Dữ liệu vị trí (GPS) của điện thoại
- Dữ liệu thông tin lịch, thời thiết trong điện thoại
- Dữ liệu hình ảnh (đã xóa và chưa xóa)
- Dữ liệu video (đã xóa và chưa xóa)
- Dữ liệu lịch sử truy cập web
- Dữ liệu (app) ứng dụng (đã xóa và chưa xóa)
- Dữ liệu các tệp tin văn bản lưu trữ trong điện thoại
Từ những dữ liệu di động trên được lưu trữ trong điện thoại di động và có thể được đồng bộ bộ hoá lưu trữ với cơ sở dữ liệu về thuê bao của các nhà mạng viễn thông, sẽ là một nguồn dữ liệu lớn, phong phú có thể giúp thống kê được những khía cạnh sau:
- Giúp số liệu thống kê được chi tiết hơn vì dữ liệu thu thập có thể phân nhóm theo khu vực vùng, tỉnh, huyện, xã (theo phạm vi không gian địa lý).
- Dữ liệu điện thoại di động có thể giúp xác thực các khung lấy mẫu (các mẫu thông tin được xác định cụ thể từ kho dữ liệu các thông tin định danh của MNO).
- Giúp xác nhận, kiểm chứng lại số liệu thống kê khảo sát.
- Cải thiện độ chính xác số liệu thống kê trong khi chi phí cho điều tra truyền thống ngày càng giảm.
- Cải thiện tính kịp thời số liệu và giảm gánh nặng cho người trả lời.
- Tạo ra các phương pháp thống kê mới với dữ liệu di động, điều mà các phương pháp thống kê truyền thống không làm được như thống kê di cư với dữ liệu di động.
- Kỳ vọng lấp đầy khoảng trống dữ liệu cho các chỉ số trong SDG.
- Giúp xây dựng các mô hình thống kê mới.
[2]Đo lường Báo cáo Thông tin Xã hội 2018: https://www.itu.int/en/ITU-D/Statistic/Pages/publications/misr2018.aspx
[7] https://bluehub.jrc.ec.europa.eu/bigdata4migration/uploads/attachments/cjb4tjkhj0065cigffxclyplq-z-smoreda.pdf