3. Công nghệ khai thác dữ liệu di động
Dữ liệu điện thoại di động được quản lý bởi các MNO. Do đó, để khai thác nguồn dữ liệu điện thoại di động phải dựa vào nền tảng công nghệ khai thác dữ liệu điện thoại di động của các MNO. Mỗi MNO khác nhau sẽ có những nền tảng công nghệ khai thác dữ liệu điện thoại di động giống hoặc khác nhau. Trong phần ứng dụng dữ liệu di động do UNSC công bố ở (Bảng 2.2), chúng ta thấy có những dự án của những quốc gia khác nhau nhưng sử dụng cùng nền tảng công nghệ khai thác giống nhau hoặc khác nhau. Nhưng nhìn chung nền tảng công nghệ khai thác dữ liệu điện thoại di động hiện nay được các quốc gia sử dụng phổ biến là:
3.1. Công cụ trực quan hóa dữ liệu
Công cụ trực quan hoá dữ liệu là công cụ nhằm chuyển đổi các dữ liệu số thể hiện thành các mô hình dữ liệu trực quan, từ đó giúp chúng ta có thể khai thác dữ liệu, hiện nay có nhiều công cụ hỗ trợ trực quan hóa dữ liệu như Microsoft Excel, Power BI, Tableau, Google Data Studio…
3.2. Cơ sở dữ liệu quan hệ
Cơ sở dữ liệu quan hệ là Cơ sở dữ liệu được xây dựng dựa trên mô hình dữ liệu quan hệ. Từ các mô hình dữ liệu quan hệ đó giúp chúng ta khai thác được dữ liệu dễ dàng.
3.3. GIS
GIS là phần mềm chuyên dụng sử dụng để tạo lập mô hình hoá dữ liệu điểm theo không gian. Giúp dễ dàng khai thác dữ liệu không gian.
3.4. Hadoop
Hadoop là một khung mã nguồn mở cho phép phát triển các ứng dụng phân tán để lưu trữ và quản lý các tập dữ liệu lớn. Hadoop hiện thực mô hình các ứng dụng sẽ được chia nhỏ ra thành nhiều phân đoạn khác nhau và chạy song song trên nhiều điểm nút khác nhau. Hadoop giúp chúng ta chia bài toán dữ liệu lớn thành nhiều phần nhỏ, mỗi phần đó là một mô hình dễ dàng khai thác thông tin.
3.5. R
Phần mềm R chuyên sử dụng trong các bài toán thu thập, khai thác về dữ liệu lớn.
3.6. SAS
Phần mềm chuyên sử dụng để phân tích, khai thác và xử lý mô hình dữ liệu thống kê tương tự SPSS, STATA.
3.7. NoSQL
No SQL là Hệ quản trị dữ liệu phi cấu trúc. Công cụ này giúp chúng ta quản lý khối dữ liệu lớn không có cấu trúc dữ liệu rõ ràng, giống như chức năng của công cụ Cơ sở dữ liệu quan hệ.
3.8. Điện toán đám mây
Công nghệ điện toán đám mây giúp cho việc lưu trữ và cơ sở dữ liệu đơn giản hơn, thay vì chúng ta phải mua một máy chủ vật lý để thực hiện lưu trữ dữ liệu khai thác với khối lượng lớn trongkhi đó kinh phí có giới hạn.
3.9. API
API (Application Programming Interface) là công cụ để có thể truy xuất đến một tập các hàm hay dùng giúp khai thác dữ liệu một cách đơn giản và hiệu quả từ các ứng dụng khác nhau trong điện thoại. Từ đó dữ liệu có thể trao đổi giữa các ứng dụng và được trích xuất khai thác hiệu quả hơn.
3.10. Python
Phần mềm phổ biến dùng trong xử lý khai thác dữ liệu lớn.
Một ví dụ về việc sử dụng nền tảng công nghệ Python để khai thác dữ liệu di động trong Thống kê thông qua Nghiên cứu dự án di cư sau trận động đất ở Nepal năm 2015[1]. Dự án triển khai được phối hợp giữa 2 đơn vị là cơ quan thống kê Nepal với nhà mạng viễn thông Ncell ở Nepal (Ncell có thị phần người sử dụng lớn nhất ở Nepal) để nghiên cứu sự di cư của người dân Nepal sau trận động đất năm 2015.
Nguồn dữ liệu điện thoại di động được Ncell thu thập từ người dùng điện thoại di động xung quanh vùng xảy ra động đất, tiếp đó Ncell thực hiện mã hoá các số thuê bao và lưu trữ trên một máy chủ dữ liệu tập trung. Sau đó, Ncell cấp quyền truy cập cho cơ quan thống kê được truy cập vào nguồn dữ liệu trong máy chủ đó. Từ đó, cơ quan Thống kê thực hiện khai thác phân tích dữ liệu di động thông qua một khung phân tích dữ liệu do cơ quan Thống kê Nepal phát triển. Khung phân tích đó bản chất là Mô hình phân tích dự báo khả năng xảy ra nhanh trong vòng 9 ngày sau trận động đất ở Nepal vào 25/ 4/2015. Khung phân tích sẽ cung cấp các ước tính chi tiết về sự thay đổi dân số từ dữ liệu các bản ghi chi tiết cuộc gọi dựa trên sự di chuyển của 12 triệu người dùng điện thoại di động tại vùng xảy ra động đất. Khung phân tích được viết trên nền tảng công nghệ ngôn ngữ lập trình Python.
Các thuộc tính thông tin cần thu thập từ dữ liệu di động trong dự án cần đưa vào khung phân tích để xử lý và khai thác tính toán là thuộc tính thông tin về “dữ liệu vị trí” hàng ngày của các số thuê bao. Dữ liệu vị trí hàng ngày từ (CDR) được cung cấp trước 1 giờ sáng ngày hôm sau. Và dữ liệu di chuyển lịch sử trước đó từ tháng 1 năm 2015 cũng được Ncell cung cấp.
Trong dự án này cơ quan Thống kê sẽ tính toán 'vị trí hàng ngày' cho mỗi người dùng điện thoại di động (trong đó, mỗi người dùng được coi là một số thuê bao duy nhất, tức là thẻ SIM). Điều này có nghĩa vị trí của người dùng điện thoại di động là một vị trí duy nhất cho ngày hôm đó. Vì mục đích là để điều tra sự di chuyển vị trí qua đêm của người dùng khi đã xác định vị trí hàng ngày của họ. Vì ở Nepal, để xác định vị trí người dùng điện thoại di động theo định nghĩa phù hợp nhất được đánh giá đơn giản là địa điểm của cuộc gọi cuối cùng mà người dùng thực hiện vào ngày hôm đó được coi là vị trí của người dùng điện thoại di động ngày hôm đó. Các cuộc điều tra đã được thực hiện theo cách tốt nhất để ước tính vị trí này từ vị trí của tất cả các cuộc gọi mà người dùng đã thực hiện vào ngày hôm đó, bao gồm cả việc đặt lại theo thời gian hoặc các cuộc gọi nhóm theo không gian. Kết quả dự án, đã đưa ra được những kết quả thú vị:
Ngay sau động đất ước tính khoảng 390.000 người rời khỏi vùng động đất và đến các vùng xung quanh, Nhưng sau 3 tháng xảy ra động đất, Hầu hết người dân đã quay lại vị trí nhà ở ban đầu của họ. Tất cả các vùng Quận/huyện có trên 85% số người dân đã quay trở về nhà và còn không quá 15% là người dân vẫn chưa quay trở lại nhà của họ, có một số quận thì còn không quá 5% người dân chưa quay trở về nhà sau động đất. Điều này được chỉ ra là phù hợp với những dự báo nhanh ban đầu về mức độ nghiêm trọng của trận động đất, dựa trên quan sát ước tính số người rời khỏi vùng sau động đất và cho thấy chính sách hỗ trợ nhân đạo tích cực của Chính phủ Nepal đã thực hiện sau động đất là kịp thời và đạt được kết quả khả quan.
Ngoài ra, chúng ta có thể tham khảo nền tảng công nghệ khai thác dữ liệu di động ở phần kinh nghiệm của một số tổ chức và các quốc gia trên thế giới về khai thác dữ liệu di động (Phần 5).
1.4. Quy trình khai thác dữ liệu di động với thống kê
Theo tài liệu biên soạn hướng dẫn của UNSTAST về sử dụng dữ liệu điện thoại di động trong Thống kê chính thức[2]: Các bước của quy trình khai thác dữ liệu phụ thuộc vào người chịu trách nhiệm xử lý dữ liệu và nơi thực hiện khai thác dữ liệu di động. Nếu dữ liệu được xử lý bởi MNO hoặc trên hạ tầng của MNO, thì một số bước trong quy trình khai thác dữ liệu di động có thể bỏ qua, như bước mã hóa dữ liệu thông tin định danh số thuê bao có thể được bỏ qua.
Tuy nhiên, một quy trình khai thác dữ liệu di động phục vụ công tác thống kê sẽ bao gồm các bước sau:
4.1.Chuẩn bị dữ liệu
Chuẩn bị dữ liệu liên quan đến việc xây dựng một kịch bản đối với việc trích xuất dữ liệu cần thiết từ nơi lưu trữ dữ liệu. Bước này nên được thực hiện bởi các MNO có sẵn kinh nghiệm và có thể sử dụng ngôn ngữ lập trình cơ bản như SQL.
Chuẩn bị dữ liệu bao gồm hai việc chính:
+ Xác định các loại dữ liệu sẽ được trích xuất:
- CDR (Dữ liệu bản ghi chi tiết các cuộc gọi)
- IPDR (Dữ liệu bản ghi chi tiết giao thức Internet)
- DDR (Dữ liệu chi tiết – hồ sơ trao đổi dữ liệu trong mạng di động)
Có thể trích tất cả hoặc 1 trong các loại dữ liệu trên. Khoảng thời gian và các thuộc tính thông tin cần thiết để trích xuất cũng cần được chú ý.
Ngoài ra, trong bước này cũng có thể gồm một số bước xử lý dữ liệu cơ bản mà MNO có thể thực hiện để cung cấp các dữ liệu có chất lượng tốt nhất như xóa dữ liệu không đảm bảo tính đại diện, xóa các dữ liệu thuê bao bị đưa vào danh sách đen vì lý do bảo mật.
+ Bước tiếp, thiết kế chương trình để trích xuất dữ liệu: Việc trích xuất tốt nhất nên được thực hiện tự động theo các khoảng thời gian cố định đã được thỏa thuận trước đó giữa phía nhà mạng và cơ quan thống kê.
4.2. Ẩn danh dữ liệu
Mục đích của quá trình ẩn danh dữ liệu là bảo vệ quyền riêng tư của người sở hữu thuê bao điện thoại di động. Trong bước này, mã nhận dạng cá nhân của thuê bao có thể được sửa đổi hoặc được tổng hợp để cung cấp dữ liệu ẩn danh của các đối tượng. Và để ẩn danh dữ liệu khối lượng nhỏ chúng ta có thể thực hiện và duy trì được. Nhưng để làm với dữ liệu lớn và trong khoảng thời gian dài thì chưa có một phương pháp nào có khả năng duy trì tất cả các đặc tính cần thiết của dữ liệu. Hiện nay, vẫn áp dụng kỹ thuật chọn mẫu (để giảm số lượng thuê bao trong quá trình nghiên cứu mà vẫn đảm bảo tính đại diện) và kỹ thuật gây nhiễu (để làm ẩn dữ liệu gốc) vẫn đang được sử dụng.
4.3. Mã hóa dữ liệu
Mục đích của việc mã hóa dữ liệu nhằm đảm bảo an ninh dữ liệu.
Tại bước này, một dãy số (seri) sẽ được tạo ra để xác định cách dữ liệu sẽ được mã hóa thành văn bản. Một số thư viện mã hóa có sẵn được sử dụng để mã hóa và giải mã dữ liệu như OpenSSL và GNU Privacy Guard.
4.4. Truyền dữ liệu
Bước này được thực hiện truyền dữ liệu từ MNO cho cơ quan Thống kê để xử lý, nội bộ hoặc xử lý tập trung tại MNO (bên ngoài cơ quan Thống kê).
Trường hợp xử lý nội bộ: dữ liệu sẽ được truyền vào cơ sở dữ liệu phục vụ cho mục đích cụ thể hoặc được cung cấp dưới dạng tệp dữ liệu trên máy chủ mà đầu cuối nhận có thể truy cập.
Trường hợp xử lý tại MNO, khi đó MNO sẽ dành không gian máy chủ cho dữ liệu được trích xuất để xử lý dữ liệu và chuyển cho cơ quan Thống kê (như trường hợp Nepal).
Nhìn chung thực hiện theo cách nào, thì cả nhà mạng và cơ quan Thống kê đều phải dành một phần không gian máy chủ của mình để truyền dữ liệu.
4.5. Lưu trữ dữ liệu
Đối với các MNO, thực hiện lưu trữ dữ liệu rất đơn giản vì đó là công việc hàng ngày của họ được thực hiện theo một quy trình chặt chẽ sao lưu dữ liệu lịch sử và dữ liệu hiện tại.
Đối với cơ quan Thống kê, việc lưu trữ dữ liệu cần chú ý, trong trường hợp mất dữ liệu do bất kỳ nguyên nhân nào không được lường trước, thì điều quan trọng là phải lưu dữ liệu dữ liệu lịch sử để có thể được lấy lại và sử dụng để tính toán lại.
Ngoài ra, Cơ quan thống kê khi tiến hành khai thác dữ liệu dữ liệu di động cần cân nhắc các vấn đề sau:
- Dữ liệu có thể được xử lý ở đâu hiệu quả chi phí hơn? Tại NSO hay MNO
- Khai thác từ Nguồn của dữ liệu? từ dữ liệu thăm dò hay cơ sở dữ liệu tập trung
- Nguồn dữ liệu có sẵn? Cơ sở dữ liệu tham chiếu địa lý trong nước, ngoài nước
- Tiêu chuẩn chọn loại dữ liệu là gì? CDR, IPDR, khác?
- Tiêu chuẩn chọn hệ thống mạng dữ liệu di động là gì? 2G, 3G, 4G
- Phạm vi bao phủ của dữ liệu bao gồm các loại nào? Các cuộc, tin nhắn, lưu lượng dữ liệu, cập nhật vị trí khu vực, khác
- Tiêu chuẩn chọn các thuê bao là gì? Tất cả hay chọn mẫu
- Tiêu chuẩn dữ liệu người dùng theo phân loại dữ liệu thanh toán là gì? thuê bao trả trước hay trả sau
- Tiêu chuẩn phân loại dữ liệu theo hệ thống? ngoại tuyến hoặc trực tuyến
- Những thuộc tính thông tin nào có sẵn trong dữ liệu? các thuộc tính thông tin như số nhận dạng thuê bao, địa điểm, thời gian, hay các thuộc tính khác
- Định dạng của các thông tin định danh cho ở trên là gì?
- Tham chiếu đến các quốc gia được xử lý thế nào (dữ liệu trong và ngoài nước)?
- Phương pháp bảo vệ quyền riêng tư là gì? Tổng hợp dữ liệu, ẩn danh dữ liệu, chọn mẫu, mã hóa, không ẩn danh
- Dữ liệu sẽ được sắp xếp trong các tệp như thế nào?
- Các thông số kỹ thuật cho các yếu tố tập tin dữ liệu là gì? Tên thuộc tính, loại, tên tệp, loại tệp
- Các thông số kỹ thuật cho tập lệnh trích xuất dữ liệu là gì? Xóa dữ liệu không đại diện (M2M / IoT, trùng lặp), xóa các thuê bao trong danh sách đen
- Mã hóa được xử lý như thế nào? Phần mềm mã hóa hay phần mềm trao đổi khóa
- Tần suất có thể được trích xuất từ các hệ thống lưu trữ? Hàng ngày, hàng tháng hay tần suất khác
- Cách thức truyền dữ liệu như thế nào?
- Dữ liệu thô nên lưu trữ ở đâu? Tại cơ sở MNO hay tại các cơ quan Thống kê
[1] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4779046