Dữ liệu đang tăng trưởng với tốc độ chóng mặt, nhưng làm thế nào để…
Case Study: Cách Google Dataplex giúp Casa Dos Ventos quản trị và đảm bảo chất lượng dữ liệu
Brazil là một trong những thị trường năng lượng tái tạo hứa hẹn nhất thế giới, trong đó Casa Dos Ventos là nhà đầu tư và tiên phong hàng đầu. Với sự đổi mới và đầu tư của mình, họ đang dẫn đầu quá trình chuyển đổi sang một tương lai bền vững và cạnh tranh hơn.
Dựa vào “Big Data” để hỗ trợ các quyết định lớn và quan trọng trong doanh nghiệp. Hầu hết dữ liệu được lưu trữ trong BigQuery serverless enterprise data warehouse. Google liên tục sử dụng những dịch vụ và công cụ cải tiến của Google Cloud GCP để tăng tốc các hoạt động kinh doanh hiệu quả hơn.
Ví dụ trong các hoạt động của trang trại gió, dữ liệu được sử dụng để định lượng sản lượng, tổn thất và hiệu quả năng lượng. Đối với các cột khí tượng dữ liệu và cấu hình cảm biến liên tục được nhập và phân tích về tình trạng của chúng. Hoặc trong các dự án xanh mới họ đã sử dụng dữ liệu để đưa ra quyết định về các khoản đầu tư của mình.
Google cần dữ liệu đáng tin cậy để đưa ra những quyết định này nhằm tránh sai mục tiêu của họ về thời gian hoạt động, hiệu quả và lợi tức đầu tư. Tuy nhiên, việc kiểm soát chất lượng dữ liệu là một thách thức đối với Google, thường khiến họ phải chữa cháy dữ liệu.
Trước đây đã từng sử dụng các giải pháp tự nghĩ ra để có thể giải quyết và khiến cho dữ liệu tốt hơn như đặt quy tắc và cảnh báo trong công cụ BI tool hoặc viết tập lệnh python tùy chỉnh. Những giải pháp này thường rất khó mở rộng quy mô tiêu chuẩn hóa và thường rất tốn kém.
Để giải quyết vấn đề đó, Google đã chuyển sang DataPlex, một kết cấu dữ liệu thông minh hợp nhất dữ liệu phân tán, để đạt được khả năng quan trị dữ liệu tốt hơn trong tổ chức của google và tạo niềm tin vào dữ liệu. Với DataPlex cung cấp một cách hợp lý để tổ chức dữ liệu, bảo mật và giám sát dữ liệu về chất lượng dữ liệu.
Google bắt đầu triển khai DataPlex với 3 mục tiêu chính :
- Xác định khung quản trị dữ liệu cho tổ chức
- Tạo báo cáo thường xuyên đo lường việc tuân thủ khuôn khổ
- Tạo báo cáo thường xuyên đo lường chất lượng dữ liệu
Xác định khung quản trị dữ liệu cho tổ chức
Google bắt đầu bằng cách tổ chức dữ liệu phù hợp với doanh nghiệp, sau đó sử dụng DataPlex để đặt chính sách cho các tổ chức dữ liệu đó.
DataPlex trừu tượng hóa các hệ thống lưu trữ dữ liệu cơ bản bằng cách sử dụng các cấu trúc Lake, Data zone, assets. Chúng tôi quyết định lập bản đồ các cấu trúc này cho doanh nghiệp của mình với khuôn khổ như sau :
- Lake : Mỗi bộ phận một hồ trong công ty
- Data zone : Phân tách dữ liệu trong các khu vực con bằng cách sử dụng vùng
- Raw zone : Chứa bộ dữ liệu được dùng cho bảng thô hoặc các bảng có ít sửa đổi hoặc tổng hợp
- Curated zone : Chứa bộ dữ liệu có bảng tổng hợp hoặc bảng dự đoán (Đước sử dụng cho các mô hình ML)
Tạo báo cáo cho nội dung dữ liệu và quản lý nội dung dữ liệu
Để quản lý dữ liệu, chúng ta có hai dạng báo cáo nắm bắt trạng thái hiện tại
– Báo cáo đầu tiên theo dõi toàn bộ data. Google sử dụng API BigQuery và phát triển tập lệnh Python (do Composer lên lịch) để trích xuất siêu dữ liệu của tất cả các bảng BigQuery trong tổ chức. Nó cũng đo lường các khía cạnh quan trọng như số lượng bảng và view.
– Báo cáo thứ hai Google cũng theo dõi tiến trình của mình trong việc liên tục đưa kho dữ liệu của mình vào DataPlex governance. Chúng tôi đã làm theo quy trình tương tự (API + mã Python) để tạo trang tổng quan sau. Hiện tại, các bộ dữ liệu trong DataPlex đứng ở mức 71.6% trên dashboard này. Mục tiêu của Google là đạt 100% và sau đó duy trì điều đó.
Quét chất lượng dữ liệu và tạo các report về chất lượng dữ liệu
Sau khi dữ liệu được quản lý trong DataPlex chúng tôi tạo báo cáo chất lượng dữ liệu và dashboard trong DataPlex chỉ với vài click đơn giản.
Chạy nhiều data quality scans với DataPlex cho các bảng quan trọng
Để tạo các quy tắc, Google đã sử dụng các quy tắc có sẵn nhưng cũng tạo thêm các quy tắc của riêng mình bằng cách sử dụng các câu lệnh SQL tùy chỉnh. VD: để đảm bảo rằng Google không bao giờ có bất kỳ hàng nào khớp với một điều kiện cụ thể, Google đã tạo quy tắc SQL trả về FALSE khi thậm chỉ chỉ có 1 hàng khớp với điều kiện.
(SELECT COUNT(<columnX>) as count_values
FROM `metmastDB.TableX`
WHERE `columnX` IS NULL and columnY<>”some string”
) =0
Khi các lần kiểm tra này không thành công, Google dựa vào truy vấn do Dataplex AutoDQ hiển thị để tìm các hàng không thành công.
Để xây dựng trang tổng quan về chất lượng dữ liệu, Google sử dụng nhật ký (logs) trong Cloud Logging và thiết lập điểm đến cho BigQuery. Sau khi dữ liệu đến BigQuery, Google tạo view với truy vấn sau:
SELECT
timestamp,
resource.type,
resource.labels.datascan_id,
resource.labels.location,
jsonpayload_v1_datascanevent.scope,
jsonpayload_v1_datascanevent.type as type_scan_event,
jsonpayload_v1_datascanevent.trigger,
SPLIT(jsonpayload_v1_datascanevent.datasource, ‘/’)[offset(1)] datasource_project,
SPLIT(jsonpayload_v1_datascanevent.datasource, ‘/’)[offset(3)] datasource_location,
SPLIT(jsonpayload_v1_datascanevent.datasource, ‘/’)[offset(5)] datasource_lake,
SPLIT(jsonpayload_v1_datascanevent.datasource, ‘/’)[offset(7)] datasource_zone,
jsonpayload_v1_datascanevent.dataquality.dimensionpassed.uniqueness,
jsonpayload_v1_datascanevent.dataquality.dimensionpassed.completeness,
jsonpayload_v1_datascanevent.dataquality.dimensionpassed.validity,
jsonpayload_v1_datascanevent.dataquality.rowcount,
jsonpayload_v1_datascanevent.dataquality.passed
FROM `datalake-cver.Analytics_Data_Quality_cdv.dataplex_googleapis_com_data_scan` DATA_SCAN
Tạo view cho phép tách kết quả chất lượng dữ liệu theo Lake và zones.
Sau đó có thể sử dụng Tableau :
- Tạo dashboard
- Gửi thông báo qua email cho người dùng có có trách nhiệm xử lý bằng alerts trong Tableau
Dưới đây là ví dụ về Tableau dashboard
Ý định tương lai
Mặc dù Google đã đạt được vị thế quản trị tốt hơn nhiều, nhưng họ cũng mong muốn mở rộng việc sử dụng Dataplex hơn nữa. Google đang bắt đầu sử dụng tính năng Lineage cho các bảng BigQuery và tìm hiểu cách tích hợp Chất lượng dữ liệu với Lineage. Điều này sẽ cho phép họ kiểm tra trang tổng quan và chế độ xem bị ảnh hưởng bởi các vấn đề về chất lượng dữ liệu một cách dễ dàng. Google cũng đang lên kế hoạch quản lý các tập lệnh SQL trong tài khoản Github của mình.
Cloud đã và đang là xu hướng tất yếu trong hệ thống phát triển , tối ưu công nghệ của các doanh nghiệp. Gimasys – Premier Partner của Google tại Việt Nam là đơn vị cung cấp, tư vấn các cấu trúc, thiết kế giải pháp Cloud tối ưu cho bạn. Để biết được hỗ trợ về mặt chuyên môn kỹ thuật, bạn có thể liên hệ Gimasys – Premier Partner của Google tại Việt Nam theo thông tin:
- Hotline: 0974 417 099 (HCM) | 0987 682 505 (HN)
- Email: gcp@gimasys.com
Nguồn: Gimasys