skip to Main Content
Welcome to Gimasys!
Hotline: +84 974 417 099 (HCM) | +84 987 682 505 (HN) gcp@gimasys.com

Automate data governance, extend your data fabric with Dataplex-BigLake integration

Unlocking the full potential of data requires breaking down the silo between open-source data formats and data warehouses. At the same time, it is critical to enable data governance team to apply policies regardless of where the data happens, whether - on file or columnar storage.

Ngày nay, các nhóm quản trị dữ liệu phải trở thành chuyên gia về chủ đề trên mỗi hệ thống lưu trữ mà dữ liệu của công ty nằm trên đó. Kể từ tháng 2 năm 2022, Google Dataplex đã cung cấp một nơi thống nhất để áp dụng các chính sách, được phổ biến trên cả kho lưu trữ thô và kho dữ liệu trong GCP. Thay vì chỉ định các chính sách ở nhiều nơi, mang tải nhận thức của việc dịch các chính sách từ “những gì bạn muốn hệ thống lưu trữ thực hiện” sang “dữ liệu của bạn sẽ hoạt động như thế nào” Dataplex cung cấp một điểm duy nhất để quản lý chính sách rõ ràng. Bây giờ, Google đang giúp bạn sử dụng dễ dàng hơn với BigLake.

Đầu năm nay, Google đã đưa BigLake vào khả dụng rộng rãi, BigLake hợp nhất kết cấu dữ liệu giữa Data Lake và Data Warehouse bằng cách mở rộng BigQuery storage to open file formats. Today, we announce BigLake Integration with Dataplex (available in preview). This integration eliminates the configuration steps for the admin taking advantage of BigLake and managing policies across GCS and BigQuery from a unified console.

Previously, you could point Dataplex at a Google Cloud Storage (GCS) bucket, and Dataplex will phát hiện discover and extract all metadata from the data lake and register this metadata in BigQuery (and Dataproc Metastore, Data Catalog) for analysis and search. With the BigLake integration capability, we are building on this capability by allowing an “upgrade” of a bucket asset, and instead of just creating external tables in BigQuery for analysis - Dataplex will create policy-capable BigLake tables!

The immediate implication is that admins can now assign column, row, and table policies to the BigLake tables auto-created by Dataplex, as with BigLake - the infrastructure (GCS) layer is separate from the analysis layer (BigQuery). Dataplex will handle the creation of a BigQuery connection and a BigQuery publishing dataset and ensure the BigQuery service account has the correct permissions on the bucket.

Tự động hóa quản trị, mở rộng cấu trúc dữ liệu với tích hợp Google Dataplex - BigLake 1But wait - there’s more. With this release of Dataplex, we are also introducing advanced logging called governance logs. Governance logs allow tracking the exact state of policy propagation to tables and columns - adding an additional level of detail going beyond the high-level “status” for the bucket and into fine-grained status and logs for tables, columns.

What’s next?

  • We have updated our documentation for managing buckets and have additional detail regarding policy propagation and the upgrade process.
  • Stay tuned for an exciting roadmap ahead, with more automation around policy management.

For more information, please visit:

  • Google Cloud Dataplex

Contact Gimasys for advice on a transformation strategy that is right for your business situation and to experience the free Google Cloud Platform service:

  • Hotline: Hanoi: 0987 682 505 – Ho Chi Minh: 0974 417 099
  • Email: gcp@gimasys.com

Source: Gimasys

Back To Top
0974 417 099