Looker Studio là một nền tảng BI cho phép người dùng tạo báo cáo và…
Cách Google Dataplex có thể nâng cao kiểm tra dữ liệu bảo mật và quản lý truy cập
Dữ liệu là một trong những tài sản quan trọng nhất của bất kỳ doanh nghiệp nào, đây là một trong những yếu tố cần thiết để doanh nghiệp đưa ra được quyết định đúng đắn, nâng cao hiệu quả vận hành và cung cấp lợi thế cạnh tranh. Tuy nhiên, quản lý dữ liệu luôn đi kèm với trách nhiệm bảo vệ và ngăn chặn các hành động lạm dụng dữ liệu, đặc biệt là trong các doanh nghiệp được kiểm soát chặt chẽ bởi chính quyền, việc xử lý sai dữ liệu có thể dẫn đến thiệt hại đáng kể về danh tiếng và tài chính của doanh nghiệp. Các kết quả tiêu cực như rò rỉ dữ liệu, truy cập dữ liệu trái phép hay vô tình xóa dữ liệu có thể phát sinh nếu dữ liệu được quản lý không đúng cách.
Có nhiều phương pháp hỗ trợ bảo vệ dữ liệu trong doanh nghiệp, ví dụ như mã hóa (encryption), kiểm soát quyền truy cập và sao lưu dữ liệu (backup). Mã hóa là quá trình mã hóa dữ liệu(encoding data) thành các bản mã(ciphertext). Nếu phương pháp này được thực hiện đúng cách, người dùng trái phép sẽ không thể giải mã dữ liệu mà không có khóa chính xác. Kiểm soát truy cập là quá trình giới hạn quyền truy cập vào dữ liệu chỉ cho người dùng được ủy quyền. Ngoài ra, việc có thể kiểm tra các hành động trong quản lý dữ liệu có thể hỗ trợ doanh nghiệp chứng minh việc tuân thủ các quy định hiện hành, đây chính là một trong những hành động bảo vệ lợi thế cạnh tranh cốt lõi của doanh nghiệp.
Việc lựa chọn giải pháp bảo mật là một điều rất quan trọng với doanh nghiệp. Khi đưa ra lựa chọn, cần so sánh và đánh giá chi phí tiềm ẩn của hành vi vi phạm dữ liệu và chi phí cần phải bỏ ra để bảo vệ dữ liệu. Bảo mật dữ liệu là một quá trình liên tục, và điều quan trọng thiết yếu là doanh nghiệp cần thường xuyên xem xét và cập nhật các quy trình và công cụ bảo mật này.
Trong bài viết này, chúng ta sẽ thảo luận về cách mà doanh nghiệp có thể khám phá, phân loại và bảo vệ dữ liệu nhạy cảm nhất của mình bằng Cloud DLP, Dataplex cũng như Dataplex Catalog và các tính năng khác. Giải pháp này tự động hóa các hoạt động dữ liệu phức tạp và tốn kém để bạn có thể tập trung vào việc trao quyền cho khách hàng của mình thông qua dữ liệu.
Phân loại dữ liệu
Trong hầu hết các tổ chức, dữ liệu được thu thập thường xuyên và dữ liệu này có thể thuộc một trong hai loại sau:
- Dữ liệu nhạy cảm mà một chính sách cụ thể cần được đính kèm theo nó bởi nội dung của dữ liệu (ví dụ: số tài khoản ngân hàng, địa chỉ email cá nhân). Các phân loại dữ liệu này thường được xác định dựa trên:
a) Các yêu cầu pháp lý hoặc quy định hiện hành
b) Các yêu cầu quan trọng về bảo mật hoặc khả năng phục hồi
c) Các yêu cầu cụ thể của doanh nghiệp (ví dụ: IP)
- Dữ liệu không nhạy cảm
Bảo vệ dữ liệu
Để bảo vệ dữ liệu nhạy cảm và có thể tuân thủ các yêu cầu tuân thủ của các ban ngành, tại Google Cloud, chúng tôi khuyên bạn nên sử dụng các công cụ sau:
- Data Loss Prevention (Cloud DLP) giúp các nhà phát triển và nhóm bảo mật khám phá, phân loại và kiểm kê dữ liệu họ đã lưu trữ trong dịch vụ Google Cloud. Điều này cho phép bạn hiểu rõ hơn về dữ liệu của mình để bảo vệ tốt hơn trước các mối đe dọa như xâm nhập hoặc truy cập trái phép. Google Cloud DLP cung cấp giải pháp bảo vệ dữ liệu thống nhất áp dụng các chính sách nhất quán cho dữ liệu trong môi trường đa đám mây (hybrid multi-cloud). Nó cũng có thể hủy nhận dạng (de-identify), biên tập (redact) hoặc mã hóa (tokenize) dữ liệu của bạn để làm cho nó có thể chia sẻ hoặc sử dụng được trên các sản phẩm và dịch vụ khác.
- Đối với Google BigQuery, Cloud DLP cũng cung cấp dịch vụ khám phá dữ liệu nhạy cảm, tự động quét tất cả các bảng và cột BigQuery trên toàn bộ tổ chức, các thư mục riêng lẻ hoặc một số project được chọn. Sau đó, Cloud DLP tạo hồ sơ dữ liệu cho mỗi bảng và cột. Các cấu hình này bao gồm các chỉ số như infoType được dự đoán, mức độ nhạy cảm và rủi ro dữ liệu được đánh giá cũng như siêu dữ liệu về kích thước và hình dạng của các cột của bạn. Sử dụng những thông tin chuyên sâu này để đưa ra quyết định sáng suốt về cách bạn bảo vệ, chia sẻ và sử dụng dữ liệu của mình.
- Dataplex là dịch vụ data lake được quản lý hoàn toàn (fully managed) giúp bạn quản lý và quản trị dữ liệu của mình trong Google Cloud. Đây là một dịch vụ quản lý siêu dữ liệu có thể mở rộng, cho phép bạn nhanh chóng khám phá, quản lý, hiểu và quản quản trị tất cả dữ liệu của mình trong Google Cloud.
Các jobs kiểm tra của Cloud DLP được tích hợp nguyên bản bên trong Dataplex. Khi bạn sử dụng tác vụ Cloud DLP để quét các bảng BigQuery của mình để tìm dữ liệu nhạy cảm, tác vụ này có thể gửi kết quả trực tiếp đến Danh mục dữ liệu (Giải pháp Data Catalog trên GCP) ở dạng mẫu thẻ (tag template).
Dataplex
Hơn nữa, để xác định cách xử lý một số dữ liệu nhất định, Google cũng đang cung cấp khả năng liên kết dữ liệu với các thuộc tính thông qua Kho thuộc tính của Dataplex. Chức năng này thể hiện một sự thay đổi lớn trong cách tiếp cận quản lý dữ liệu vì trước đây, các chính sách quản trị chỉ có thể được xác định ở cấp miền. Giờ đây, khách hàng có thể hỗ trợ việc tuân thủ các quy định, chẳng hạn như GDPR, bằng cách xác định các lớp dữ liệu, chẳng hạn như ‘Dữ liệu PII’ của Thông tin nhận dạng cá nhân, các thuộc tính PII có liên quan, sau đó xác định các chính sách quản trị thích hợp.
Với Google Cloud, khách hàng có thể quản lý dữ liệu phân tán trên quy mô lớn. Dataplex tăng đáng kể hiệu quả của việc truyền bá chính sách bằng cách kiểm soát truy cập tới các bảng và cột, đồng thời áp dụng chúng cho dữ liệu trong Cloud Storage và BigQuery.
Vì Attribute Store, hiện ở dạng Xem trước, hỗ trợ các bảng do Dataplex xuất bản (trong bộ chứa Lưu trữ đám mây, được gắn dưới dạng tài sản trong Dataplex). Google hy vọng Attribute Store sẽ sớm có thể đính kèm các thuộc tính vào bất kỳ bảng nào.
Một kiến trúc tham chiếu được hiển thị bên dưới, phác thảo phương pháp hay nhất để bảo mật dữ liệu bằng Attribute Store, kết hợp với các thẻ Danh mục dữ liệu cung cấp giải thích về dữ liệu.
Trong sơ đồ trên, chúng ta thấy rằng các cột Bảng đều được gắn thẻ thông tin (sử dụng Danh mục dữ liệu) và được liên kết với một thuộc tính (sử dụng Attribute Store). Gắn thẻ thuộc tính giúp tạo điều kiện bảo vệ dữ liệu trên quy mô lớn trong khi Danh mục dữ liệu sử dụng thẻ để mô tả dữ liệu và nâng cao khả năng tìm kiếm.
Điều quan trọng cần lưu ý là các thẻ Danh mục dữ liệu được lập theo mục lục. Do đó, chúng tôi bắt đầu quy trình bằng cách tạo Loại thông tin DLP phù hợp cho Thuộc tính và Thẻ danh mục dữ liệu có liên quan. Sau đó, khi DLP khớp với loại thông tin, Thẻ danh mục dữ liệu được tạo và Thuộc tính được liên kết với dữ liệu.
Việc triển khai phương pháp này để khám phá, phân loại và bảo vệ dữ liệu của tổ chức bạn có thể giúp đảm bảo rằng bạn xử lý tài sản vô cùng quý giá này một cách phù hợp.
Cloud đã và đang là xu hướng tất yếu trong hệ thống phát triển , tối ưu công nghệ của các doanh nghiệp. Gimasys – Premier Partner của Google tại Việt Nam là đơn vị cung cấp, tư vấn các cấu trúc, thiết kế giải pháp Cloud tối ưu cho bạn. Để biết được hỗ trợ về mặt chuyên môn kỹ thuật, bạn có thể liên hệ Gimasys – Premier Partner của Google tại Việt Nam theo thông tin:
- Hotline: 0974 417 099 (HCM) | 0987 682 505 (HN)
- Email: gcp@gimasys.com
Nguồn: Gimasys