Trong thời đại “Big Data” thì các kho dữ liệu (Data Warehouse) truyền thống gặp…
Build a more secure data pipeline with Cloud Data Fusion
Đối với những người đang làm việc trong mảng phân tích dữ liệu, ETL và các đường ống ETL là một phần quan trọng trong nền tảng dữ liệu của bạn. Cloud Data Fusion là một dịch vụ tích hợp dữ liệu đã được vận hành sẵn của chúng tôi giúp cho việc nhanh chóng xây dựng và quản lý các đường ống dữ liệu.
Cloud Data Fusion được xây dựng trên dự án nguồn mở CDAP và lõi mở này cho phép bạn xây dựng các đường ống dữ liệu có tính di động. Một máy chủ CDAP có thể đáp ứng nhu cầu của bạn để chạy một vài đường ống dữ liệu đơn giản. Nhưng khi nói đến việc đảm bảo một số lượng lớn hơn các đường ống dữ liệu quan trọng cho doanh nghiệp bạn sẽ cần phải nỗ lực nhiều hơn để ghi nhật ký và giám sát các đường ống đó. Bạn cũng sẽ cần quản lý xác thực và ủy quyền để bảo vệ dữ liệu đó khi bạn có nhiều máy chủ để chạy nhiều khối lượng công việc cho nhiều nhóm và môi trường. Các dịch vụ bổ sung này có thể đòi hỏi nhiều nỗ lực bảo trì từ nhóm vận hành của bạn và mất nhiều thời gian để phát triển. Mục tiêu là để chạy các đường ống, không ghi nhật ký, giám sát hoặc dịch vụ quản lý truy cập và nhận dạng (IAM).
Google đã thiết kế Cloud Data Fusion để lo phần lớn công việc này cho bạn. Và vì nó là một phần của Google Cloud, bạn có thể tận dụng các lợi ích bảo mật tích hợp khi sử dụng Cloud Data Fusion thay vì các máy chủ CDAP tự quản lý:
- Bộ kiểm soát bảo mật dành cho đám mây với Cloud IAM—Các nỗ lực xác thực và quản lý danh tính được Cloud Identity chịu trách nhiệm
- Khả năng quan sát đầy đủ với Stackdriver Logging và Monitoring – Các nhật ký sẽ bao gồm nhật ký đường ống và nhật ký kiểm toán
- Giảm tiếp xúc với internet công cộng với mạng riêng
Hãy nhìn vào những chi tiết về tính năng dưới đây.
Kiểm soát truy cập với Cloud IAM
Lý do số một để sử dụng Cloud Data Fusion thay cho các máy chủ CDAP tự quản lý là nó tích hợp hoàn toàn với Cloud IAM. Điều này cho phép bạn kiểm soát quyền truy cập vào các tài nguyên Cloud Data Fusion của mình. Với Cloud IAM, Cloud Data Fusion có thể dễ dàng tích hợp với các dịch vụ Cloud Google khác. Bạn cũng có thể sử dụng Cloud Identity để quản lý và xác thực người dùng và nhóm [chẳng hạn như xác thực đa yếu tố (MFA)], thay vì tự triển khai cho riêng bạn.
Có hai vai trò được xác định trước trong Cloud Data Fusion: quản trị viên và người xem. Như một thực tiễn của nguyên tắc IAM về đặc quyền tối thiểu, vai trò quản trị viên chỉ nên được gán cho những người dùng cần quyền quản lý (tạo và xóa) các tiến trình. Vai trò người xem nên được chỉ định cho người dùng chỉ cần truy cập các tiến trình mà không quản lý chúng. Cả hai vai trò đều có thể truy cập giao diện người dùng Cloud Data Fusion trên web để tạo các đường ống và phần phụ trợ.
Gán các vai trò và quyền cho các nhóm với người dùng thay vì gán trực tiếp cho người dùng bất cứ khi nào có thể. Điều này giúp bạn kiểm soát truy cập người dùng vào các tài nguyên Cloud Data Fusion theo cách có tổ chức hơn, đặc biệt là khi bạn thường phải liên tục gán quyền cho các nhóm trên nhiều dự án.
Đọc thêm về hai vai trò Cloud Data Fusion và các quyền tương ứng của họ.
Private IP instance
Tiến trình IP riêng tư của Cloud Data Fusion kết nối riêng với mạng riêng ảo đám mây (VPC) của bạn. Lưu lượng truy cập qua mạng này không đi qua internet công cộng và do đó làm giảm bề mặt tấn công tiềm năng. Bạn có thể tìm hiểu thêm về việc thiết lập IP riêng tư cho Cloud Data Fusion.
VPC Service Controls
Chúng tôi cũng công bố về việc hỗ trợ bản beta VPC Service Controls cho Cloud Data Fusion. Giờ đây, bạn có thể ngăn chặn việc rò rỉ dữ liệu bằng cách thêm một tiến trình Cloud Data Fusion vào trong vùng cách ly dịch vụ của bạn. Khi được cấu hình với VPC-SC, mọi đường ống đọc dữ liệu từ trong vùng cách ly này sẽ thất bại nếu nó cố ghi dữ liệu vượt ra ngoài vùng cách ly này.
Stackdriver Logging
Stackdriver Logging and Monitoring mặc định bị vô hiệu hóa trong Cloud Data Fusion, nhưng chúng tôi khuyên bạn nên kích hoạt các công cụ này để có thể giám sát.
Với thông tin bổ sung được cung cấp bởi nhật ký và số liệu, bạn không những có thể điều tra và ứng phó với các sự cố nhanh hơn mà còn hiểu cách quản lý cơ sở hạ tầng cụ thể và khối lượng công việc hiệu quả hơn trong thời gian dài. Có một loạt các nhật ký có thể giúp bạn chạy các đường ống Cloud Data Fusion tốt hơn.
Pipeline logs
Chúng được tạo bởi các đường ống của bạn trong Cloud Data Fusion. Chúng rất hữu ích để hiểu và khắc phục các sự cố đường ống Cloud Data Fusion của bạn. Bạn có thể tìm thấy các nhật ký này trong Giao diện người dùng của Cloud Data Fusion cũng như trong nhật ký Stackdriver của cụm Dataproc đang thực thi các đường ống.
Admin activity audit logs
Các nhật ký này ghi lại các hoạt động sửa đổi cấu hình hoặc metadata tài nguyên của bạn. Admin activity audit logs được kích hoạt mặc định và không thể bị tắt.
Data access audit logs
Data access audit logs chứa các lệnh gọi API đọc cấu hình hoặc metadata của tài nguyên cũng như các lệnh gọi API do người dùng điều khiển để tạo, sửa đổi hoặc đọc dữ liệu tài nguyên do người dùng cung cấp.
Admin activity audit logs và Data access audit logs rất hữu ích để theo dõi những người đã truy cập hoặc thực hiện các thay đổi đối với tài nguyên Cloud Data Fusion của bạn. Trong trường hợp có bất kỳ hoạt động đáng ngờ nào, quản trị viên bảo mật sẽ có thể tìm và theo dõi người dùng nghi ngờ này trong nhật ký kiểm toán.
Các tính năng Google Cloud này có thể cung cấp cho bạn quyền kiểm soát bổ sung và khả năng hiển thị vào các đường ống Cloud Data Fusion của bạn. Cloud IAM giúp bạn kiểm soát ai có thể truy cập tài nguyên Cloud Data Fusion của bạn; tiến trình riêng tư sẽ giảm thiểu tiếp xúc với internet công cộng; và Stackdriver Logging and Monitoring cung cấp thông tin về khối lượng công việc của bạn, thay đổi quyền và quyền truy cập vào tài nguyên của bạn. Cùng nhau, họ tạo ra một giải pháp an toàn hơn cho đường ống truyền dữ liệu của bạn trên Google Cloud.
Source: Gimasys