Dữ liệu đang tăng trưởng với tốc độ chóng mặt, nhưng làm thế nào để…
Giới thiệu Datastream cho Google BigQuery
Trong môi trường cạnh tranh ngày nay, các tổ chức cần nhanh chóng và dễ dàng đưa ra quyết định dựa trên dữ liệu thời gian thực. Đó là lý do tại sao Google công bố Datastream cho BigQuery, hiện đã có trong bản xem trước, có tính năng sao chép liền mạch từ các nguồn cơ sở dữ liệu hoạt động như AlloyDB cho PostgreSQL, PostgreSQL, MySQL và Oracle, trực tiếp vào BigQuery – kho dữ liệu không máy chủ của Google Cloud. Datastream cho BigQuery là bước tiến lớn tiếp theo của Google nhằm hiện thực hóa tầm nhìn của chúng tôi về đám mây dữ liệu thống nhất, kết hợp cơ sở dữ liệu, phân tích và học máy vào một nền tảng duy nhất cung cấp quy mô, tốc độ, bảo mật và sự đơn giản mà các doanh nghiệp hiện đại cần. Với kiến trúc tự động mở rộng quy mô không máy chủ, Datastream cho phép bạn dễ dàng thiết lập pipeline ELT (Trích xuất, Tải, Chuyển đổi) để sao chép dữ liệu với độ trễ thấp cho phép thông tin chi tiết theo thời gian thực.
Hãy xem xét trường hợp của một chuỗi siêu thị lớn, với 100 cửa hàng trải khắp khu vực. Mỗi cửa hàng riêng lẻ chạy các điểm bán hàng địa phương và hệ thống quản lý kho hàng của riêng mình, thu thập dữ liệu trong ngày về các giao dịch và lượng hàng trong cửa hàng. Để cung cấp khả năng hiển thị và giúp hợp lý hóa các hoạt động hàng ngày của chuỗi, bộ phận CNTT thiết lập quy trình hàng loạt mỗi đêm để thu thập và hợp nhất tất cả dữ liệu từ các cửa hàng vào kho dữ liệu trung tâm, để có thể sẵn sàng xem xét các báo cáo về hiệu suất của các cửa hàng vào buổi sáng. Việc duy trì quy trình này cần nhiều thời gian và nguồn lực từ nhóm kỹ thuật dữ liệu và khi chuỗi ngày càng phát triển và nhiều dữ liệu cần được xử lý hơn, quá trình này mất nhiều thời gian đến nỗi các báo cáo chỉ sẵn sàng vào cuối ngày. Các tổ chức như thế này đang tìm kiếm một giải pháp hiện đại cho phép dễ dàng sao chép dữ liệu hoạt động vào kho dữ liệu của họ, cho phép ra quyết định trong thời gian thực; Datastream cho BigQuery là giải pháp đó.
> Tham khảo:
Datastream tăng tốc quá trình ra quyết định theo hướng dữ liệu trong BigQuery
Được phát triển với sự hợp tác chặt chẽ với nhóm BigQuery của Google Cloud, Datastream dành cho BigQuery mang đến trải nghiệm độc đáo, thực sự liền mạch và dễ sử dụng, cho phép hiểu rõ thời gian thực trong BigQuery chỉ với một vài bước.
Sử dụng chức năng UPSERT của API Change Data Capture (CDC) mới được phát triển của BigQuery và Storage Write API, Datastream sao chép một cách hiệu quả các bản cập nhật trực tiếp từ hệ thống nguồn vào các bảng BigQuery trong thời gian thực. Bạn không còn phải lãng phí tài nguyên có giá trị để xây dựng và quản lý các pipeline dữ liệu phức tạp, bảng dàn tự quản lý, logic hợp nhất DML phức tạp hoặc chuyển đổi thủ công từ các loại dữ liệu dành riêng cho cơ sở dữ liệu thành các loại dữ liệu BigQuery. Chỉ cần định cấu hình cơ sở dữ liệu nguồn, loại kết nối và đích của bạn trong BigQuery là bạn đã sẵn sàng. Datastream cho BigQuery sẽ chèn lấp dữ liệu lịch sử và liên tục sao chép các thay đổi mới khi chúng xảy ra. Và khi các lược đồ cơ sở dữ liệu thay đổi, Datastream xử lý liền mạch các thay đổi trong lược đồ và tự động thêm các bảng và cột mới vào BigQuery.
Định giá theo cấp dựa trên khối lượng mới
Chúng tôi cũng vui mừng thông báo về việc ra mắt định giá theo cấp (volume-based tiered pricing) dựa trên khối lượng để làm cho nó có giá cả phải chăng hơn cho những khách hàng đang di chuyển khối lượng dữ liệu lớn hơn. Định giá theo cấp dựa trên số lượng sẽ được áp dụng tự động dựa trên mức sử dụng thực tế để mở khóa sức mạnh của Datastream.
Klook, một nền tảng thương mại điện tử du lịch và giải trí hàng đầu cho trải nghiệm và dịch vụ, xử lý lượng lớn dữ liệu trên nhiều ứng dụng và cơ sở dữ liệu. Sử dụng BigQuery, nhóm dữ liệu của Klook tạo báo cáo và phân tích hàng ngày cho nhóm quản lý của họ để giúp đưa ra các quyết định kinh doanh tốt hơn. Stacy Zhu, Giám đốc cấp cao về Dữ liệu tại Klook cho biết: “Đối phó với môi trường dữ liệu phức tạp và nhập dữ liệu từ các nguồn khác nhau vào kho dữ liệu của chúng tôi là rất khó khăn”. “Trước khi áp dụng Datastream, chúng tôi đã có một nhóm kỹ sư dữ liệu dành riêng cho nhiệm vụ nhập dữ liệu vào BigQuery và chúng tôi đã dành rất nhiều thời gian và nỗ lực để đảm bảo rằng dữ liệu là chính xác. Với Datastream, các nhà phân tích dữ liệu của chúng tôi có thể có sẵn dữ liệu chính xác cho họ trong BigQuery chỉ bằng một cú nhấp chuột đơn giản. Chúng tôi thích sự dễ sử dụng của Datastream và hiệu suất của nó giúp chúng tôi xử lý dữ liệu ELT quy mô lớn. ”
Achievers một nền tảng và phần mềm tương tác với nhân viên từng đoạt giải thưởng, là một khách hàng khác gần đây đã sử dụng Datastream. Daljeet Saini, Kiến trúc sư dữ liệu chính tại Achievers cho biết: “Những người đạt thành tích đã sử dụng nhiều Google Cloud VM (GCE) và Google Kubernetes Engine (GKE)”. “Với sự trợ giúp của Datastream, Achievers sẽ truyền trực tuyến dữ liệu của chúng tôi vào BigQuery và cho phép các nhà phân tích và nhà khoa học dữ liệu của chúng tôi bắt đầu sử dụng BigQuery để phân tích thông minh, giúp chúng tôi đưa kho dữ liệu lên cấp độ tiếp theo.”
Bắt đầu sử dụng Datastream ngay hôm nay
Bạn có thể bắt đầu ngay hôm nay với Datastream, dành cho tất cả khách hàng ở tất cả các khu vực của Google Cloud. Để biết thêm thông tin về Datastream cho BigQuery, vui lòng xem trang sản phẩm.
Nếu doanh nghiệp của bạn đang quan tâm tới nền tảng Cloud Platform Google thì có thể kết nối với Gimasys – đối tác cấp cao của Google tại Việt Nam để được tư vấn giải pháp xây dựng ứng dụng theo nhu cầu riêng của doanh nghiệp nhé. Liên hệ ngay:
- Gimasys – Google Cloud Premier Partner
- Hotline: Hà Nội: 0987 682 505 – Hồ Chí Minh: 0974 417 099
- Email: gcp@gimasys.com
Nguồn: gcloudvn.com