Có gì thay đổi Để tiếp tục nỗ lực đảm bảo Google Chat là nơi…
Cloud Pub/Sub 2024 highlights
Trong bối cảnh kỹ thuật số đang phát triển nhanh chóng như hiện nay, các tổ chức cần tận dụng dữ liệu thời gian thực để có được thông tin chi tiết nhằm hành động và cải thiện việc ra quyết định. Tính khả dụng của dữ liệu thời gian thực đang nổi lên như một yếu tố quan trọng để phát triển và mở rộng doanh nghiệp. Pub/Sub là dịch vụ nhắn tin đơn giản, đáng tin cậy và có thể mở rộng của Google Cloud, đóng vai trò là điểm vào linh hoạt để thu thập dữ liệu phát trực tuyến vào hệ sinh thái của Google Cloud đồng thời được tích hợp với các sản phẩm như BigQuery, Cloud Storage, Dataflow, v.v. Sau đó, bạn có thể sử dụng dữ liệu này cho các ứng dụng phân tích hạ nguồn, trực quan hóa và AI. Năm nay, Google đã ra mắt một số tính năng và cải tiến mới để giúp đáp ứng nhu cầu của khối lượng công việc phát trực tuyến hiện đại, trên ba mô hình phân tích dữ liệu chính:
- Thu thập luồng – Truyền dữ liệu trực tiếp vào BigQuery và Cloud Storage cho các trường hợp sử dụng tiếp theo như phân tích và ML với BigQuery hoặc để sao lưu trong Cloud Storage.
- Phân tích luồng – Xử lý và phân tích các luồng sự kiện theo thời gian thực và đưa ra quyết định kinh doanh dựa trên thông tin chi tiết có giá trị cao theo thời gian thực với Dataflow hoặc BigQuery Engine cho Apache Flink hoặc truy vấn liên tục BigQuery .
- Chia sẻ và xuất luồng – Quản lý, chia sẻ và kiếm tiền từ dữ liệu phát trực tuyến có giá trị của bạn thông qua trao đổi dữ liệu với các nhóm nội bộ hoặc khách hàng bên ngoài.
Hãy cùng xem xét kỹ hơn những điểm nổi bật của Pub/Sub năm 2024 trên ba lĩnh vực này.
Thu thập luồng
Nhiều khách hàng để một số khối lượng công việc trên một đám mây công cộng và để khối lượng công việc còn lại (ví dụ: phân tích) trên một đám mây khác. Pub/Sub theo truyền thống đã hỗ trợ việc thu thập dữ liệu phát trực tuyến vào BigQuery và Cloud Storage thông qua các đăng ký xuất. Năm nay, Google đã đơn giản hóa việc nhập vào Pub/Sub từ nhiều nguồn khác nhau, bắt đầu với AWS Kinesis Data Streams. Import topics Pub/Sub là một cách mới không cần mã, chỉ cần một cú nhấp chuột để thu thập dữ liệu phát trực tuyến từ AWS Kinesis Data Streams vào Pub/Sub. Điều này giúp đơn giản hóa các đường ống thu thập dữ liệu phát trực tuyến mà không cần phải duy trì và chạy một trình kết nối tùy chỉnh.
Một trường hợp sử dụng truyền phát điển hình khác là truyền dữ liệu hàng loạt vào Pub/Sub. Để truyền dữ liệu từ Cloud Storage vào Pub/Sub, trước đây bạn phải cấu hình, triển khai, chạy, quản lý và mở rộng kết nối tùy chỉnh hoặc sử dụng mẫu Dataflow. Bây giờ bạn có thể bật thuộc tính truyền dữ liệu để tạo Cloud Storage import topic nhằm truyền dữ liệu hàng loạt từ Cloud Storage vào chủ đề Pub/Sub. Khi dữ liệu đang truyền vào chủ đề nhập, bạn có thể tạo đăng ký (Kéo, Đẩy, BigQuery hoặc Cloud Storage) để đưa dữ liệu đến bộ thu bạn chọn để xử lý hạ lưu.
Có hai trường hợp sử dụng chính cho chủ đề nhập Cloud Storage:
- Chuyển hàng loạt sang phát trực tuyến – Để tận dụng dữ liệu hàng loạt cho các trường hợp sử dụng phân tích phát trực tuyến như dự đoán và kích hoạt, trước tiên bạn phải chuyển đổi dữ liệu đó thành định dạng phát trực tuyến. Với chủ đề nhập Cloud Storage, bạn có thể thực hiện việc thu thập này theo cách được quản lý hoàn toàn.
- Lưu trữ dữ liệu phát trực tuyến – Nhiều khách hàng cần lưu trữ dữ liệu lịch sử; sử dụng Pub/Sub với Cloud Storage subscriptions giúp xây dựng kho lưu trữ dễ dàng hơn. Từ đó, chủ đề nhập Cloud Storage giúp dễ dàng nhập dữ liệu lịch sử vào chủ đề Pub/Sub cho các trường hợp sử dụng phân tích phát trực tuyến.
Năm nay, Google đã ra mắt bảng BigQuery cho Apache Iceberg ở dạng xem trước, một công cụ lưu trữ được quản lý hoàn toàn, tương thích với Apache Iceberg từ BigQuery với các tính năng như lưu trữ tự động, tối ưu hóa, nhóm và thu thập luồng thông lượng cao. Đăng ký Pub/Sub BigQuery tích hợp với bảng BigQuery cho Apache Iceberg để thu thập luồng thông lượng cao, lưu trữ bền vững các bộ dữ liệu đã thu thập theo định dạng hướng hàng và định kỳ chuyển đổi chúng thành Parquet được lưu trữ trong thùng Cloud Storage do khách hàng sở hữu. Bảng BigQuery cho Apache Iceberg cũng có thể được sử dụng với Pub/Sub để lưu trữ dữ liệu phát trực tuyến trong Cloud Storage ở định dạng Parquet.
Phân tích theo luồng
Khách hàng sử dụng Pub/Sub kết hợp với các công cụ xử lý luồng để hỗ trợ các trường hợp sử dụng phân tích luồng như phát hiện bất thường, cá nhân hóa, v.v. Với Pub/Sub đã được tích hợp sẵn với Dataflow, vào năm 2024, Google tập trung vào việc hỗ trợ Apache Flink , một khuôn khổ xử lý luồng nguồn mở đang được áp dụng ngày càng rộng rãi trên khắp các doanh nghiệp. Bây giờ bạn có thể sử dụng Apache Flink với Pub/Sub theo hai cách:
- BigQuery Engine cho Apache Flink
Google vừa ra mắt BigQuery Engine cho Apache Flink ở dạng xem trước, cho phép bạn sử dụng API và hệ sinh thái Apache Flink quen thuộc để xử lý luồng có trạng thái với Java, Python và SQL. Đây cũng là dịch vụ không cần máy chủ với các triển khai được quản lý hoàn toàn, tự động mở rộng quy mô, nâng cấp minh bạch và thanh toán theo nhu cầu, đồng thời được tích hợp gốc vào nền tảng dữ liệu và AI hợp nhất của chúng tôi. Pub/Sub cũng được tích hợp với BigQuery Engine cho Apache Flink. - Trình kết nối Pub/Sub Apache Flink
Để hỗ trợ phân tích luồng với các triển khai Apache Flink hiện có, Google đã ra mắt phiên bản mới của trình kết nối Pub/Sub Flink. Hiện đã có sẵn rộng rãi, trình kết nối cho phép bạn kết nối triển khai Apache Flink hiện có của mình với Pub/Sub chỉ trong vài bước. Trình kết nối cũng cho phép bạn xuất bản đầu ra Apache Flink vào các chủ đề Pub/Sub hoặc sử dụng đăng ký Pub/Sub làm nguồn trong các ứng dụng Apache Flink.
Chia sẻ và xuất luồng
BigQuery Analytics Hub cho phép các doanh nghiệp chia sẻ tài sản dữ liệu hàng loạt trên khắp các tổ chức một cách hiệu quả và an toàn. Tuy nhiên, nhiều tổ chức cũng cần chia sẻ dữ liệu phát trực tuyến theo thời gian thực với các đối tác và khách hàng, cũng như với các nhóm nội bộ. Để hỗ trợ, tính năng chia sẻ Chủ đề Pub/Sub trong Analytics Hub ở bản xem trước cung cấp:
- Chia sẻ dữ liệu theo thời gian thực, cho phép các nhà cung cấp dữ liệu chia sẻ thông tin cập nhật dữ liệu ngay lập tức, tạo điều kiện truy cập kịp thời vào dữ liệu mới nhất.
- Nâng cao khả năng khám phá dữ liệu: Bằng cách liệt kê các chủ đề Pub/Sub dưới dạng sản phẩm dữ liệu, nhà sản xuất có thể giúp tăng khả năng hiển thị và khả năng khám phá các luồng dữ liệu của họ.
- Truy cập dữ liệu đơn giản, với trải nghiệm tích hợp để quản lý tập trung khả năng truy cập vào dữ liệu phát trực tuyến của tổ chức bạn.
Để đơn giản hóa việc truyền dữ liệu thời gian thực từ BigQuery đến các hệ thống và nhà cung cấp bên ngoài, bạn có thể sử dụng truy vấn liên tục BigQuery với Pub/Sub, mở rộng các khả năng SQL truyền phát mới trong BigQuery dưới dạng các tác vụ SQL có thể chạy vô thời hạn và xử lý dữ liệu thời gian thực ngay khi dữ liệu đến. Truy vấn liên tục BigQuery cho phép bạn phân tích dữ liệu truyền phát theo thời gian thực và hành động ngay lập tức dựa trên những thông tin chi tiết đó.
Bạn thậm chí có thể tận dụng Pub/Sub làm cả đầu vào và đầu ra để xử lý dữ liệu theo thời gian thực: Sử dụng đăng ký BigQuery để nhập dữ liệu phát trực tuyến vào BigQuery, với truy vấn liên tục BigQuery để xử lý, phân tích và phát triển các đường ống dữ liệu theo sự kiện để truyền đạt thông tin chi tiết đến các ứng dụng hạ lưu bằng cách xuất kết quả truy vấn sang một chủ đề Pub/Sub riêng biệt . Nhiều đối tác ISV của Google Cloud đã hỗ trợ các thông báo Pub/Sub được tạo từ truy vấn liên tục, bao gồm (nhưng không giới hạn ở) Aiven , Census , Confluent , Estuary , Hightouch , Keboola , Lytics , Nexla , Qlik và Redpanda .
looking for more information
Hỗ trợ mới cho OpenTelemetry trong Pub/Sub cho phép bạn xem dấu vết chi tiết về vòng đời tin nhắn của mình, bao gồm khả năng xem dấu vết phân tán từ thời điểm tin nhắn được xuất bản cho đến khi tin nhắn được nhận và xử lý. Phân tích các dấu vết này có thể giảm thời gian khắc phục sự cố bằng cách cho phép bạn nhanh chóng xác định các nút thắt, cấu hình sai và các lỗi khác trong ứng dụng Pub/Sub của mình.
Khi hướng tới năm 2025, Google đã lên kế hoạch đổi mới trên các lĩnh vực chính sau:
- Thu thập Kafka đơn giản – Khách hàng thường di chuyển từ Kafka sang Pub/Sub để đơn giản hóa cơ sở hạ tầng nhắn tin của họ và tận hưởng những lợi ích chính của Pub/Sub về tính đơn giản, độ tin cậy và khả năng tự động mở rộng. Để hành trình di chuyển này trở nên đơn giản hơn, chúng tôi sẽ ra mắt các nguồn Kafka liên đám mây với Import Topics vào đầu năm 2025.
- Chuyển đổi tin nhắn đơn – Hầu như tất cả các đường ống dữ liệu phát trực tuyến đều cần một số hình thức chuyển đổi. Một số khách hàng thích chuyển đổi dữ liệu sau khi dữ liệu đã được đưa vào hồ dữ liệu hoặc kho dữ liệu (mẫu ELT), trong khi những khách hàng khác thích chuyển đổi dữ liệu trước khi đưa dữ liệu vào bồn chứa (hồ dữ liệu, kho dữ liệu). Vào năm 2025, chúng tôi có kế hoạch đơn giản hóa hơn nữa các kiến trúc phân tích phát trực tuyến bằng cách cung cấp các chuyển đổi tin nhắn đơn, nhẹ, gốc. Chuyển đổi tin nhắn đơn (SMT) Pub/Sub sẽ giúp bạn thực hiện các sửa đổi đơn giản, nhẹ đối với các thuộc tính tin nhắn và/hoặc dữ liệu bằng Hàm do người dùng xác định (UDF) của JavaScript .
Năm 2024 chứng kiến một bước tiến đáng kể của Cloud Pub/Sub. Với những cải tiến về hiệu năng, khả năng mở rộng và tích hợp, dịch vụ này không chỉ củng cố vị thế là một trong những giải pháp nhắn tin đám mây hàng đầu mà còn mở ra những khả năng mới cho các ứng dụng thực tế. Từ việc xây dựng các hệ thống dữ liệu thời gian thực đến việc tạo ra các kiến trúc microservices linh hoạt, Cloud Pub/Sub đang đóng vai trò ngày càng quan trọng trong việc xây dựng các ứng dụng hiện đại.