Slide thumbnail

Cập nhật kiến thức Google Cloud

Kiến thức

Google Cloud hỗ trợ dễ dàng truy cập đến phân tích luồng với SQL, AI thời gian thực và hơn thế nữa

15/05/2020

Trong thời gian thử thách và không chắc chắn, các doanh nghiệp trên toàn thế giới phải suy nghĩ một cách sáng tạo và tạo ra nhiều giá trị hơn khi ít tiêu tốn nguồn lực hơn để duy trì hệ thống đáng tin cậy và hiệu quả cho khách hàng có nhu cầu. Về mặt phân tích dữ liệu, điều quan trọng là tìm cách để các nhóm kỹ thuật khởi động và các nhóm vận hành làm việc trong các trường hợp duy nhất để duy trì mức năng suất cần thiết. Cân bằng sự phát triển của các đường dẫn luồng hiện đại, có giá trị cao với việc duy trì và tối ưu hóa quy trình làm việc hàng loạt tiết kiệm chi phí là một mục tiêu quan trọng đối với nhiều đội. Google đã triển khai các khả năng mới để giúp các nhà phát triển và nhóm vận hành dễ dàng truy cập các phân tích luồng.

 

Các điểm nổi bật trong các lần ra mắt này bao gồm:

 

  •       Các đường dẫn luồng được phát triển trực tiếp trong giao diện người dùng web BigQuery với tính khả dụng chung của Dataflow SQL
  •       Tích hợp Dataflow với Nền tảng AI cho phép phát triển đơn giản các trường hợp sử dụng phân tích nâng cao
  •       Tăng cường khả năng giám sát với bảng điều khiển với khả năng quan sát

 

Được xây dựng trên cơ sở hạ tầng tự động hóa của Pub/Sub, Dataflow và BigQuery, nền tảng xử lý luồng của Google Cloud  cung cấp các tài nguyên mà các nhóm kỹ thuật và vận hành cần phải nhập liệu, xử lý và phân tích khối lượng dữ liệu biến động theo thời gian thực để có được cái nhìn về thông tin kinh doanh theo thời gian thực. Chúng tôi rất vinh dự khi Forrester Wave ™: Streaming Analytics, báo cáo quý 3 năm 2019 có tên Google Cloud là người dẫn đầu trong không gian. Những sự ra mắt này được xây dựng dựa trên và củng cố các khả năng thúc đẩy sự công nhận đó.

 

Có những điểm gì mới trong phân tích luồng

Quá trình phát triển cho các đường dẫn luồng và dữ liệu hàng loạt thậm chí còn dễ dàng hơn với những phát hành quan trọng trên cả Dataflow và Pub / Sub. Bạn có thể nhận được từ ý tưởng đến đường dẫn và quản lý một cách lặp lại để đáp ứng nhu cầu của khách hàng một cách hiệu quả.

  • Sự ra mắt của Dataflow SQL
    Dataflow SQL cho phép các nhà phân tích dữ liệu và kỹ sư dữ liệu sử dụng các kỹ năng SQL của họ để phát triển các đường dẫn truyền dữ liệu Dataflow ngay trên giao diện người dùng web BigQuery. Các đường dẫn SQL Dataflow của bạn có quyền truy cập đầy đủ vào tự động hóa, cửa sổ dựa trên thời gian, công cụ xử lý trực tuyến và xử lý dữ liệu song song. Bạn có thể tham gia truyền dữ liệu từ Pub / Sub với các tệp trong Cloud Storage hoặc các bảng trong BigQuery, viết kết quả vào BigQuery hoặc Pub / Sub và xây dựng bảng điều khiển thời gian thực bằng Google Sheets hoặc các công cụ BI khác. Ngoài ra, còn có một giao diện dòng lệnh được thêm vào gần đây để viết lệnh các công việc sản xuất của bạn với sự hỗ trợ đầy đủ của các tham số truy vấn và bạn có thể dựa vào tích hợp danh mục dữ liệu và trình soạn thảo lược đồ tích hợp để quản lý lược đồ.

 

Dễ dàng truy cập đến phân tích luồng với SQL, AI thời gian thực và hơn thế nữa

 

  • Phát triển đường ống lặp trong Jupyter notebook
    Với notebook, các nhà phát triển giờ đây có thể lặp đi lặp lại xây dựng các đường dẫn từ đầu với nền tảng AI Notebook và triển khai với trình chạy Dataflow. Tác giả các đường dẫn Apache Beam từng bước bằng cách kiểm tra các biểu đồ đường dẫn trong quy trình đọc-trải nghiệm-in-lặp lại (REPL). Có sẵn thông qua Nền tảng AI của Google, Notebook cho phép bạn viết các đường dẫn trong một môi trường trực quan với khung khoa học dữ liệu và máy học mới nhất để bạn có thể phát triển trải nghiệm khách hàng tốt hơn một cách dễ dàng. 
  • Chia sẻ đường dẫn và tỷ lệ với các mẫu flex
    Các mẫu Dataflow cho phép bạn dễ dàng chia sẻ các đường dẫn của mình với các thành viên trong nhóm và trên toàn tổ chức của bạn hoặc tận dụng nhiều mẫu do Google cung cấp để thực hiện các tác vụ xử lý dữ liệu đơn giản nhưng hữu ích. Với các mẫu flex, bạn có thể tạo một mẫu từ bất kỳ đường dẫn Dataflow nào.
  • Ra mắt Pub / Sub deal letter topics
    Vận hành các đường dẫn luồng đáng tin cậy và các hệ thống hướng sự kiện đã trở nên đơn giản hơn với sự sẵn có chung của dead letter topics cho Pub / Sub. Một vấn đề phổ biến trong các hệ thống này là các “dead letters”,hoặc tin nhắn mà không thể được xử lý bởi các ứng dụng thuê bao. Một dead letter topic cho phép các tin nhắn như vậy được đặt sang một bên để kiểm tra ngoại tuyến và gỡ lỗi để phần còn lại của tin nhắn có thể được xử lý mà không bị chậm trễ.
  • Tối ưu hóa xử lý dữ liệu luồng với thu thập dữ liệu thay đổi (CDC)
    Một cách để tối ưu hóa xử lý dữ liệu luồng là tập trung vào làm việc chỉ với dữ liệu đã thay đổi thay vì tất cả dữ liệu có sẵn. Đây là nơi thu thập dữ liệu thay đổi (CDC) có ích. Nhóm Dataflow đã phát triển một giải pháp mẫu cho phép bạn nhập một luồng dữ liệu thay đổi đến từ bất kỳ loại cơ sở dữ liệu MySQL nào trên các phiên bản 5.6 trở lên (tự quản lý, tại chỗ, v.v.) và đồng bộ hóa nó với bộ dữ liệu trong BigQuery sử dụng Dataflow.
  • Tích hợp với Cloud Platform AI
    Giờ đây, bạn có thể tận dụng sự tích hợp dễ dàng với AI Platform APIs và truy cập vào các thư viện để triển khai các trường hợp sử dụng phân tích nâng cao. Các khả năng của AI Platform và Dataflow bao gồm phân loại video clip, phân loại hình ảnh, phân tích văn bản tự nhiên, ngăn ngừa mất dữ liệu và một số trường hợp sử dụng dự đoán phát trực tuyến khác.

Dễ dàng và tốc độ không nên đến với những người xây dựng và khởi động các đường dẫn dữ liệu, nhưng những người quản lý và bảo trì chúng cũng vậy. Google cũng đã nâng cao trải nghiệm giám sát cho Dataflow, nhằm mục đích trao quyền cho các nhóm vận hành hơn nữa.

  • Giảm độ phức tạp trong vận hành với bảng điều khiển quan sát
    Bảng điều khiển quan sát và giám sát nội tuyến Dataflow cho phép bạn truy cập trực tiếp các số liệu công việc để giúp khắc phục sự cố hàng loạt và đường dẫn luồng. Bạn có thể truy cập các biểu đồ giám sát ở cả mức độ hiển thị ở cấp độ bước và cấp độ công nhân và đặt cảnh báo cho các điều kiện như dữ liệu cũ và độ trễ hệ thống cao. Dưới đây, hãy nhìn vào một ví dụ:

 

Dễ dàng truy cập đến phân tích luồng với SQL, AI thời gian thực và hơn thế nữa

 

Bắt đầu với phân tích luồng bây giờ dễ dàng hơn bao giờ hết. Bước đầu tiên để bắt đầu thử nghiệm và trải nghiệm là di chuyển một số dữ liệu lên nền tảng. Hãy xem các tài liệu Khởi động nhanh Pub / Sub để di chuyển với việc nhập liệu và nhắn tin theo thời gian thực với Google Cloud.

 

 

 

Nguồn: Gimasys.

 

Kiến thức

Trung tâm cập nhật và hỗ trợ dành cho quản trị viên và người dùng