Dữ liệu đang tăng trưởng với tốc độ chóng mặt, nhưng làm thế nào để…
Tăng cường triển khai quản lý các ứng dụng với Ray Operator trên Google Kubernetes Engine (GKE)
Lĩnh vực AI liên tục phát triển, đặc biệt với những tiến bộ gần đây trong trí tuệ nhân tạo sinh (generative AI), các mô hình ngày càng lớn và phức tạp hơn, buộc các tổ chức phải phân phối hiệu quả các tác vụ trên nhiều máy hơn. Một cách tiếp cận mạnh mẽ là chạy ray.io, một khung phân tán mã nguồn mở cho khối lượng công việc AI/ML phân tán, trên Google Kubernetes Engine (GKE), dịch vụ orchestration container được quản lý của Google Cloud. Để biến mô hình này trở nên siêu dễ dàng để triển khai, giờ đây bạn có thể bật các API khai báo để quản lý các cụm Ray trên GKE chỉ với một tùy chọn cấu hình!
Ray cung cấp một API đơn giản để phân phối và song song hóa các tác vụ học máy một cách liền mạch, trong khi GKE cung cấp một nền tảng cơ sở hạ tầng có thể mở rộng và linh hoạt giúp đơn giản hóa quản lý ứng dụng và cải thiện việc sử dụng tài nguyên. Cùng nhau, GKE và Ray cung cấp khả năng mở rộng, chịu lỗi và dễ sử dụng để xây dựng, triển khai và quản lý các ứng dụng Ray. Hơn nữa, Ray Operator tích hợp sẵn trên GKE giúp đơn giản hóa thiết lập ban đầu và hướng dẫn người dùng tới các thực tiễn tốt nhất để chạy Ray trong môi trường sản xuất. Nó được xây dựng với các hoạt động ngày thứ 2, với hỗ trợ tích hợp cho Cloud Logging và Cloud Monitoring để nâng cao khả năng quan sát các ứng dụng Ray của bạn trên GKE.
“Ray Operator trên GKE đã thay đổi hoàn toàn quy trình làm việc của Google. Google đã giảm thời gian bảo trì và hiện tại có thể thiết lập các cụm Ray trong 30 phút – một tác vụ trước đây mất nhiều ngày. Đây là một sự thay đổi cuộc chơi.” – Mengliao (Mike) Wang, Geotab
Getting started
Tại Google Cloud Console, khi tạo một GKE Cluster mới, hãy chọn hộp kiểm tính năng để “Kích hoạt Ray Operator”. Với GKE Autopilot Cluster, điều này có thể được tìm thấy trong “Cài đặt nâng cao” dưới “AI và Machine Learning”.
Với Standard Cluster, bạn có thể tìm thấy hộp kiểm tính năng “Kích hoạt Ray Operator” trong menu “Tính năng” dưới “AI và Học máy”.
Để sử dụng gcloud CLI, bạn có thể đặt cờ addons như sau:
gcloud container clusters create CLUSTER_NAME \
— cluster-version=VERSION \
— addons=RayOperator
Để sử dụng Terraform, bạn có thể kích hoạt addon như sau:
resource “google_container_cluster” “ray-cluster” {
name = “gke-standard-regional-ray-operator”
location = “us-west1”
initial_node_count = 1
release_channel {
channel = “RAPID”
}
addons_config {
ray_operator_config {
enabled = true
ray_cluster_logging_config {
enabled = true
}
ray_cluster_monitoring_config {
enabled = true
}
}
}
}
Sau khi được kích hoạt, GKE sẽ lưu trữ và quản lý Ray Operator thay bạn. Cụm của bạn sẽ sẵn sàng để tạo các Cụm Ray và chạy các ứng dụng Ray sau khi tạo cụm.
Bạn có thể tìm thấy các ví dụ về việc sử dụng Ray để phục vụ các mô hình ngôn ngữ lớn trong tài liệu của Google.
Logging and monitoring
Ghi nhật ký và số liệu hiệu quả là rất quan trọng khi triển khai Ray trong sản xuất. GKE Ray Operator cung cấp các tính năng tùy chọn tự động hóa việc thu thập nhật ký và số liệu, lưu trữ chúng một cách liền mạch trong Cloud Logging và Cloud Monitoring để truy cập và phân tích dễ dàng.
Kích hoạt thu thập nhật ký đảm bảo rằng các nhật ký Ray được tự động ghi lại và lưu trữ trong Cloud Logging, bao gồm tất cả các nhật ký từ cả nút Head và nút Worker của cụm Ray. Tính năng này tập trung việc tổng hợp nhật ký trên tất cả các cụm Ray của bạn, đảm bảo rằng ngay cả khi cụm Ray bị tắt – cố ý hoặc không mong muốn – các nhật ký được tạo vẫn được bảo tồn và có thể tìm kiếm dễ dàng.
Kích hoạt thu thập số liệu cho phép GKE thu thập tất cả các số liệu hệ thống được xuất bởi Ray bằng cách sử dụng Managed Service for Prometheus. Các số liệu hệ thống rất quan trọng để theo dõi hiệu suất của các tài nguyên của bạn và nhanh chóng xác định lỗi. Khả năng hiển thị toàn diện này đặc biệt quan trọng khi xử lý cơ sở hạ tầng đắt tiền như GPU. Cloud Monitoring giúp đơn giản hóa việc tạo bảng điều khiển và thiết lập cảnh báo, giúp bạn thông báo về trạng thái của các tài nguyên Ray của mình.
TPU support
Tensor Processing Units (TPUs) là các bộ tăng tốc phần cứng được xây dựng đặc biệt để tăng tốc đáng kể việc đào tạo và suy luận của các mô hình học máy lớn. Với kiến trúc AI Hypercomputer của Google, việc kết hợp Ray với TPUs trở nên dễ dàng, để mở rộng các ứng dụng ML hiệu suất cao của bạn một cách liền mạch.
GKE Ray Operator giúp đơn giản hóa việc tích hợp TPU bằng cách quản lý các webhook nhập học cho việc lập lịch TPU Pod và thêm các biến môi trường TPU cần thiết cho các khung như JAX. Nó cũng hỗ trợ tự động mở rộng cho cả cụm Ray một máy chủ và nhiều máy chủ.
Decrease startup latency
Giảm thiểu thời gian khởi động là rất quan trọng khi chạy khối lượng công việc AI trong sản xuất, cả để duy trì thời gian hoạt động và tối đa hóa việc sử dụng các bộ tăng tốc phần cứng đắt tiền. GKE Ray Operator, kết hợp với các tính năng GKE khác, có thể giảm đáng kể thời gian khởi động này.
Lưu trữ các hình ảnh Ray của bạn trên Artifact Registry và kích hoạt truyền phát hình ảnh có thể dẫn đến giảm đáng kể thời gian cần thiết để kéo hình ảnh cho các cụm Ray của bạn. Các phụ thuộc lớn, thường cần thiết cho học máy, có thể dẫn đến các hình ảnh container cồng kềnh mất vài phút để kéo. Truyền phát hình ảnh có thể cắt giảm đáng kể thời gian kéo hình ảnh này, xem Sử dụng truyền phát hình ảnh để kéo hình ảnh container để biết thêm chi tiết.
Bạn cũng có thể kích hoạt các đĩa khởi động thứ cấp của GKE để tải trước trọng số mô hình hoặc hình ảnh container lên các nút mới. Khả năng này, kết hợp với truyền phát hình ảnh, có thể dẫn đến thời gian khởi động nhanh hơn 29X cho các ứng dụng Ray của bạn, dẫn đến việc sử dụng tốt hơn các bộ tăng tốc phần cứng của bạn. Xem Sử dụng đĩa khởi động thứ cấp để tải trước dữ liệu hoặc hình ảnh container để biết thêm chi tiết.
Scale Ray in production today
Để theo kịp những tiến bộ nhanh chóng trong AI, cần có một nền tảng có thể mở rộng cùng với khối lượng công việc của bạn đồng thời cung cấp trải nghiệm Pythonic được sắp xếp hợp lý mà các nhà phát triển AI của bạn quen thuộc. Ray trên GKE cung cấp sự kết hợp mạnh mẽ giữa khả năng sử dụng, khả năng mở rộng và độ tin cậy. Với GKE Ray Operator, việc bắt đầu và thực hiện các thực tiễn tốt nhất để mở rộng Ray trong sản xuất trở nên dễ dàng hơn bao giờ hết.