Giới thiệu Gemma 4 trên Google Cloud: Mô hình mở mạnh mẽ nhất của Google từ trước đến nay.

13/04/2026

Hôm nay, Google chính thức phát hành Gemma 4 trên Google Cloud.

Có gì mới: Xét trên từng byte, đây là dòng mô hình mã nguồn mở mạnh mẽ nhất. Được xây dựng dựa trên cùng một nghiên cứu với Gemini 3 và phát hành theo giấy phép Apache 2.0 cho phép sử dụng thương mại tự do, các mô hình này vượt xa khả năng trò chuyện thông thường. Với cửa sổ ngữ cảnh lên đến 256K, khả năng xử lý hình ảnh và âm thanh gốc, cùng khả năng thông thạo hơn 140 ngôn ngữ, chúng hoạt động xuất sắc trong việc xử lý logic phức tạp, tạo mã ngoại tuyến và quy trình làm việc của tác nhân.

Vì sao điều này quan trọng đối với doanh nghiệp của bạn: Trí tuệ nhân tạo doanh nghiệp (Enterprise AI) đòi hỏi các mô hình có khả năng thực thi logic phức tạp trong khi vẫn giữ dữ liệu trong phạm vi bảo mật. Gemma 4 mang đến sự cân bằng này. Các tổ chức có thể triển khai các mô hình này trên toàn bộ Google Cloud để đáp ứng các yêu cầu tuân thủ nghiêm ngặt, bao gồm cả các giải pháp Sovereign Cloud. Điều này tạo nền tảng cho chủ quyền kỹ thuật số, trao cho các nhóm quyền kiểm soát hoàn toàn đối với dữ liệu, cơ sở hạ tầng và mô hình của họ.

Mục Lục

Bạn có thể bắt đầu sử dụng Gemma 4 ở đâu?

Vertex AI
Triển khai Gemma 4 đến các điểm cuối Vertex AI của riêng bạn. Chọn mô hình từ Model Garden và cấp phát các tài nguyên điện toán cụ thể mà ứng dụng của bạn yêu cầu. Mô hình tự triển khai này cho phép bạn kiểm soát trực tiếp cơ sở hạ tầng và chi phí phục vụ của mình trong khi vẫn giữ dữ liệu của bạn trong môi trường Google Cloud.

Bạn cũng có thể tinh chỉnh Gemma 4 bằng cách sử dụng

Vertex AI Training Clusters (VTC), Các giải pháp này cung cấp công thức SFT được tối ưu hóa và khả năng phục hồi quy mô lớn thông qua NVIDIA NeMo Megatron. Điều này đảm bảo bạn có thể thích ứng hiệu quả với bất kỳ biến thể nào, từ mô hình 2 tỷ (E2B) hiệu quả cho các tác vụ biên đến mô hình 31 tỷ dày đặc cho việc điều phối doanh nghiệp phức tạp.

Ngoài ra, Google cam kết thúc đẩy sự lựa chọn và đổi mới của khách hàng thông qua bộ sưu tập các mô hình nội bộ, mã nguồn mở và bên thứ ba được tuyển chọn kỹ lưỡng có sẵn trên Vertex AI. Đó là lý do tại sao Google rất vui mừng thông báo rằng mô hình Gemma 4 26B MoE sẽ được cung cấp dưới dạng dịch vụ quản lý hoàn toàn và không máy chủ trên Model Garden trong những ngày tới.

Agent Development Kit (ADK)
ADK là một khung phần mềm mã nguồn mở linh hoạt và có cấu trúc mô-đun để phát triển và triển khai các tác nhân AI. Gemma 4 cung cấp các khả năng tác nhân tiên tiến, bao gồm suy luận, gọi hàm, tạo mã và đầu ra có cấu trúc. ADK giúp bạn xây dựng các tác nhân AI đầy đủ chức năng với Gemma 4.. Bắt đầu xây dựng các tác nhân AI với Gemma 4 và Google ADK ngay hôm nay.

Cloud Run
Giờ đây, bạn có thể chạy các tác vụ suy luận Gemma 4 đòi hỏi cao một cách hiệu quả trên Cloud Run, tận dụng sức mạnh của GPU NVIDIA RTX PRO 6000 (Blackwell). Với 96GB bộ nhớ vGPU, bạn có thể dễ dàng triển khai các mô hình như Gemma-4-31B-it trên GPU không máy chủ.

Cloud Run xử lý cơ sở hạ tầng bên dưới, cho phép bạn tập trung vào các ứng dụng của mình. Các mô hình của bạn sẽ tự động thu nhỏ về 0 khi không hoạt động và tự động điều chỉnh theo nhu cầu, đảm bảo chi phí được tối ưu hóa vì bạn chỉ trả tiền cho những gì bạn sử dụng. Thêm vào đó, bạn có thể linh hoạt tùy chỉnh cấu hình CPU và bộ nhớ cho từng tác vụ suy luận. Hãy dùng thử ngay, theo yêu cầu mà không cần đặt trước, tại us-central1 hoặc europe-west4.

Google Kubernetes Engine (GKE)
GKE cung cấp một môi trường có khả năng mở rộng và tùy chỉnh cao để triển khai Gemma 4, hoàn hảo cho các nhóm cần kiểm soát chi tiết cơ sở hạ tầng AI của họ. Bằng cách quản lý cơ sở hạ tầng của riêng bạn trên GKE, bạn có được sự linh hoạt để điều chỉnh tài nguyên tính toán, chọn bộ tăng tốc GPU hoặc TPU cụ thể và triển khai các chỉ số tự động mở rộng tùy chỉnh phù hợp với mô hình lưu lượng truy cập chính xác của bạn.

Mức độ kiểm soát này cũng đảm bảo khối lượng công việc AI của bạn có thể tích hợp liền mạch với các dịch vụ vi mô hiện có trong khi tuân thủ các yêu cầu nghiêm ngặt về bảo mật và tuân thủ dữ liệu của tổ chức bạn.

Bắt đầu từ hôm nay, bạn có thể triển khai các mô hình Gemma 4 trên GKE một cách hiệu quả bằng cách sử dụng vLLM, một công cụ triển khai LLM hiệu suất cao và tiết kiệm bộ nhớ. Bằng cách tận dụng GKE, bạn có thể mở rộng quy mô khối lượng công việc suy luận của mình một cách liền mạch từ mức 0 đến mức nhu cầu cao nhất trong khi tối ưu hóa việc sử dụng tài nguyên và chi phí. Để giúp bạn bắt đầu, hãy xem hướng dẫn mới được cập nhật của Google về cách triển khai. Gemma 4 trên GKE.

Nhìn về phía trước, Gemma 4 có vị thế độc đáo để thúc đẩy thế hệ ứng dụng tác nhân tiếp theo trên Google Cloud. Việc kết hợp khả năng lập kế hoạch đa bước của Gemma 4 với những tính năng mới GKE Agent Sandbox, Các nhà phát triển có thể thực thi an toàn mã do LLM tạo ra và các lệnh gọi công cụ trong môi trường Kubernetes thuần túy, được cách ly cao, cung cấp khả năng khởi động nguội dưới một giây với tối đa 300 sandbox mỗi giây để lập kế hoạch đa bước an toàn và hiệu quả. Hơn nữa, bằng cách tận dụng GKE Inference Gateway và các tính năng suy luận phân tán nâng cao trong llm-d như lập lịch dựa trên độ trễ dự đoán,

Các quy trình làm việc phức tạp này được hưởng lợi từ khả năng định tuyến thông minh, tự động cân bằng việc tái sử dụng bộ nhớ cache và tải máy chủ. GKE Inference Gateway với Predictive Latency Boost có thể giảm độ trễ thời gian đến token đầu tiên (TTFT) lên đến 70% bằng cách thay thế phỏng đoán dựa trên kinh nghiệm bằng định tuyến nhận biết dung lượng theo thời gian thực, không cần điều chỉnh thủ công.

Google Cloud TPUs
Gemma 4 sẽ có sẵn trên các TPU trên toàn bộ Google Cloud thông qua GKE, GCE và Vertex AI. Bắt đầu từ hôm nay, bạn có thể sử dụng một số dự án TPU mã nguồn mở phổ biến để phục vụ, huấn luyện trước và huấn luyện sau Gemma-4-31B dense và Gemma-4-26B-A4B MoE.

Để thử nghiệm trước và sau quá trình huấn luyện, bạn có thể tận dụng MaxText và thực hiện đào tạo sau đào tạo để tùy chỉnh cho các trường hợp sử dụng phân tích và tạo văn bản, suy luận và phân tích hình ảnh.
Đối với việc phân phối trực tuyến và suy luận theo lô, bạn có thể sử dụng vLLM TPU Để triển khai các tác vụ sản xuất của bạn bằng cách sử dụng các container Docker được xây dựng sẵn, hướng dẫn nhanh và các bài hướng dẫn minh họa bằng văn bản của Google.

Hãy đón chờ các bài hướng dẫn SGLang-JAX do cộng đồng đóng góp.

Sovereign Cloud
Gemma 4 sẽ có mặt trên tất cả các cửa hàng của Google. Sovereign Cloud offerings, Bao gồm điện toán đám mây công cộng với Data Boundary, Google Cloud Dedicated (như S3NS ở Pháp) và Google Distributed Cloud cho các triển khai khép kín và tại chỗ. Việc mở rộng này củng cố cam kết của Google đối với một thế giới kỹ thuật số mở, tự chủ, nơi các tổ chức duy trì toàn quyền kiểm soát dữ liệu, mã hóa và môi trường hoạt động của họ.

Bằng cách cung cấp các trọng số mở, Gemma 4 trao quyền cho các nhà phát triển xây dựng các giải pháp chuyên biệt cho các môi trường nhạy cảm cao. Các doanh nghiệp và cơ quan chính phủ giờ đây có thể triển khai các dịch vụ được bản địa hóa, tôn trọng các sắc thái khu vực và chuyên môn lĩnh vực, đồng thời đáp ứng các quy tắc nghiêm ngặt về lưu trữ và chủ quyền dữ liệu. Cách tiếp cận này đảm bảo các tổ chức có thể đổi mới nhanh chóng với AI trong khi vẫn hoàn toàn tuân thủ các yêu cầu quốc gia và ngành.

Hãy bắt đầu ngay hôm nay!

Từ Vertex AI đến Sovereign Cloud, bạn có thể bắt đầu xây dựng với Gemma 4 ngay hôm nay. Bằng cách chọn Gemma 4 trên Google Cloud, các doanh nghiệp và tổ chức độc lập sẽ có được một nền tảng đáng tin cậy, minh bạch, cung cấp các khả năng hiện đại đồng thời đáp ứng các tiêu chuẩn cao nhất về bảo mật và độ tin cậy.

Bạn có thể bắt đầu sử dụng Gemma 4 ở đâu?

Hãy bắt đầu ngay hôm nay!

Bài viết liên quan