Slide thumbnail

Cập nhật kiến thức Google Cloud

Kiến thức

Tối ưu hóa chiến lược sử dụng Google Cloud Storage

11/09/2019

Cho dù bạn là một tập đoàn hàng tỷ đô la đang xem xét doanh thu nửa đầu năm, hay bạn đang cố upload 1 video con mèo đang chơi đàn piano, bạn vẫn cần một nơi nào đó để lưu trữ dữ liệu. 

 

Google nhận thấy rằng hầu hết khách hàng đang sử dụng Cloud Storage, dịch vụ lưu trữ đối tượng trên Google Cloud Platform (GCP), sử dụng để lưu trữ dữ liệu nói chung. Tích hợp API mạnh mẽ với vô số dịch vụ Google giúp cho giải pháp này là điểm tựa để bắt đầu đưa ra ý tưởng các giải pháp, bởi các Technical Account Managers (TAMs), làm việc cùng các khách hàng. Một trong những nhiệm vụ của Google là đưa ra giải pháp cho khách hàng lựa chọn với chi phí thấp nhất và đạt được nhiều lợi ích nhất khi đầu tư nền tảng GCP.

 

Mặc dù việc lưu trữ một đối tượng lên Cloud là nhiệm vụ khá dễ dàng, nhưng bạn vẫn cần lựa chọn cho mình 1 phương án thích hợp nhất đòi hỏi bạn có thêm kiến thức. Một trong những lợi ích của một dịch vụ lưu trữ không giới hạn, có thể mở rộng, giống như căn phòng vô tận trong ngồi nhà của bạn, trong đó sẽ có những chiếc hộp và đồ dùng (như bucket và object) mà bạn thực sự có thể nắm giữ được. Những ‘đồ vật’ đó sẽ tiêu tốn chi phí theo thời gian, và cho dù bạn cần sử dụng với bất kỳ lý do nào hoặc chỉ để giữ chúng để sử dụng trong trường hợp cần thiết, thì bước đầu tiên bạn cần hiểu và xác định tính phù hợp của phương thức lưu trữ với mục đích sử dụng của mình.

 

Dọn dẹp dữ liệu rác trước khi đưa lên Cloud!

 

Có hàng trăm yếu tố cần xem xét để tối giản chi phí. Bí quyết ở đây là đảm bảo không có ảnh hưởng đến hiệu suất và không bỏ đi bất kỳ thứ gì cần giữ lại để sử dụng trong tương lai, cho dù đó là dữ liệu tuân thủ, pháp lý hoặc có giá trị kinh doanh. Với việc dữ liệu đang là mặt hàng kinh doanh như hiện nay, bạn sẽ muốn sử dụng các dịch vụ lưu trữ nhiều lớp để dễ dàng phân tích khi cần. Hiện Google có nhiều lớp lưu trữ đa dạng để bạn lựa chọn với nhiều mức giá, khả năng sẵn sàng, khôi phục khác nhau. 

 

Thật là hiếm để có một phương thức lưu trữ và đáp ứng mọi đối tượng yêu cầu khi nói đến kiến trúc đám mây. Tuy nhiên, có một số chủ đề nhất định mà Google đã nhận ra khi làm việc cùng với khách hàng của mình. Những bài học kinh nghiệm này có thể áp dụng cho mọi trường hợp, cho dù bạn lưu trữ hình ảnh hay xây dựng các mô hình máy học tiên tiến.

 

Có một điều bạn sẽ luôn cần biết đầu tiên đó là bạn phải trả tiền cho những phí nào khi sử dụng Cloud Storage. Trang bảng giá sẽ rất hữu ích, nhưng bạn sẽ biết chi tiết hơn trong bài viết này. Khi phân tích hướng sử dụng của khách hàng trên Cloud Storage, Google xem xét các yếu tố:

 

  1. Hiệu suất (Performance)
  2. Lưu giữ (Retention)
  3. Mẫu truy cập (Access patterns)

 

Lưu giữ và thủ thuật

 

Điều đầu tiên bạn cần xem xét khi đánh giá loại dữ liệu là thời gian lưu giữ của chúng. Bạn hãy tự hỏi những câu  quan trọng như “Vì sao đối tượng dữ liệu đó đáng giá?” và “Dữ liệu đó sẽ có giá trị trong bao lâu?” để xác định chính sách vòng đời dữ liệu phù hợp. Từ đó, bạn sẽ gắn thẻ (tag) cụ thể vào các đối tượng hoặc bucket cụ thể, và tạo một quy tắc tự động xóa hoặc chuyển lớp lưu trữ cho mỗi loại đối tượng hoặc bucket tương ứng. 

 

Google thấy rằng các khách hàng áp dụng thành công các chính sách lưu trữ theo nhiều cách khác nhau. Một ứng dụng hoàn hảo là ứng dụng tuân thủ khả năng khôi phục tốt. Dựa theo ngành và loại dữ liệu, có một số điều luật yêu cầu những loại dữ liệu nào cần được lưu giữ trong 1 khoảng thời gian nhất định. Với việc sử dụng chính sách vòng đời lưu trữ, bạn có thể ngay lập tức gắn thẻ một object để xóa mỗi khi chúng thỏa mãn những điều kiện lưu giữ tối thiểu theo yêu cầu tuân thủ pháp lý, đảm bảo bạn không bị tính tiền lưu giữ nhiều hơn những gì bạn cần, và bạn cũng không phải mất công ghi nhớ khi nào dữ liệu sẽ hết hạn. Để việc này trở nên đơn giản hơn, Cloud Storage có chức năng bucket lock để giảm thiểu rủi ro xóa nhầm dữ liệu. Nếu bạn quan tâm đến FINRA, SEC, vàCFTC, đây sẽ là 1 tính năng rất hữu ích. Bucket lock có thể giúp bạn giải quyết các quy định bắt buộc trong ngành y tế.

 

Đối với Cloud Storage, bạn cần thiết lập chính sách để chuyển từ loại lưu trữ này sang loại lưu trữ khác. Điều này rất hữu ích cho những dữ liệu truy cập thường xuyên trong thời gian ngắn, mà không cần thiết để truy cập nhiều trong dài hạn. Bạn có thể muốn lưu giữ những object cụ thể nào đó với thời gian lâu hơn do yêu cầu bảo mật hoặc pháp lý. Cách tốt nhất để luyện tập điều này là thực hiện các bài lab. Một khi bạn đã có những trải nghiệm, bạn sẽ muốn phân tích kết quả trong thời gian ngắn, nhưng trong dài hạn sẽ không truy cập thường xuyên. Ví dụ thiết lập chính sách chuyển lớp lưu trữ từ Nearline hoặc Coldline sau 1 tháng sẽ là cách hữu hiệu để tiết kiệm chi phí.

 

 

Tối ưu hóa chiến lược sử dụng Google Cloud Storage

 

 

Quy tắc truy cập và thủ thuật

 

Khả năng chuyển đổi object sang lớp lưu trữ chi phí thấp hơn là một công cụ rất mạnh, nhưng cần được sử dụng đúng cách. Với lớp lưu trữ dài hạn thì sẽ rẻ hơn để duy trì object ít khi được truy cập, vì khi đó sẽ có thêm chi phí nếu bạn cần thường xuyên truy cập dữ liệu hoặc metadata mà đã được chuyển sang trạng tháng “colder”. Đồng thời bạn còn mất phí khi muốn xóa dữ liệu khỏi một lớp lưu trữ nào đó. Ví dụ, bạn đang có 1 object với thời gian lưu trữ tối thiểu là 30 ngày trong Nearline storage. Nếu bạn cần truy cập dữ liệu với tần suất tăng lên, bạn có thể tạo bản sao chép sang lớp lưu trữ regional để giảm phí truy cập.

 

Khi xem xét việc tiết kiệm chi phí lưu trữ trong thời gian dài, bạn nên nghĩ xem khi nào dữ liệu của bạn sẽ cần được truy cập trong dài hạn, và tần suất truy cập. Ví dụ, nếu bạn là 1 CFO đang xem báo cáo chi phí cloud hàng quý  và chỉ cần nhận được báo cáo định kỳ, bạn có thể không cần lo lắng về tăng chi phí tải dữ liệu, vì nó sẽ rẻ hơn phí duy trì cho 1 bucket trong 1 năm.

 

Xem xét hiệu suất và thủ thuật

 

“Dữ liệu sẽ bị truy cập từ đâu?” là 1 câu hỏi rất quan trọng để xem xét khi bạn đánh giá hiệu suất và tìm lớp lưu trữ phù hợp nhất cho trường hợp của mình. Lưu trữ dữ liệu cục bộ tác động trực tiếp đến tốc độ load dữ liệu từ trung tâm dữ liệu. Ví dụ, một “hot object” với mức độ sử dụng toàn cầu (như 1 database truy cập thường xuyên, giống như ứng dụng theo dõi thời gian làm việc nhân viên) sẽ rất phù hợp để lưu trữ ở nhiều khu vực multi-regional, cho phép một object sẽ được lưu trữ ở nhiều nơi. Điều này giúp đưa nội dung dữ liệu đến gần hơn với người dùng của bạn cũng như tăng tính khả dụng. Một ví dụ khác là ứng dụng game với những người dùng khắp nơi trên thế giới.

 

Bạn cũng luôn phải nhớ rằng khi xem xét phương án đa khu vực sẽ mang lại hiệu suất cao hơn và độ sẵn sàng cao hơn, tăng phí truy cập network, tùy thuộc vào thiết kế của ứng dụng. Trong giai đoạn thiết kế ứng dụng, đây là một yếu tố vô cùng quan trọng. Một lựa chọn khác khi bạn tính đến hiệu năng bucket trên nhiều khu vực, khi đó hãy chọn region gần với người dùng của bạn nhất. Khi đó bạn có thể lựa chọn một region cụ thể để lưu trữ dữ liệu, và được đảm bảo dự phòng trong khu vực đó. Đây cũng là một trong những lớp lưu trữ được sử dụng nhiều trên GCP,  nó sẽ xử lý hầu hết nhu cầu workload. Nhanh chóng truy cập, dự phòng dữ liệu và mức giá hợp lý.

 

Tổng kết lại, đối với một thứ nghe có vẻ đơn giản như một cái xô (bucket), nhưng thực sự có rất nhiều cách dùng, tất cả đều có mức độ chi phí và hiệu suất khác nhau. Như bạn đã thấy, bạn có thể lựa chọn lớp lưu trữ phù hợp với nhu cầu của doanh nghiệp, để tiết kiệm chi phí, nguồn lực. Xem thêm thông tin tại Phiên thảo luận sự kiện Next ‘19 về việc làm cái nào cách tối ưu chi phí GCP của bạn.

 

Gimasys.