Gemini in Looker là một bước đột phá trong lĩnh vực phân tích dữ liệu.…
Broad Institue tăng tốc độ nghiên cứu khoa học với Google Cloud SQL
Lưu ý của Biên tập viên: Viện Broad của MIT và Harvard, một tổ chức nghiên cứu y sinh phi lợi nhuận phát triển phần mềm gen, cần bắt kịp với những khám phá khoa học mới nhất. Đây là cách họ sử dụng các dịch vụ cơ sở dữ liệu được quản lý từ Google Cloud để thay đổi nhanh chóng và luôn dẫn đầu.
> Tham khảo:
- MySQL 8 đã sẵn sàng cho doanh nghiệp với Cloud SQL
- Google Cloud SQL nay đã hỗ trợ PostgreSQL 13
- Chuyển dịch Cơ sở dữ liệu lên Google Cloud tăng bùng nổ trong năm 2020
Viện Broad của MIT và Harvard là một tổ chức nghiên cứu y sinh phi lợi nhuận tập trung vào việc nâng cao hiểu biết và điều trị bệnh tật ở người. Một trong những sáng kiến chính của chúng tôi là phát triển các công cụ gen và cung cấp chúng trong hệ sinh thái khoa học. Tốc độ khám phá nhanh chóng có nghĩa là nhóm khoa học dữ liệu của chúng tôi phải bắt kịp xu hướng để các sản phẩm phần mềm của Google có thể tạo ra nghiên cứu tốt nhất. Khả năng bắt kịp xu hướng là rất quan trọng. Và khi chúng tôi quyết định chuyển hướng mục tiêu của mình trong thời kỳ đại dịch là phát triển và xử lý hàng chục triệu bài test COVID-19, tốc độ là một yếu tố chính. Các dịch vụ cơ sở dữ liệu được quản lý 1 cách hoàn hảo và các giải pháp phân tích từ Google Cloud đã giúp chúng tôi đẩy nhanh tốc độ phát triển của mình.
Tăng tốc thông tin chi tiết về gen với Cloud SQL
Một trong những sản phẩm chính của chúng tôi sử dụng các dịch vụ Google Cloud là Terra —một nền tảng mã nguồn mở, có thể mở rộng, an toàn dành cho nghiên cứu y sinh. Chúng tôi đã đồng phát triển nó với Microsoft và Verily để giúp các nhà nghiên cứu truy cập các tệp dữ liệu công khai, quản lý dữ liệu riêng tư, sắp xếp tổ chức nghiên cứu và cộng tác với những người khác. Sau một thời gian dài làm việc với Google Cloud, đương nhiên chúng tôi sẽ sử dụng các dịch vụ của Google Cloud Platform cho bảng điều khiển của Terra.
Đối với phần backend, chúng tôi sử dụng một số dịch vụ đám mây bao gồm Cloud SQL cho PostgreSQL và MySQL, cũng như Firestore, để cho phép người dùng theo dõi các tài sản dữ liệu, phương pháp và kết quả nghiên cứu khác nhau của họ và cung cấp quyền cho bảng điều khiển Terra. Cloud SQL giúp chúng tôi tăng tốc phát triển trong hai lĩnh vực chính. Đầu tiên, các nhà phát triển của chúng tôi có thể thiết lập và chạy các dịch vụ cơ sở dữ liệu này một cách nhanh chóng mà không cần thông qua một số hệ thống tập trung có thể trở thành vướng bận. Và thứ hai, việc sử dụng Cloud SQL giúp giảm bớt gánh nặng hoạt động của chúng tôi. Chúng tôi có thể quản lý cách hệ thống vận hành và vận hành tốt mà không cần sử dụng quá nhiều các nguồn nhân lực phát triển. Thay vào đó, các nguồn nhân lực này này có thể tập trung phát triển các tính năng mới cho người dùng.
Tối ưu hóa chi tiêu trên đám mây với phân tích BigQuery
Đối với phần lớn việc phân tích gen của Google, Google sử dụng BigQuery, Compute Engine và Dataproc (https://cloud.google.com/dataproc), nhưng để nắm rõ chi phí chi tiết của nghiên cứu đó là một thách thức. Dữ liệu thanh toán có thể được xuất sang BigQuery, nhưng chi phí sẽ không có bất kỳ đóng góp nào cho các phân tích cụ thể đang được thực hiện. Tuy nhiên, bằng cách thêm nhãn thanh toán vào từng tài nguyên đám mây được sử dụng và kết hợp thông tin đó với siêu dữ liệu chi tiết trong cơ sở dữ liệu Cloud SQL, chúng tôi có thể cung cấp thông tin chi phí cực kỳ chi tiết. Kết quả là, ví dụ, chúng tôi có thể nói với một nhà nghiên cứu rằng máy thực tế ảo của họ đã tốn 17 xu trong một phân tích, dự án nghiên cứu hoặc mẫu thử. Với những thông tin chi tiết này, các nhà nghiên cứu của chúng tôi có thể thấy rõ những chi phí của họ và có thể đưa ra quyết định những điểm mình cần tối ưu.
Xoay vòng để xử lý các xét nghiệm COVID-19
Khi đại dịch toàn cầu xảy ra, Viện Broad đã tình nguyện cung cấp các cơ sở xét nghiệm và chẩn đoán lâm sàng của chúng tôi để phục vụ nhu cầu sức khỏe cộng đồng. Chúng tôi đã tạo ra một hệ thống tự động hóa mới để xử lý xét nghiệm COVID-19 có thể mở rộng với , tiêu chuẩn cao và dữ liệu lớn để, phục vụ nhu cầu sức khỏe cộng đồng của Bang Massachusetts và các khu vực lân cận. Trong vài tháng đầu tiên của đại dịch, Broad đã xử lý hơn 10% tổng số xét nghiệm PCR ở Hoa Kỳ và ngày nay đã xử lý hơn 30 triệu xét nghiệm, với thời gian trả kết quả chưa đến 24 giờ. Sử dụng các thành phần không máy chủ với cốt lõi là cơ sở dữ liệu Cloud SQL cho PostgreSQL, Google đã xây dựng một giải pháp thử nghiệm — đi từ ý tưởng đến khởi chạy chiến dịch COVID-19 quy mô lớn chỉ trong hai tuần. Vào ngày đầu tiên của Google, họ chỉ có thể thực hiện 140 mẫu thử. Nhưng một năm sau, họ đã cung cấp tới 150.000 mẫu thử mỗi ngày. Đó một phần là vì giải pháp cơ sở dữ liệu của chúng tôi có thể mở rộng quy mô thực sự nhanh chóng.
Với một vài lệnh CLI, Google đã kích hoạt tính khả dụng cao và đọc các bản sao cho cơ sở dữ liệu của mình, trong khi các bản sao lưu và nâng cấp bảo trì được xử lý tự động. Khả năng mở rộng này đã tạo ra một sự khác biệt lớn đối với chúng tôi khi chúng tôi là một nhóm nhỏ làm việc trong 1 khoảng thời gian rất eo hẹp.
Nguồn: Gimasys