Trong thời đại “Big Data” thì các kho dữ liệu (Data Warehouse) truyền thống gặp…
Hệ sinh thái dữ liệu mở: Khởi đầu cho thời đại mới
Các công ty hiện nay đều thu thập một lượng lớn dữ liệu để hiểu rõ hơn về khách hàng của mình và đưa ra quyết định kinh doanh tốt hơn, thông minh hơn. Các dữ liệu này thường được phân tán trên hàng chục, đôi khi hàng nghìn nguồn dữ liệu khác nhau, trong nhiều định dạng khác nhau, cả dưới dạng cấu trúc và không cấu trúc. Kết nối tất cả dữ liệu này và hiểu được nó là một nhiệm vụ rất phức tạp, nhưng lại vô cùng quan trọng. Để thành công, các công ty phải có khả năng kết nối các điểm trên các nguồn dữ liệu với các loại dữ liệu khác nhau. Chỉ khi đó, họ mới có thể nhận thức được những thông tin chi tiết và thực hiện các hành động có ý nghĩa. Trong thập kỷ qua, một loạt các công nghệ đã xuất hiện với hứa hẹn giải quyết vấn đề này nhằm tạo ra một hệ sinh thái dữ liệu mở. Nhưng cuối cùng, những giải pháp này đã không đạt được kỳ vọng của mình vì chúng trở nên vướng víu, khó quản lý và không kinh tế khi mở rộng. Vậy công nghệ đám mây đã giúp tạo hệ sinh thái mở và mở ra một thời đại mới như thế nào, hãy cùng Gimasys tìm hiểu qua bài viết dưới đây
Tổng quan về hệ sinh thái dữ liệu mở
Vào giữa thập kỷ 2000, rất nhiều sản phẩm mới nổi lên với một mục tiêu duy nhất là tạo ra một hệ sinh thái dữ liệu mở. Phong trào này đi theo hướng các công nghệ composable (các công nghệ hoạt động độc lập – thường là mã nguồn mở) sẽ tích hợp với API và chạy trên phần cứng thương mại có sẵn, nhằm giải quyết vấn đề cồng kềnh của cơ sở hạ tầng doanh nghiệp. Bằng cách tích hợp và áp dụng một phương pháp phân phối mở trên phần cứng thương mại có sẵn, những công ty này đã đi ngược lại cách thiết lập truyền thống của việc lưu trữ và xử lý dữ liệu trong các kho dữ liệu tập trung. Tuy nhiên, những giải pháp này lại không thể mở rộng được vì nó đã trở nên cồng kềnh, khó quản lý và không đạt được hiệu quả về chi phí khi tối ưu, mở rộng.
Tuy nhiên, dạo gần đây chúng ta đã chứng kiến sự hồi sinh của hệ sinh thái dữ liệu mở. Do sự bùng nổ của đám mây, sự phổ biến của các định dạng dữ liệu mã nguồn mở và sự xuất hiện của các nhà cung cấp các vấn đề trước đó đã được giải quyết một cách triệt để. Chúng ta đã thấy một hình thức mới của các công ty hệ sinh thái dữ liệu mở nổi lên và trở nên phổ biến. Những giải pháp mới này có khả năng thu thập toàn bộ phạm vi dữ liệu trong một công ty, cho phép các nhóm sử dụng dữ liệu một cách tối ưu nhất.
Big Data và sự ra đời của Hệ sinh thái dữ liệu mở
Trong nhiều thập kỷ qua, các công ty đã phụ thuộc vào các databases hoặc data warehouses truyền thống, nơi dữ liệu có cấu trúc được tập trung, lưu trữ và xử lý. Hệ thống data warehouses truyền thống yêu cầu cơ sở hạ tầng (phần cứng tại chỗ) đắt tiền nhằm duy trì dữ liệu có cấu trúc theo định dạng phù hợp và phụ thuộc vào một phòng dữ liệu và công nghệ thông tin trung tâm để phân tích.
Hệ thống này – một data warehouses truyền thống – hoạt động trong khi doanh nghiệp chỉ có thể thu thập một lượng dữ liệu có cấu trúc cô cùng khiêm tốn. Nhưng vào giữa thập kỷ 2000, các công ty như Google đã gặp phải thách thức với mô hình này khi họ là doanh nghiệp tiên phong trong thời đại và phải xử lý dữ liệu thô (một lượng dữ liệu đáng kể không có cấu trúc theo định dạng) nhiều hơn bất kỳ ai trước đó. Google chỉ là ví dụ về một tập đoàn lớn cần một nơi để xử lý dữ liệu có cấu trúc (ví dụ: bảng biểu), dữ liệu bán cấu trúc (ví dụ: log) và dữ liệu không có cấu trúc (ví dụ: video và hình ảnh). Vào thời điểm đó, không có siêu máy tính nào đủ khả năng để thực hiện nhiệm vụ này. Vì vậy, Google đã kết nối một số lượng ngày càng lớn các các siêu máy tính lại với nhau tạo thành một hệ thống cơ sở hạ tầng. Cuối cùng, cơ sở hạ tầng máy tính này trở nên rất lớn đến mức các sự cố phần cứng trở nên không thể tránh khỏi, và mỗi lập trình viên phải tìm cách xử lý chúng một cách cá nhân vô cùng rắc rối và phức tạp. Để giải quyết những thách thức này, một công nghệ mới giúp xử lý song song và tạo ra tập dữ liệu lớn trên các cụm phần cứng tiêu chuẩn đã ra đời. Như The New Yorker đã nói, đây là “một công cụ mà bất kỳ lập trình viên nào tại Google cũng có thể sử dụng để điều khiển các máy tính trong trung tâm dữ liệu của mình như chúng là một máy tính siêu lớn, bao trùm tất cả” Một tính toán có thể xử lý terabytes dữ liệu trên hàng nghìn máy tính, và các lập trình viên trên toàn công ty có thể sử dụng phần mềm này để thu được thông tin từ bộ nhớ cache lớn của Google.
Đây chính là sự mở đầu cho những gì giờ đây chúng ta vẫn đang gọi là thế hệ đầu tiên của hệ sinh thái dữ liệu mở, đã đóng một vai trò quan trọng trong việc mang mã nguồn mở từ học thuật ra thị trường thực tế. Khung công cụ mã nguồn mở cho phép bất kỳ ai xử lý các bộ dữ liệu lớn được phân tán trên các cụm máy tính, khiến nó trở thành một lựa chọn vô cùng hấp dẫn đối với các doanh nghiệp, giúp họ thu thập dữ liệu nhiều hơn theo từng ngày.
Bây giờ, nhằm thu thập và phân tích một lượng lớn dữ liệu thô, các công ty đã chuyển sang hệ thống lưu trữ rẻ hơn trong data lakes, đó là một hồ chứa lớn của các dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc. Các công ty được hậu thuẫn bởi các nhà đầu tư lớn đã xuất hiện để làm cho phương pháp này trở nên dễ tiếp cận hơn đối với các doanh nghiệp, điều này đã dẫn đến nhiều công ty lớn nhất thế giới chấp nhận mở ra một hệ sinh thái dữ liệu mở, mang đến khởi đầu cho thời đại mới của Big Data.
Hỗ trợ phân tích với AI của Google
Hơn 10 triệu người dùng truy cập vào các giải pháp thông tin kinh doanh của Google Cloud mỗi tháng, bao gồm Looker và Google Data Studio. Và Google đang thống nhất hai công cụ phổ biến này dưới thương hiệu Looker để bắt đầu tạo ra một sự tích hợp sâu rộng giữa Looker, Data Studio và các công nghệ cốt lõi của Google như AI và ML. Như một phần của quá trình thống nhất đó, Data Studio hiện được gọi là Looker Studio và giải pháp này sẽ giúp bạn vượt qua các bảng điều khiển và đưa AI vào các luồng công việc và ứng dụng của doanh nghiệp để giúp đưa ra quyết định dựa trên dữ liệu.
Google cũng cam kết cho phép khách hàng của mình làm việc với các công cụ thông tin kinh doanh mà họ lựa chọn. Họ đã công bố việc tích hợp giữa Looker và Tableau và công bố các cải tiến cho Looker và BigQuery với Microsoft Power BI – một bước tiến quan trọng khác trong việc cung cấp cho khách hàng các sản phẩm đám mây dữ liệu mở. Điều này có nghĩa là khách hàng của Tableau và Microsoft có thể dễ dàng phân tích dữ liệu được tin cậy từ Looker và đơn giản kết nối với BigQuery.
Ngoài ra, AI và ML cũng trở thành những công cụ quan trọng cho việc mô hình hóa và quản lý dữ liệu – đặc biệt là khi tổ chức đang tìm cách đưa những tính năng này vào trải nghiệm người dùng. Hiện nay, Vertex AI giúp bạn có giá trị từ dữ liệu nhanh chóng hơn bằng cách đơn giản hóa quy trình truy cập và nhập dữ liệu, cho phép tổ chức quản lý và triển khai mô hình ML vào sản xuất.
Google hiện cũng đang phát hành Vertex AI Vision để mở rộng các khả năng của Vertex AI giúp giảm tải công việc của người dùng và người phát triển. Môi trường phát triển ứng dụng từ đầu đến cuối này sẽ giúp bạn nhập, phân tích và lưu trữ dữ liệu hình ảnh, video trực tiếp trong các khâu sản xuất, ví dụ, kiểm tra trực tiếp theo thời gian thực từ các kệ hàng tại cửa hàng để cải thiện phân tích tồn kho, hoặc theo dõi đèn giao thông để quản lý tình trạng tắc nghẽn giao thông. Vertex AI Vision cho phép bạn dễ dàng xây dựng và triển khai các ứng dụng thị giác máy tính để hiểu và sử dụng dữ liệu này.
Vertex AI Vision có thể giảm thời gian tạo các ứng dụng máy tính từ tuần thành giờ với một phần mười chi phí so với các ứng dụng hiện tại. Để giúp bạn đạt được những hiệu quả này, Vertex AI Vision cung cấp một giao diện kéo và thả dễ sử dụng và một thư viện các mô hình ML đã được huấn luyện trước cho các nhiệm vụ phổ biến như đếm lượng người sử dụng, nhận dạng sản phẩm và phát hiện đối tượng. Nó cũng cung cấp tùy chọn để nhập các mô hình AutoML hiện có hoặc mô hình ML tùy chỉnh từ Vertex AI vào các ứng dụng Vertex AI Vision của bạn.
Google hỗ trợ hệ sinh thái dữ liệu mở
Để giữ cho nền tảng dữ liệu luôn mở, Google cam kết hợp tác với các nền tảng dữ liệu mở lớn, như Collibra, Databricks, Elastic, Fivetran, MongoDB, Sisu Data, Reltio, Striim và nhiều công ty khác để đảm bảo rằng khách hàng chung của họ có thể sử dụng các sản phẩm này với nền tảng dữ liệu của Google. Google cũng đang làm việc với 17 thành viên của Liên minh Đám mây Dữ liệu để quảng bá các tiêu chuẩn mở tương tác trong ngành dữ liệu, và tiếp tục hỗ trợ các hệ thống cơ sở dữ liệu mã nguồn mở như MongoDB, MySQL, PostgreSQL và Redis, ngoài các cơ sở dữ liệu của Google Cloud như AlloyDB cho PostgreSQL, Cloud Bigtable, Firestore và Cloud Spanner.
Ngoài ra, Google cũng đã cập nhật và tích hợp với một số đối tác này, để giúp bạn dễ dàng di chuyển dữ liệu giữa các nền tảng mà bạn lựa chọn như:
- Collibra sẽ tích hợp với Dataplex để giúp khách hàng dễ dàng hơn trong việc khám phá dữ liệu trong ngữ cảnh kinh doanh, hiểu rõ dòng dữ liệu và áp dụng cách điều khiển nhất quán cho dữ liệu được lưu trữ trên các đám mây và môi trường on-premises.
- Elastic đang đưa các khả năng Elasticsearch của mình vào đám mây dữ liệu của Google, mang lại cho khách hàng khả năng liên kết các truy vấn tìm kiếm đến các data lakes của họ trên Google Cloud. Điều này mở rộng sự tích hợp có sẵn để trực tiếp nhập dữ liệu từ BigQuery vào Elastic cho các trường hợp sử dụng tìm kiếm. Google cũng mở rộng hỗ trợ Looker cho nền tảng Elastic, giúp nhúng thông tin tìm kiếm vào các ứng dụng dữ liệu.
- MongoDB đang ra mắt các mẫu mới để giúp tăng tốc khả năng di chuyển dữ liệu giữa Atlas và BigQuery của khách hàng. Điều này cũng mở ra các trường hợp sử dụng mới cho khách hàng bằng cách áp dụng AI và ML của Google Cloud cho MongoDB với Vertex AI.
- Palantir đang mặc định BigQuery là một động cơ cho việc kết nối các mô hình dữ liệu cơ bản với các đối tượng kinh doanh, mô hình dự đoán và hành động có thể giúp khách hàng biến dữ liệu thành các hoạt động thông minh.
- ServiceNow dự định làm việc với khách hàng chung và xây dựng các tích hợp cụ thể cho các trường hợp sử dụng với BigQuery để giúp khách hàng tổng hợp dữ liệu đa dạng từ bên ngoài với dữ liệu đang tồn tại trong ServiceNow của họ. Sự tích hợp này sẽ giúp khách hàng tạo ra các thông tin chi tiết và giá trị lớn từ dữ liệu đang tồn tại trong ServiceNow, như dữ liệu quản lý dịch vụ IT, hồ sơ dịch vụ khách hàng hoặc dữ liệu quản lý đơn đặt hàng và di chuyển dữ liệu vào BigQuery nơi khách hàng có thể sử dụng các khả năng phân tích của Google để xử lý và phân tích dữ liệu từ các nguồn khác nhau này.
- Sisu Data sẽ hợp tác với các giải pháp thông tin kinh doanh của Google Cloud để giúp tự động tìm ra nguyên nhân nhanh hơn 80% so với các phương pháp truyền thống để cung cấp phân tích tăng cường cho nhiều khách hàng hơn.
- Sự tích hợp của Reltio với BigQuery có thể cải thiện trải nghiệm của khách hàng bằng cách tổng hợp, làm sạch và làm phong phú dữ liệu theo thời gian thực với các khả năng quản lý dữ liệu chính và sau đó cho phép hành động thông minh với Vertex AI.
- Dịch vụ quản lý Striim cho BigQuery có thể giảm thời gian để đạt được thông tin, cho phép khách hàng sao chép dữ liệu từ nhiều nguồn vận hành với việc tạo lược đồ tự động, tải đầu tiên được điều phối và xử lý song song tích hợp cho độ trễ trong vòng dưới một giây nhằm đạt được thông tin nhanh hơn, giúp đưa ra quyết định nhanh hơn trên toàn tổ chức.
Kết luận
Tóm lại, hệ sinh thái dữ liệu mở không chỉ giúp các tổ chức phá vỡ những giới hạn truyền thống mà còn mang lại những lợi ích đáng kể, từ việc tăng cường khả năng hợp tác và phân tích dữ liệu đến việc tạo ra các trải nghiệm khách hàng cá nhân hóa và đưa ra quyết định dựa trên dữ liệu. Với sự hỗ trợ của các công nghệ tiên tiến và các đối tác chiến lược, hệ sinh thái dữ liệu mở đang đóng vai trò quan trọng trong việc thúc đẩy sự phát triển và đổi mới trong nền kinh tế dữ liệu. Gimasys tin rằng, thông qua sự hợp tác và cam kết liên tục, hệ sinh thái dữ liệu mở sẽ là cầu nối quan trọng, giúp các doanh nghiệp chinh phục những thách thức mới và mở ra những cơ hội không gì có thể ngờ tới.