Các tính năng quan trọng của Google Cloud Vision API

17/11/2023

Là một giải pháp phân tích xử lý hình ảnh vô cùng mạnh mẽ đến từ Google, Google Cloud Vision API sở hữu hàng loạt tính năng ấn tượng có khả năng tương thích tích hợp vào hàng loạt ứng dụng doanh nghiệp. Cùng tìm hiểu chi tiết trong bài viết này nhé.

Mục Lục

Google Cloud Vision API là gì?

Google Cloud Vision API là giải pháp của Google cho phép lập trình viên dễ dàng tích hợp các tính năng xử lý phân tích hình ảnh vào trong các ứng dụng thực tế bao gồm gán nhãn hình ảnh, nhận diện khuôn mặt & hình ảnh, nhận dạng ký tự quang học (OCR) hay gắn các thẻ nội dung.

Google Cloud Vision API còn cho phép tích hợp linh hoạt với các ứng dụng Google Cloud khác chẳng hạn như lưu trữ dữ liệu hình ảnh, phân tích thông tin…

Các tính năng của Google Cloud Vision API

Một số tính năng nổi bật của Google Cloud Vision API có thể kể đến là:

Nhận dạng ký tự quang học (Optical Character Recognition – OCR)

API Vision có thể phát hiện và trích xuất văn bản từ hình ảnh. Có hai tính năng chú thích hỗ trợ nhận dạng ký tự quang học (OCR) là:

TEXT_DETECTION : phát hiện và trích xuất văn bản từ bất kỳ hình ảnh nào

Và DOCUMENT_TEXT_DETECTION : cũng trích xuất văn bản từ hình ảnh nhưng kế quả trả về sẽ được tối ưu hóa cho văn bản và tài liệu.

Ngoài phát hiện và trích xuất văn bản từ hình ảnh,API Vision còn có thể phát hiện và sao chép văn bản từ các tệp PDF và TIFF được lưu trữ trong Google Storage với tính năng Detect text in files (PDF/TIFF)

Nhận diện khuôn mặt (Detect Faces)

Tính năng hỗ trợ phát hiện nhiều khuôn mặt trong một hình ảnh cùng với các thuộc tính liên quan như trạng thái cảm xúc khuôn mặt hoặc đầu có đội mũ không.

Phát hiện thuộc tính hình ảnh (Detect Images Properties)

Tính năng cho phép phát hiện các thuộc tính chung của hình ảnh, chẳng hạn như màu chủ đạo.

Kết quả phân tích trả về:

Phát hiện cấu trúc (Detect Landmark)

Tính năng này của Vision API hỗ trợ phát hiện các cấu trúc phổ biến tự nhiên và nhân tạo trong một hình ảnh

Phát hiện nhãn (Detect labels)

API Vision có thể phát hiện và trích xuất thông tin về các thực thể trong một hình ảnh. Nhãn có thể xác định các đối tượng, địa điểm, hoạt động, loài động vật, sản phẩm, v.v. Nếu bạn cần nhãn tùy chỉnh mục tiêu hướng đến thì Cloud AutoML Vision cho phép bạn huấn luyện mô hình học máy để phân loại hình ảnh.

Phát hiện Logo (Detect logo)

Tính năng phát hiện các Logo phổ biến trong hình ảnh

Phát hiện nhiều đối tượng (Detect Multiple Objects)

API Vision có thể phát hiện và trích xuất nhiều đối tượng trong một hình ảnh bằng Object Localization

Phát hiện nội dung khiêu dâm (Tìm kiếm an toàn) – (Detect Explicit Content – Safe Search)

Tính năng Safe Search cho phép phát hiện nội dung khiêu dâm như nội dung người lớn hoặc nội dung bạo lực trong một hình ảnh. Tính năng này sử dụng năm danh mục (adult, spoof, medical, violence và racy) để trả kết quả kiểm định hình ảnh.

Phát hiện Web & các trang (detect web entities and pages)

Tính năng cho phép phát hiện các tham chiếu Web đến một hình ảnh.

Sử dụng Google Cloud Vision API như thế nào

Sở hữu hàng loạt tính năng ấn tượng, Google Cloud Vision API được sử dụng vào một số trường hợp cụ thể sau:

Tự động hóa tác vụ trong doanh nghiệp: Vision API có khả năng phân loại xử lý dữ liệu hình ảnh một cách tự động, nhờ đó đảm bảo các nghiệp vụ trong doanh nghiệp được xử lý nhanh chóng dễ dàng, giúp tiết kiệm thời gian chi phí
Quản lý và bảo mật thông tin dữ liệu: Vision API sẽ mã hóa tất cả thông tin truyền đi để bảo đảm bảo mật thông tin dữ liệu quan trọng không bị lộ ra ngoài. Quản trị viên có quyền kiểm soát phân quyền truy cập cho người dùng để đảm bảo bảo mật trong doanh nghiệp
Hỗ trợ các dự án trí tuệ nhân tạo: Với khả năng xử lý phân tích hình ảnh cực kỳ mạnh mẽ, vision api có thể giúp các AI tạo ra các trải nghiệm cá nhân hóa và tương tác tốt hơn với người dùng chẳng hạn như nhận diện phân loại khuôn mặt người dùng ứng dụng. Đặc biệt công cụ này ngoài khả năng phân tích còn có khả năng đưa ra các dự đoán để tạo ra các tương tác tự nhiên nhất cho người dùng.
Quản lý an toàn giám sát: Vision API giúp các doanh nghiệp đảm bảo an ninh giám sát thông qua khả năng phân loại nhận diện các đối tượng hoặc hoạt động đáng ngờ.

Bảng giá tham khảo Google Cloud Vision API

Chi phí phát sinh trên mỗi hình ảnh. Đối với các file có nhiều trang, mỗi trang được coi là một hình ảnh riêng lẻ. Mỗi tính năng được áp dụng cho hình ảnh là một đơn vị có thể tính phí. Ví dụ: nếu bạn áp dụng Nhận diện khuôn mặt và Nhận diện nhãn cho cùng một hình ảnh, bạn sẽ bị tính phí cho một đơn vị Phát hiện nhãn và một đơn vị Nhận diện khuôn mặt.

Bảng giá tham khảo cho mỗi tính năng trên 1000 Units:

Trên đây là tổng hợp toàn bộ các thông tin liên quan tới Google Cloud Vision API, công cụ phân tích xử lý hình ảnh dữ liệu mạnh mẽ từ ông lớn Google. Vision API đã tạo nên sự khác biệt trong việc xây dựng các ứng dụng giải pháp mới cũng như nâng cao trải nghiệm người dùng dịch vụ doanh nghiệp.

Là đối tác cấp cao của Google tại Việt Nam, Gimasys có hơn 10+ năm kinh nghiệm, tư vấn triển khai chuyển đối số cho 2000+ doanh nghiệp tập đoàn trong nước. Một số khách hàng tiêu biểu Jetstar, Điền Quân Media, Heineken, Jollibee, Vietnam Airline, HSC, SSI...

Gimasys hiện đang là đối tác chiến lược của hàng loạt hãng công nghệ lớn trên thế giới như Salesforce, Oracle Netsuite, Tableau, Mulesoft

Liên hệ Gimasys - Google Cloud Premier Partner để được tư vấn các giải pháp chiến lược phù hợp nhu cầu riêng của doanh nghiệp: