Trong thời đại “Big Data” thì các kho dữ liệu (Data Warehouse) truyền thống gặp…
Cách Google giải quyết email spam
Trung bình một nhân viên sẽ phải dành tới 11 giờ mỗi tuần (trong tổng cộng 40 giờ làm việc) để đọc và xử lý công việc trên các email. Tình trạng này không thể khả quan hơn khi có tới khoảng 14.5 triệu email spam được gửi nhận mỗi ngày. May mắn rằng 1.5 tỷ người dùng Gmail mỗi tháng (bao gồm cả nhân viên của 5 triệu doanh nghiệp đang sử dụng G Suite [Workspace] )đều có thể hài lòng nhờ công nghệ của Google. Thông qua việc ứng dụng công nghệ và tích hợp sẵn tính năng bảo mật trong sản phẩm, Gmail luôn là đơn vị dẫn đầu trong việc quyết email spam. Trung bình, chỉ có dưới 0.1% email trong hòm thư đến của người dùng là spam. Vậy Google đã giải quyết email spam như thế nào?
1/ Phát hiện sớm email phishing nhờ Machine Learning (Máy học)
Ngay từ cách đây 4 năm (2015), Google đã khẳng định Gmail có thể chặn 99.9% email spam, email phishing (email lừa đảo đánh cắp thông tin), và các phần mềm độc hại khỏi hòm thư của người dùng. Bên cạnh việc ngăn chặn spam, Gmail của Google cũng phải đảm bảo rằng các email chính thống, các email “sạch” phải đến được với hòm thư và số lượng email bị đưa nhầm vào mục spam chỉ được ở dưới mức 0.05%. Để làm được điều này, Google phải xây dựng một “mạng lưới nơ-ron nhân tạo” Artificial Neural Network. Đây là hệ thống các máy tính và thiết bị hệ thống điện toán nói chung, được kết nối theo một cách nào đó nhằm mô phỏng một phần các hoạt động của hệ thống nơ-ron thần kinh trong não người.
Có thể nói, Machine Learning giúp Google ngăn chặn spam bằng cách cho phép hệ thống phát hiện mô hình hoạt động chung của một khối lượng dữ liệu lớn (mà con người không thể làm được). Công nghệ máy học cũng dễ dàng thay đổi và thích ứng nhanh chóng với những thủ thuật mới mà spammer thường sử dụng, trong khi đó vẫn đảm bảo được tính cá nhân hóa với từng người dùng, nhờ việc sử dụng cả dữ liệu về hành vi của người dùng. Khả năng cá nhân hóa là rất cần thiết khi hệ thống phân loại spam. Bởi định nghĩa spam của mỗi người không giống nhau, một tin nhắn có thể là spam với người này nhưng lại quan trọng, hữu ích với người khác.
2/ Cảnh báo các đường link tiềm ẩn nguy cơ gây hại nhờ Google Safe Browsing
Để phát hiện được các đường link gây hại, hệ thống Machine Learning sẽ phải làm việc với Google Safe Browsing để lựa chọn và trì hoãn một số email nhằm phân tích bổ sung nguy cơ lừa đảo thông tin từ các tin nhắn được gửi đến. Nếu bạn lo lắng về số lượng email bị trì hoãn quá nhiều thì Google có cam kết rằng con số này chỉ dưới 0.05% tổng số email, và việc trì hoãn sẽ không kéo dài quá bốn phút.
Google Safe Browsing là một dịch vụ cung cấp cho các trình duyệt Chrome, Firefox, Safari và các đơn vị cung cấp Internet (Internet Service Provider) danh sách đường link URL chứa nội dung, phần mềm độc hại hay có chủ đích lừa đảo chiếm đoạt thông tin. Bằng cách ứng dụng kỹ thuật như phân tích danh tiếng và sự giống nhau của các URL, Gmail có thể cho ra những cảnh báo mới đối với những đường link tiềm ẩn nguy cơ. Mô hình này có thể thích ứng nhanh hơn bất kì phương thức truyền thống nào và sẽ ngày càng hoàn thiện theo thời gian.
3/ Sử dụng TensorFlow để phát hiện nguy cơ tiềm ẩn trong tệp tin đính kèm
Nói một cách đơn giản: TensorFlow là một thư viện phần mềm mã nguồn mở, được Google xây dựng và phát triển. TensorFlow hỗ trợ mạnh mẽ các phép toán học để tính toán trong machine learning và deep learning.
Phải khẳng định là: Google đã ứng dụng Machine Learning từ rất lâu trong quá khứ và đã đưa TensorFlow vào sử dụng từ tháng 5/2017. Tuy nhiên, chỉ khi hãng đưa công nghệ này áp dụng trên diện rộng, với danh mục phân loại spam rộng hơn, bao quát hơn mà Gmail mới có thể phát hiện hàng triệu phần spam còn sót lại*. Chính nhờ “khả năng bảo vệ mới”, được xây dựng nhờ TensorFlow – thư viện Machine learning với mã nguồn mở, mà Google có thể ngăn chặn thêm 100 triệu tin nhắn spam mỗi ngày.
Và phần spam còn sót lại ở đây là gì? Chủ yếu là những tin nhắn spam dựa trên hình ảnh (image-based spam). Với spam hình ảnh, các tin nhắn chữ được nhúng vào các tệp tin hình ảnh đính kèm trong email – đây chính là loại hình ảnh mà các máy chủ email sẽ hiển thị trực tiếp với người dùng. Bằng cách chèn chữ vào hình, tin nhắn spam có thể tránh được các công cụ lọc spam nhờ phân tích chữ hay quét hình ảnh (Optical Character Recognition – OCR). Những kẻ gửi email spam có thể sử dụng kỹ thuật chuyển thể chữ cái thành những kí tự vô nghĩa (Obfuscation) để không bị OCR quét, hoặc để đánh lừa các thuật toán phát hiện chữ ký, qua đó thâm nhập trực tiếp vào hòm thư của người dùng. Nhưng giờ đây bạn có thể yên tâm rằng, TensorFlow hoàn toàn có thể phát hiện và xử lý được những email spam tinh vi như thế này.
4/ Dựa trên chính hành vi của người dùng để phân loại email spam
Từ lâu, Gmail đã dựa vào hành vi của người dùng để biết được một email là an toàn hay spam. Sau đó, Gmail sẽ đưa dữ liệu này vào đào tạo lại hệ thống trí tuệ nhân tạo của mình.
Chắc hẳn bạn đã nhiều lần phải tự mình đánh dấu “report spam” hoặc “not spam” đối với một số email mà mình nhận được. Các thao tác mà bạn làm hoàn toàn không vô nghĩa. Chúng sẽ thông báo với các thuật toán lọc email nhờ Machine learning, từ đó dần hoàn thiện khả năng phát hiện những email không mong muốn, dựa trên chính thói quen của bạn. Điều này cũng giải thích tại sao mà cùng là một email khuyến mãi hay bản tin, nhưng có người sẽ thấy nó trong inbox, có người không). Những thao tác mà bạn thực hiện cũng sẽ giúp hoàn thiện mô hình phát hiện email phishing của Google, bởi các thuật toán này sẽ học và cập nhật hành vi của bạn trong thời gian thực luôn.
Với trò chơi “mèo vờn chuột” trong không gian mạng như ngày nay, spam chính là một vấn nạn mà đòi hỏi các nhân vật “chính diện” luôn phải dẫn trước một (hoặc nhiều) bước trước các tay hacker. Và hiện tại chúng ta có thể tạm thời cảm thấy lạc quan về điều này bởi Machine Learning, AI đã đưa khả năng lọc spam lên một tầm cao mới, ít nhất là nếu bạn đang sử dụng Gmail của Google.
Nguồn: Gimasys