Sensitive Information Type (SIT) phần 2 – Tạo SIT tùy chỉnh trên giao diện Microsoft Purview

  1. Home
  2. »
  3. Microsoft Security
  4. »
  5. Sensitive Information Type (SIT) phần 2 – Tạo SIT tùy chỉnh trên giao diện Microsoft Purview

Danh mục bài viết:

Trong tình huống các SIT có sẵn không đáp ứng được nhu cầu của tổ chức, bạn có thể tạo và định nghĩa các SIT tùy chỉnh. Có 2 phương án để tạo một SIT tùy chỉnh mới:

  • Tạo một SIT mới từ đầu
  • Sao chép và chỉnh sửa một SIT có sẵn

Trong bài viết này chúng ta sẽ cùng nhau tạo một SIT mới từ đầu.

Ngôn ngữ ký tự 2-byte và 1-byte

Trước khi bắt đầu, chúng ta cần tìm hiểu khái niệm ngôn ngữ ký tự 2-byte (double-byte character language) và 1-byte. Ngôn ngữ ký tự 2-byte tức là mỗi ký tự cần 2 byte dữ liệu để lưu trữ và xử lý như tiếng Trung, tiếng Nhật và tiếng Hàn. Các ngôn ngữ này không dùng dấu cách hay dấu tách từ (delimiters) giống như các ngôn ngữ một byte (như tiếng Anh).

Microsoft Purview sẽ tự động chèn dấu cách giữa các từ trong văn bản dùng ký tự hai byte. Đồng thời, Purview cũng loại bỏ các ký tự đặc biệt, chẳng hạn như dấu chấm câu hoặc ký hiệu, trước khi thực hiện việc nhận dạng thông tin nhạy cảm.

Hiểu đơn giản, Microsoft Purview tự xử lý đặc thù của tiếng Trung, Nhật, Hàn bằng cách thêm dấu cách giữa các từ và bỏ dấu câu, giúp hệ thống quét dữ liệu chính xác hơn khi tìm thông tin nhạy cảm.

Làm quen với biểu thức chính quy (Regex)

Regex là gì?

Regex (Regular Expression – biểu thức chính quy) là một ngôn ngữ nhỏ dùng để mô tả mẫu (pattern) nhằm tìm kiếm, kiểm tra, hoặc thay thế chuỗi ký tự trong văn bản. Regex rất mạnh mẽ và thường được ứng dụng trong kiểm tra dữ liệu đầu vào, tìm kiếm nâng cao, và xử lý văn bản.

Có thể sử dụng trang web https://regex101.com/ để học viết và thử nghiệm các biểu thức chính quy.

Chúng ta lấy ví dụ chuỗi: t512435w, s235647W, y634523p, ….

Đây là một chuỗi có dạng:

  • 1 ký tự chữ cái ở đầu (t), (s), (y),…
  • 1 dãy số (512435), (235647), (634523),…
  • 1 ký tự chữ cái ở cuối (w), (W), (p),…

Regex cơ bản để nhận diện mẫu này có thể là:

[a-zA-Z]{1}[0-9]{6}[a-zA-Z]{1} – cho tình huống mã số nhân viên có tổng cộng 8 ký tự

[a-zA-Z]\d+[a-zA-Z] – cho tình huống mã số nhân viên có số ký tự linh hoạt nhưng vẫn đảm bảo ký tự đầu và cuối là dạng chữ.

  • [a-zA-Z] khớp với một ký tự chữ (không phân biệt hoa thường).
  • \d+ khớp với một hoặc nhiều chữ số.

Regex này sẽ bắt được các chuỗi như:

t512435w

s235647W

y634523p

nhưng không bắt được các chuỗi như

T5627@83w

C845%23%1W

Xử lý khi người dùng chèn ký tự đặc biệt để cố gắng vượt qua các công cụ nhận diện

Nếu người dùng có thể nhập thêm ký tự như ?, *, !… vào bất kỳ chỗ nào, ta có thể cho phép regex nhận diện bằng cách bổ sung nhóm ký tự đặc biệt. Ví dụ:

[a-zA-Z][\d\W]+[a-zA-Z]

Trong đó:

  • \W khớp với ký tự không phải chữ hoặc số (bao gồm ?, *, !, -, …).
  • [\d\W]+ cho phép chuỗi giữa là số hoặc ký tự đặc biệt.

Regex này sẽ bắt được các chuỗi như:

t512435w

s23?5647W

y634*523p

T5627@83w

C845%23%1W

Đây là một ví dụ đơn giản minh họa cách thức Regex hoạt động. Tùy mức độ nhận diện mà chúng ta có thể điều chỉnh lại Regex cho phù hợp.

Lưu ý khi sử dụng Regex trên Microsoft Purview

Khi sử dụng Regex trong SIT tùy chỉnh, đừng dùng các ký tự neo vị trí như ^ và $. Lý do là khi hệ thống quét nội dung, không thể đảm bảo vị trí bắt đầu (^) hay kết thúc ($) sẽ trùng khớp với vị trí thực tế trong tài liệu, nên SIT có thể không hoạt động đúng như mong đợi.

Mô tả use case

Trong bài lab này, chúng ta sẽ tạo một SIT tùy chỉnh cho mã số nhân viên dựa trên biểu thức chính quy (Regex) và thêm các yếu tố bổ trợ dưới dạng từ khóa (keyword) để giúp độ nhận diện đạt tốt hơn. Ví dụ mã số nhân viên sẽ có dạng như T675345A. Các ký tự trong mã số nhân viên không phân biệt chữ hoa chữ thường.

Mức độ nhận diện được mô tả cụ thể như bên dưới

  • Low confidence Level: chỉ sử dụng yếu tố chính mã số nhân viên dựa trên Regex
  • Medium Confidence Level: sử dụng yếu tố chính là mã số nhân viên dựa trên Regex kèm thêm yếu tố bổ trợ là từ khóa chứa các từ khóa như MSNV (mã số nhân viên), ID, Employee, Employee ID không phân biệt chữ hoa và chữ thường.
  • High Confidence Level: sử dụng yếu tố chính là mã số nhân viên dựa trên Regex kèm thêm đồng thời 2 yếu tố bổ trợ:
    • Từ khóa như MSNV (mã số nhân viên), ID, Employee, Employee ID không phân biệt chữ hoa và chữ thường.
    • Từ khóa có tên công ty CloudSec không phân biệt chữ hoa chữ thường

Tạo một SIT tùy chỉnh mới từ đầu

Truy cập Microsoft Purview thông qua trang quản trị https://purview.microsoft.com. Trong giao diện Microsoft Purview chọn Information Protection > Classifiers > Sensitive info types >+ Create sensitive info type.

Điền tên (Name) và mô tả (Description) cho SIT, chọn Next.

Chọn +Create pattern để tạo một mẫu nhận dạng mới. Bạn có thể tạo nhiều mẫu nhận dạng với các yếu tố (element) và mức độ tin cậy (confidence level) khác nhau. Trong ví dụ này chúng ta sẽ tạo ra 3 mẫu nhận dạng với 3 mức độ tin cậy khác nhau.

Hình ảnh minh họa tạo biểu thức chính quy cho yếu tố chính (primary element)

Sau khi tạo xong Pattern #1 ở mức Low confidence nhấn nút Copy để sao chép thêm Pattern #2 cho mức độ tin cậy là Medium.

Chọn nút Edit ở Pattern #2 để điều chỉnh các thông tin, chuyển Confidence Level sang Medium confidence.

Tiếp theo thêm yếu tố bổ trợ bằng cách chọn +Add supporting elements or group of elements > Keyword list.

Điền các từ khóa vào ô Case insensitive để không phân biệt chữ hoa, chữ thường. Chọn Done. Ở phần Character proximity có thể để mặc định thông số 300. Thông số này có ý nghĩa rằng trong 300 ký tự (150 ký tự bên trái, 150 ký tự bên phải) yếu tố chính nếu thấy các từ khóa trong yếu tố bổ trợ, Microsoft Purview sẽ nhận diện đây là loại dữ liệu nhạy cảm ở mức Medium confidence.

Nhấn nút Sao chép trong Pattern #2 để tạo mới Pattern #3 và điều chỉnh các thông tin:

Confidence level: High confidence

Keyword list: thêm một danh sách từ khóa mới theo nhu cầu, trong trường hợp này từ khóa là tên công ty CloudSec, không phân biệt chữ hoa chữ thường.

Sau khi hoàn tất 3 mẫu nhận diện chọn Next > Next > Save.

0 0 đánh giá
Đánh giá bài viết
Theo dõi
Thông báo của
0 Góp ý
Phản hồi nội tuyến
Xem tất cả bình luận
Bài viết công nghệ:
0
Rất thích suy nghĩ của bạn, hãy bình luận.x