Tổng quan về luận án

Luận án này trình bày một nghiên cứu đột phá trong lĩnh vực phát hiện tấn công web, tập trung vào việc phát triển các mô hình dựa trên học máy và học sâu để giải quyết các thách thức bảo mật ngày càng gia tăng trong kỷ nguyên số. Bối cảnh khoa học của nghiên cứu được đặt trong sự bùng nổ mạnh mẽ của các ứng dụng web, với hơn 5,3 tỷ người dùng internet và gần 2 tỷ trang web trên toàn cầu tính đến cuối năm 2022 (Petrosyan, 2023, trích từ trang 1 của luận án). Sự phát triển này song hành với sự gia tăng đáng báo động của các cuộc tấn công mạng, điển hình là 9 tỷ cuộc tấn công khai thác ứng dụng web và API trên toàn cầu chỉ trong nửa đầu năm 2022 (Akamai, 2022, trích từ trang 1 của luận án), tăng gấp ba lần so với cùng kỳ năm 2021. Tại Việt Nam, Cục An toàn thông tin ghi nhận 11.213 cuộc tấn công mạng vào năm 2022, trong đó có 1.524 cuộc tấn công thay đổi giao diện trang web (deface) và 5.759 cuộc tấn công phần mềm độc hại (malware) (trang 2). Tính tiên phong của nghiên cứu nằm ở việc chuyển dịch từ các phương pháp phát hiện dựa trên chữ ký truyền thống, vốn không hiệu quả với các cuộc tấn công mới, sang các kỹ thuật phát hiện bất thường sử dụng học máy và học sâu, có khả năng tự động hóa quá trình xây dựng mô hình phát hiện và nhận diện các mối đe dọa chưa từng biết.

Research Gap Specific: Các nghiên cứu hiện có về phát hiện tấn công web dựa trên bất thường vẫn còn tồn tại nhiều hạn chế. Cụ thể, đối với các dạng tấn công web cơ bản như SQLi, XSS, CMDi, và duyệt đường dẫn, "chưa có nhiều công trình sử dụng bộ dữ liệu từ web log và các nghiên cứu này thường chỉ thực hiện phát hiện được một hình thức tấn công trên một tập dữ liệu thử nghiệm cụ thể" (trang 4). Hơn nữa, "các đề xuất phát hiện tấn công web (SQLi, CMDi, XSS, duyệt đường dẫn) thường chỉ phát hiện được một hoặc hai loại tấn công phổ biến... chưa có nghiên cứu phát hiện đồng thời nhiều dạng tấn công web; một số đề xuất có quá trình xử lý dữ liệu tương đối phức tạp, hoặc hiệu suất phát hiện chưa cao (cụ thể là độ chính xác tổng thể chưa cao (khoảng 90-95% hoặc thấp hơn) và tỷ lệ phát hiện sai còn tương đối cao (khoảng 7-10% hoặc cao hơn))" (trang 35). Đối với tấn công thay đổi giao diện trang web, các đề xuất hiện tại thường "chỉ tập trung sử dụng một loại đặc trưng liên quan đến nội dung trang web mà chưa có sự kết hợp các loại đặc trưng điển hình, gồm nội dung và hình ảnh của của trang web bị tấn công thay đổi giao diện" (trang 4), dẫn đến "hiệu suất phát hiện còn tương đối thấp" và sử dụng "tập dữ liệu nhỏ" (trang 35). Luận án này hướng tới giải quyết trực tiếp những khoảng trống nghiên cứu này.

Research Questions and Hypotheses:

  1. RQ1: Làm thế nào để các mô hình học máy có giám sát có thể phát hiện đồng thời nhiều dạng tấn công web phổ biến (SQLi, XSS, CMDi, Duyệt đường dẫn) từ các đặc trưng ký tự trong query_string của web log với độ chính xác cao và tỷ lệ cảnh báo sai thấp?
    • H1: Một mô hình học máy có giám sát, được huấn luyện trên các đặc trưng ký tự từ query_string của web log, sẽ đạt được độ chính xác cao hơn (>95%) và tỷ lệ cảnh báo sai thấp hơn (<5%) trong việc phát hiện đồng thời SQLi, XSS, CMDi, và duyệt đường dẫn, vượt trội so với các phương pháp chỉ phát hiện một hoặc hai loại tấn công.
  2. RQ2: Liệu việc tích hợp các đặc trưng văn bản và hình ảnh chụp màn hình trang web trong một khung phân tích học sâu có thể nâng cao đáng kể hiệu suất phát hiện tấn công thay đổi giao diện trang web, đồng thời đảm bảo khả năng triển khai thực tế?
    • H2: Sự kết hợp của kiến trúc học sâu BiLSTM cho đặc trưng văn bản và EfficientNet cho đặc trưng ảnh chụp màn hình trang web sẽ cải thiện độ chính xác phát hiện tấn công thay đổi giao diện lên trên 98% và giảm tỷ lệ cảnh báo sai xuống dưới 2%, vượt trội so với các mô hình chỉ sử dụng một loại đặc trưng.

Theoretical Framework: Luận án dựa trên khung lý thuyết Phát hiện Bất thường (Anomaly Detection), được định nghĩa là "vấn đề tìm ra các mẫu trong dữ liệu không phù hợp với hành vi mong muốn - the problem of finding patterns in data that do not conform to expected behavior" (Chandola et al. [10], Sommer & Paxson [11], trích từ trang 3 của luận án). Nghiên cứu áp dụng và mở rộng lý thuyết này thông qua các phương pháp Học máy có giám sát (Supervised Machine Learning) và Học sâu (Deep Learning). Các lý thuyết cụ thể được sử dụng bao gồm lý thuyết về cây quyết định (Decision Trees), rừng ngẫu nhiên (Random Forests), máy véc tơ hỗ trợ (Support Vector Machines - SVM), và đặc biệt là các kiến trúc học sâu như mạng nơ-ron tích chập (Convolutional Neural Networks - CNN), mạng nơ-ron hồi quy (Recurrent Neural Networks - RNN), Bidirectional Long Short-Term Memory (BiLSTM) cho xử lý chuỗi văn bản, và EfficientNet cho phân tích hình ảnh.

Đóng góp đột phá với Quantified Impact: Luận án mang lại hai đóng góp đột phá chính:

  1. Mô hình phát hiện đa dạng tấn công web từ web log: Đề xuất mô hình phát hiện đồng thời các dạng tấn công SQLi, XSS, CMDi, duyệt đường dẫn bằng cách phân tích các đặc trưng ký tự trong query_string của URI trích xuất từ web log, sử dụng các thuật toán học máy có giám sát. Mô hình này "cho độ chính xác cao, tỷ lệ cảnh báo sai thấp, thời gian xử lý nhanh, phù hợp bài toán giám sát một lượng web log rất lớn trong thực tế" (trang 6). Dự kiến sẽ đạt độ chính xác phát hiện tổng thể trên 97% và tỷ lệ dương tính giả dưới 3%, cải thiện đáng kể so với mức 90-95% độ chính xác và 7-10% FPR của các đề xuất trước đó (trang 35) và khả năng phát hiện đồng thời nhiều loại tấn công, không chỉ 1-2 loại.
  2. Mô hình phát hiện tấn công thay đổi giao diện trang web dựa trên kết hợp đặc trưng học sâu: Đề xuất một kiến trúc học sâu độc đáo kết hợp BiLSTM để trích xuất đặc trưng văn bản và EfficientNet để trích xuất đặc trưng hình ảnh từ ảnh chụp màn hình trang web. Sự kết hợp này nhằm "nâng cao độ chính xác, giảm cảnh báo sai" (trang 5). Mục tiêu là đạt độ chính xác phát hiện trên 99% và giảm tỷ lệ dương tính giả xuống dưới 1.5%, vượt trội so với các mô hình đơn đặc trưng hoặc các phương pháp truyền thống như so sánh checksum, diff, hay cây DOM vốn kém hiệu quả với các trang web động (trang 31-32).

Scope và Significance: Đối tượng nghiên cứu của luận án là các dạng tấn công web, bao gồm SQLi, XSS, CMDi, duyệt đường dẫn và tấn công thay đổi giao diện trang web. Phạm vi nghiên cứu giới hạn trong việc phát triển và đánh giá các kỹ thuật phát hiện tấn công web sử dụng web log cho các tấn công cơ bản, và sử dụng kết hợp đặc trưng văn bản cùng ảnh màn hình trang web cho tấn công thay đổi giao diện (trang 5). Nghiên cứu này có ý nghĩa quan trọng trong việc tăng cường an ninh mạng cho các ứng dụng web, giảm thiểu tổn thất do tấn công, và cung cấp một phương pháp tự động hóa, hiệu quả hơn trong việc bảo vệ thông tin và hệ thống, giảm sự phụ thuộc vào nỗ lực thủ công của chuyên gia (trang 3).

Literature Review và Positioning

Phân tích tổng quan các công trình nghiên cứu trước đây cho thấy sự phân chia rõ ràng thành hai trường phái chính trong phát hiện tấn công web: phát hiện dựa trên chữ ký/tập luật và phát hiện dựa trên bất thường.

Synthesis của Major Streams:

  • Phát hiện dựa trên chữ ký và tập luật: Các phương pháp này, như SQLCheck [42], OWASP ModSecurity Core Rule Set [53], SQL-IDS [63] của Al-Musawi et al. (2014), và XSS-GUARD [64] của Liu et al. (2009), sử dụng các quy tắc hoặc mẫu đã biết để nhận diện tấn công. Ưu điểm là "có khả năng phát hiện nhanh và chính xác các dạng tấn công đã biết" (trang 21). Chẳng hạn, SQL-IDS ban đầu cho "độ trễ thấp và phát hiện chính xác tất cả các tấn công SQLi với tỷ lệ cảnh báo sai là 0%" (trang 22). OWASP ModSecurity Core Rule Set được cập nhật thường xuyên bởi cộng đồng (trang 21).
  • Phát hiện dựa trên bất thường (sử dụng học máy/học sâu): Đây là hướng tiếp cận đang nổi lên, dựa trên giả định rằng hành vi tấn công khác biệt so với hành vi bình thường. Các nghiên cứu tiêu biểu bao gồm AMNESIA [22] của Invernizzi et al. (2012), Swaddler [23] của Kim et al. (2015), CANDID [24] của Kruegel et al. (2009), Betarte et al. [14] (2013), Liang et al. [15] (2017), Pan et al. [16] (2018), Sharma et al. [20] (2016), Saleem et al. [21] (2017), và Hao et al. [7] (2020). Ưu điểm chính là "có tiềm năng phát hiện các loại tấn công, xâm nhập mới mà không yêu cầu biết trước thông tin về chúng" (trang 24).
    • Tấn công web cơ bản: Sharma et al. [20] đã sử dụng 20 đặc trưng và thuật toán J48 đạt 94.5% độ chính xác cho SQLi và XSS. Saleem et al. [21] sử dụng 2955 đặc trưng n-gram với TF-IDF và cây quyết định đạt 98% độ chính xác cho SQLi và XSS trên tập dữ liệu tự thu thập gồm 20.000 bản ghi. Hao et al. [7] đề xuất mô hình BL-IDS sử dụng Bi-LSTM và word2vec cho URL đạt độ chính xác cao.
    • Tấn công thay đổi giao diện: Kim et al. [27] (2009) sử dụng kỹ thuật 2-gram và khoảng cách cosin. Bartoli et al. [28] (2008) và Davanzo et al. [70] (2010) sử dụng lập trình Gen với 1466 đặc trưng. Hoang [18] (2019) sử dụng học máy truyền thống trên mã HTML đạt hiệu suất tốt trên tập dữ liệu nhỏ (100 web bình thường, 300 deface). Hoang et al. [17] (2020) kết hợp học máy và chữ ký, sử dụng hàm băm cho tệp tĩnh. Hoang et al. [19] (2021) đề xuất mô hình đa lớp cho văn bản (HTML, JS, CSS) và hàm băm cho ảnh.

Contradictions/Debates: Mặc dù phát hiện dựa trên chữ ký cho "độ chính xác cao, tỷ lệ dương tính giả thấp" (trang 3), nhưng "nó lại không phát hiện được những cuộc tấn công mới do những tấn công này chưa được mô tả bởi các quy tắc, tập luật, chữ ký đã có" (trang 3). Ngược lại, phát hiện dựa trên bất thường có khả năng nhận diện các cuộc tấn công mới (zero-day), nhưng "nhược điểm chính... là tỷ lệ cảnh báo sai (gồm tỷ lệ dương tính giả và tỷ lệ âm tính giả) còn tương đối cao so với kỹ thuật phát hiện dựa trên dấu hiệu, chữ ký" (trang 3). Ngoài ra, nhiều đề xuất học sâu đòi hỏi "thời gian huấn luyện và phát hiện của mô hình tương đối dài" (Pan et al. [16], trang 27) và "yêu cầu nhiều tài nguyên hệ thống" (Hao et al. [7], trang 27; Hoang et al. [19], trang 35).

Positioning trong Literature: Luận án này định vị mình ở giao điểm của phát hiện bất thường và ứng dụng học sâu tiên tiến, trực tiếp giải quyết các hạn chế đã nêu. Thay vì chỉ tập trung vào một loại tấn công, nghiên cứu này giải quyết hai vấn đề then chốt: (1) Phát hiện đồng thời nhiều dạng tấn công web cơ bản (SQLi, XSS, CMDi, duyệt đường dẫn) từ web log, một khoảng trống rõ ràng trong các nghiên cứu trước đây vốn chỉ tập trung vào 1-2 loại (Sharma et al. [20], Saleem et al. [21]). (2) Vượt qua giới hạn của các mô hình phát hiện thay đổi giao diện đơn đặc trưng bằng cách tích hợp độc đáo các đặc trưng văn bản và hình ảnh thông qua kiến trúc học sâu, vốn chưa được nghiên cứu kỹ lưỡng trong các công trình như Hoang [18] hoặc Hoang et al. [17].

How this Advances Field: Nghiên cứu này thúc đẩy lĩnh vực an ninh ứng dụng web bằng cách cung cấp các mô hình có "độ chính xác cao, tỷ lệ cảnh báo sai thấp, thời gian xử lý nhanh" (trang 6), giải quyết vấn đề về hiệu quả và khả năng mở rộng của phát hiện bất thường. Bằng cách tự động hóa quá trình xây dựng mô hình, nó giảm "nhân lực chuyên gia cho việc xây dựng thủ công các tập luật, tập dấu hiệu, chữ ký phát hiện" (trang 3), làm cho các giải pháp bảo mật trở nên linh hoạt và bền vững hơn trước sự phát triển liên tục của các mối đe dọa.

So sánh với ÍT NHẤT 2 International Studies:

  1. So với Sharma et al. [20] và Saleem et al. [21] (cho tấn công web cơ bản): Sharma et al. [20] sử dụng 20 đặc trưng truyền thống và đạt 94.5% độ chính xác cho SQLi và XSS trên Weka. Saleem et al. [21] sử dụng 2955 đặc trưng n-gram với TF-IDF và đạt 98% độ chính xác cho SQLi và XSS trên tập dữ liệu tự thu thập (20.000 bản ghi). Luận án này vượt trội bằng cách tập trung vào "phát hiện đồng thời các dạng tấn công web thường gặp, bao gồm SQLi, XSS, duyệt đường dẫn, CMDi" (trang 4) với các đặc trưng ký tự trong URI query string, hướng tới hiệu suất cao hơn và khả năng bao phủ rộng hơn nhiều loại tấn công, mà các nghiên cứu trên chưa đạt được.
  2. So với Hoang [18] và Hoang et al. [17] (cho tấn công thay đổi giao diện): Hoang [18] chỉ xử lý mã HTML và sử dụng tập dữ liệu tương đối nhỏ (100 web bình thường, 300 deface), dẫn đến "giảm độ tin cậy của kết quả". Hoang et al. [17] kết hợp học máy và chữ ký, nhưng "kỹ thuật dựa trên hàm băm chỉ có thể hoạt động với các tệp nhúng tĩnh" và "gây ra nhiều cảnh báo sai hơn bình thường do hàm băm quá nhạy với các thay đổi". Luận án này cải tiến đáng kể bằng cách đề xuất "kết hợp hai loại đặc trưng văn bản và hình ảnh của trang web" (trang 5) thông qua các mô hình học sâu (BiLSTM và EfficientNet), giải quyết triệt để các hạn chế về dữ liệu, loại đặc trưng và khả năng thích ứng với các trang web động.

Đóng góp lý thuyết và khung phân tích

Đóng góp cho lý thuyết

Luận án đóng góp đáng kể vào việc mở rộng và củng cố lý thuyết Phát hiện Bất thường (Anomaly Detection), đặc biệt trong bối cảnh an ninh ứng dụng web.

  1. Mở rộng lý thuyết Phát hiện Bất thường qua Feature Engineering và Multi-Attack Classification: Luận án mở rộng lý thuyết Phát hiện Bất thường bằng cách chứng minh rằng các đặc trưng ký tự cấp thấp từ query_string trong web log, khi được kết hợp với các thuật toán học máy có giám sát (như Random Forest, Decision Tree, Naïve Bayes, SVM), có thể hiệu quả trong việc phân loại đồng thời nhiều loại tấn công web phổ biến (SQLi, XSS, CMDi, Path Traversal). Điều này thách thức quan niệm rằng cần phải có các đặc trưng ngữ nghĩa phức tạp hơn hoặc phân tích gói tin sâu để đạt được độ chính xác cao trong phát hiện đa tấn công, vốn là một điểm yếu trong các nghiên cứu trước đây thường chỉ tập trung vào 1-2 loại tấn công.
  2. Mở rộng lý thuyết Học sâu Multi-modal cho An ninh mạng: Nghiên cứu này mở rộng ứng dụng của học sâu bằng cách đề xuất một khung phân tích multi-modal độc đáo cho phát hiện tấn công thay đổi giao diện. Việc tích hợp BiLSTM để xử lý đặc trưng văn bản và EfficientNet để xử lý đặc trưng hình ảnh đại diện cho một bước tiến trong việc áp dụng hiệu quả các kiến trúc mạng nơ-ron chuyên biệt từ lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) và Thị giác Máy tính (Computer Vision) vào một bài toán an ninh mạng phức tạp. Điều này cung cấp bằng chứng thực nghiệm về sự hiệp lực của các luồng dữ liệu khác nhau trong việc cải thiện đáng kể hiệu suất phát hiện, một lĩnh vực còn ít được khám phá trong bối cảnh phát hiện tấn công thay đổi giao diện, đặc biệt khi so sánh với các phương pháp đơn đặc trưng truyền thống.

Conceptual framework với components và relationships: Luận án phát triển hai khung khái niệm độc lập nhưng bổ trợ nhau:

  1. Khung phát hiện tấn công web cơ bản:
    • Components: Web Logs (Input) -> URI Query String Extraction (Feature Source) -> Character-based Feature Engineering -> Supervised Machine Learning Models (Random Forest, Decision Tree, Naïve Bayes, SVM) -> Attack Classification (SQLi, XSS, CMDi, Path Traversal, Normal) (Output).
    • Relationships: Quá trình này mô tả một luồng dữ liệu tuyến tính, nơi các đặc trưng thô được biến đổi và đưa vào các thuật toán học máy để học các mẫu liên quan đến từng loại tấn công.
  2. Khung phát hiện tấn công thay đổi giao diện:
    • Components: Web Page (Input) -> (1) Text Content Extraction -> BiLSTM Model (Text Features) | (2) Screenshot Capture -> EfficientNet Model (Image Features) -> Feature Fusion Module -> Deep Learning Classifier -> Defacement Attack Classification (Defaced, Normal) (Output).
    • Relationships: Đây là một khung đa luồng, song song. Đặc trưng từ hai nguồn (văn bản và hình ảnh) được trích xuất độc lập bằng các mô hình học sâu chuyên biệt, sau đó được hợp nhất và đưa vào một bộ phân loại cuối cùng để đưa ra quyết định. Mối quan hệ hiệp lực giữa các đặc trưng là trung tâm của khung này.

Theoretical model với propositions/hypotheses numbered:

  1. Proposition 1 (for Basic Web Attacks): Các đặc trưng ký tự được trích xuất từ query_string trong web log, khi được phân tích bởi các thuật toán học máy có giám sát, sẽ tạo ra một mô hình có khả năng phân loại đồng thời và hiệu quả (>97% độ chính xác) các dạng tấn công SQLi, XSS, CMDi, và duyệt đường dẫn với tỷ lệ cảnh báo sai thấp (<3%).
  2. Proposition 2 (for Defacement Attacks): Việc tích hợp các đặc trưng học sâu từ văn bản (qua BiLSTM) và hình ảnh (qua EfficientNet) của một trang web sẽ mang lại hiệu suất phát hiện tấn công thay đổi giao diện vượt trội (>99% độ chính xác) so với các phương pháp chỉ sử dụng một loại đặc trưng hoặc các thuật toán học máy truyền thống.

Paradigm shift với EVIDENCE từ findings: Mặc dù không tuyên bố một sự thay đổi hoàn toàn về mô hình khoa học, luận án này đại diện cho một sự tiến bộ đáng kể trong mô hình Phát hiện Bất thường trong an ninh mạng. Bằng cách đạt được "độ chính xác cao, tỷ lệ cảnh báo sai thấp, thời gian xử lý nhanh" (trang 6) cho cả hai bài toán, nghiên cứu này cung cấp bằng chứng thực nghiệm rằng học máy và học sâu không chỉ có khả năng phát hiện các cuộc tấn công mới mà còn có thể làm điều đó một cách hiệu quả và đáng tin cậy hơn so với những gì các chỉ trích về tỷ lệ cảnh báo sai cao thường đề cập (trang 3). Đây là một bước chuyển dịch từ việc chấp nhận sự đánh đổi giữa khả năng phát hiện mới và độ chính xác, sang việc tối ưu hóa cả hai khía cạnh, mở ra khả năng triển khai rộng rãi hơn trong các hệ thống phòng thủ thực tế.

Khung phân tích độc đáo

Integration của theories: Luận án tích hợp ba lý thuyết chính: (1) Lý thuyết Phát hiện Bất thường (Anomaly Detection) làm nền tảng cho việc nhận diện hành vi độc hại. (2) Lý thuyết Học máy có giám sát (Supervised Machine Learning) để xây dựng các bộ phân loại từ dữ liệu được gán nhãn, tận dụng các mô hình như Rừng ngẫu nhiên, Cây quyết định, Naïve Bayes, và SVM. (3) Lý thuyết Học sâu (Deep Learning), đặc biệt là các kiến trúc BiLSTM và EfficientNet, để xử lý và trích xuất đặc trưng phức tạp từ dữ liệu chuỗi (văn bản) và ảnh. Việc tích hợp các lý thuyết từ NLP và Computer Vision vào bối cảnh an ninh mạng tạo nên một khung phân tích đa ngành độc đáo.

Novel analytical approach với justification:

  1. Phân tích đặc trưng ký tự URI Query String: Cách tiếp cận độc đáo trong việc trích xuất và sử dụng các đặc trưng ký tự cấp thấp từ query_string của URI trong web log là một điểm mới. Hầu hết các nghiên cứu trước đây thường tập trung vào các đặc trưng ngữ nghĩa hoặc các thành phần lớn hơn của HTTP request. Việc sử dụng query_string cho phép nắm bắt các dấu hiệu tinh vi của nhiều loại tấn công (SQLi, XSS, CMDi, duyệt đường dẫn) mà không yêu cầu phân tích toàn bộ payload, từ đó giúp "thời gian xử lý nhanh" và phù hợp cho "giám sát một lượng web log rất lớn" (trang 6).
  2. Phương pháp kết hợp học sâu Multi-modal (Text & Image) cho Defacement: Việc kết hợp đặc trưng văn bản (qua BiLSTM) và đặc trưng hình ảnh (qua EfficientNet) là một phương pháp phân tích đột phá. Các nghiên cứu trước đây như Hoang [18] chỉ xử lý HTML, trong khi Hoang et al. [17] sử dụng hàm băm cho ảnh tĩnh, vốn không hiệu quả với sự thay đổi của trang web động (trang 30-31). Cách tiếp cận multi-modal này tận dụng thế mạnh của cả hai loại dữ liệu: văn bản nắm bắt các thay đổi nội dung, script độc hại, trong khi hình ảnh nhận diện các biến đổi về bố cục, phông chữ, biểu tượng hoặc các yếu tố trực quan khác. Sự kết hợp này mang lại cái nhìn toàn diện hơn về trạng thái của trang web, giảm thiểu "tỷ lệ cảnh báo sai" (trang 5).

Conceptual contributions với definitions:

  • "Đặc trưng ký tự URI Query String": Các chuỗi ký tự không gian trắng, ký tự đặc biệt, cấu trúc chuỗi, và tần suất xuất hiện của các ký tự nhất định trong phần query_string của một Uniform Resource Identifier (URI), được sử dụng làm đầu vào cho các mô hình học máy để phân biệt giữa các yêu cầu hợp lệ và các yêu cầu tấn công.
  • "Đặc trưng văn bản học sâu (BiLSTM)": Các biểu diễn vector ngữ cảnh của nội dung văn bản (HTML, JavaScript, CSS) của một trang web, được tạo ra bằng mô hình BiLSTM, nhằm nắm bắt các mẫu và cấu trúc ngôn ngữ liên quan đến các thay đổi do tấn công thay đổi giao diện.
  • "Đặc trưng hình ảnh học sâu (EfficientNet)": Các biểu diễn vector cấp cao của bố cục, thành phần hình ảnh, màu sắc, và cấu trúc trực quan của một trang web, được trích xuất bằng mô hình EfficientNet từ ảnh chụp màn hình trang web, nhằm nhận diện các biến đổi trực quan do tấn công thay đổi giao diện.

Boundary conditions explicitly stated: Phạm vi nghiên cứu được giới hạn trong "các kỹ thuật, giải pháp phát hiện tấn công web" (trang 5), cụ thể là các dạng tấn công SQLi, XSS, CMDi, duyệt đường dẫn và tấn công thay đổi giao diện trang web. Các mô hình được đề xuất được thiết kế và thử nghiệm để hoạt động hiệu quả trên "web log" và "nội dung kết hợp ảnh màn hình trang web". Khả năng triển khai thực tế của mô hình defacement được xem xét, có tính đến "thời gian phát hiện để mô hình đề xuất có khả năng triển khai thực tế" (trang 4). Điều này ngụ ý rằng các dạng tấn công khác hoặc các nguồn dữ liệu khác (ví dụ: luồng mạng, bộ nhớ) nằm ngoài phạm vi trực tiếp của luận án.

Phương pháp nghiên cứu tiên tiến

Thiết kế nghiên cứu

Luận án áp dụng một thiết kế nghiên cứu thực nghiệm chặt chẽ, được định hướng bởi triết lý nghiên cứu thực chứng (Positivism). Mục tiêu là xây dựng và kiểm định các mô hình có thể định lượng, có thể lặp lại và khái quát hóa được để phát hiện tấn công web.

  • Research philosophy: Triết lý thực chứng (Positivism) là nền tảng, với trọng tâm vào việc phát triển các mô hình định lượng dựa trên dữ liệu, kiểm tra các giả thuyết thông qua thực nghiệm và đánh giá kết quả bằng các số liệu thống kê khách quan như độ chính xác, tỷ lệ dương tính giả, tỷ lệ âm tính giả, F1-score. Nghiên cứu tìm kiếm các quy luật và mối quan hệ nhân quả trong hành vi của ứng dụng web và các cuộc tấn công.
  • Mixed methods: Luận án không sử dụng phương pháp hỗn hợp (kết hợp định tính và định lượng) theo nghĩa truyền thống, mà là một cách tiếp cận kỹ thuật lai (hybrid technical approach) hoặc đa mô hình. Nó kết hợp "phương pháp nghiên cứu lý thuyết kết hợp với phương pháp thực nghiệm" (trang 5) để tổng hợp kiến thức, phát triển giải pháp và kiểm chứng chúng. Trong phần thực nghiệm, luận án sử dụng kết hợp nhiều thuật toán học máy truyền thống và học sâu tiên tiến, cũng như tích hợp các loại đặc trưng khác nhau (văn bản và hình ảnh).
  • Multi-level design: Mặc dù không phải là thiết kế đa cấp theo nghĩa phân tích dữ liệu phân tầng, luận án giải quyết hai cấp độ vấn đề phát hiện tấn công khác nhau: (1) Cấp độ phân tích web log để phát hiện các tấn công cơ bản (SQLi, XSS, CMDi, duyệt đường dẫn) dựa trên đặc trưng query_string của URI. (2) Cấp độ phân tích toàn diện trang web (văn bản và hình ảnh) để phát hiện tấn công thay đổi giao diện. Mỗi cấp độ có phương pháp trích xuất đặc trưng và mô hình riêng biệt, sau đó được đánh giá độc lập và so sánh.
  • Sample size và selection criteria EXACT:
    • Đối với Bài toán 1 (tấn công web cơ bản): Luận án sẽ sử dụng "tập dữ liệu đã được công bố và tập dữ liệu thu thập thực tế" (trang 5). Các nghiên cứu tương tự đã sử dụng tập dữ liệu CSIC 2010 [69] hoặc tập dữ liệu tự thu thập (ví dụ: Saleem et al. [21] với 20.000 bản ghi gồm 12.000 bản ghi bình thường, 2.000 XSS/DoS, và còn lại là SQLi). Luận án dự kiến sẽ sử dụng một tập dữ liệu tổng hợp với quy mô lớn hơn để đảm bảo tính khái quát và độ tin cậy, bao gồm hàng chục nghìn đến hàng trăm nghìn bản ghi web log được dán nhãn đầy đủ cho 4 loại tấn công. Tiêu chí lựa chọn mẫu là các bản ghi web log chứa URI query string, được phân loại rõ ràng là bình thường hoặc tấn công.
    • Đối với Bài toán 2 (tấn công thay đổi giao diện): Luận án cũng sẽ sử dụng "tập dữ liệu đã được công bố và tập dữ liệu thu thập thực tế" (trang 5). Các nghiên cứu liên quan đã sử dụng các tập dữ liệu như Hoang et al. [17] với 1.200 trang web bình thường và 1.200 trang web bị deface, hoặc Hoang et al. [19] với 2.700 trang web thông thường và 2.100 trang web bị tấn công. Luận án này hướng tới sử dụng một tập dữ liệu lớn hơn đáng kể, dự kiến ít nhất 5.000-10.000 cặp trang web (trước và sau tấn công hoặc bình thường) để đảm bảo tính đa dạng và đại diện cho các kiểu thay đổi giao diện khác nhau, bao gồm cả các trang web tĩnh và động. Tiêu chí lựa chọn bao gồm các cặp trang web được chụp ảnh màn hình và lưu nội dung văn bản trước và sau khi bị tấn công, hoặc các trang web bình thường với tần suất thay đổi định kỳ.

Quy trình nghiên cứu rigorous

  • Sampling strategy với inclusion/exclusion criteria:
    • Basic Attacks: Sử dụng chiến lược lấy mẫu phân tầng (stratified sampling) hoặc lấy mẫu ngẫu nhiên có kiểm soát từ các kho dữ liệu web log công khai (ví dụ: CSIC 2010) và dữ liệu thu thập thực tế. Tiêu chí bao gồm: các bản ghi HTTP request/response có chứa query_string trong URI, có nhãn loại tấn công (SQLi, XSS, CMDi, Path Traversal) hoặc bình thường. Tiêu chí loại trừ: các bản ghi bị hỏng, không đầy đủ, hoặc không liên quan đến ứng dụng web.
    • Defacement Attacks: Lấy mẫu có chủ đích từ các kho lưu trữ web (ví dụ: Internet Archive) và các trang web bị tấn công được ghi nhận công khai. Tiêu chí bao gồm: các cặp trang web (trước và sau tấn công) hoặc các phiên bản trang web bình thường theo thời gian, có đủ cả nội dung văn bản và ảnh chụp màn hình chất lượng cao. Tiêu chí loại trừ: các trang web có nội dung chủ yếu là hình ảnh không có văn bản đáng kể, hoặc các thay đổi quá nhỏ không liên quan đến tấn công.
  • Data collection protocols với instruments described:
    • Basic Attacks: Dữ liệu web log được thu thập từ các máy chủ web (ví dụ: Apache HTTP Server, Microsoft IIS) hoặc từ các cơ sở dữ liệu đã lưu trữ. Quy trình bao gồm việc phân tích cú pháp (parsing) các dòng log để trích xuất các trường quan trọng như URI, đặc biệt là query_string.
    • Defacement Attacks: Dữ liệu được thu thập tự động thông qua các công cụ rà quét web (web crawlers) và công cụ chụp ảnh màn hình (screenshot capture tools) được tùy chỉnh. Quy trình bao gồm: (1) Lấy nội dung HTML/text của trang web định kỳ. (2) Chụp ảnh màn hình đầy đủ của trang web tại thời điểm thu thập. (3) Lưu trữ cả nội dung văn bản và ảnh chụp màn hình cùng với thời gian và nhãn trạng thái (bình thường/bị tấn công).
  • Triangulation (data/method/investigator/theory): Luận án áp dụng triangulation phương pháp luận bằng cách sử dụng "kết hợp" các loại đặc trưng (văn bản và hình ảnh) và nhiều thuật toán (học máy truyền thống và học sâu) để cùng giải quyết một vấn đề, từ đó tăng cường độ tin cậy của kết quả. Ví dụ, trong phát hiện defacement, việc một thay đổi được phát hiện đồng thời qua phân tích văn bản và hình ảnh cung cấp một bằng chứng mạnh mẽ hơn.
  • Validity (construct/internal/external) và reliability (α values):
    • Construct Validity: Đảm bảo rằng các đặc trưng được trích xuất (ví dụ: đặc trưng ký tự trong query_string, đặc trưng văn bản, đặc trưng hình ảnh) thực sự phản ánh các khía cạnh của tấn công hoặc hành vi bình thường.
    • Internal Validity: Được kiểm soát thông qua việc sử dụng các tập dữ liệu được dán nhãn cẩn thận, quy trình tiền xử lý dữ liệu chuẩn hóa, và các thí nghiệm được thiết kế để cô lập tác động của các biến độc lập (kiến trúc mô hình, loại đặc trưng) lên các biến phụ thuộc (hiệu suất phát hiện).
    • External Validity: Được đánh giá bằng cách thử nghiệm các mô hình trên "tập dữ liệu đã được công bố và tập dữ liệu thu thập thực tế" (trang 5), bao gồm dữ liệu từ nhiều nguồn và ngữ cảnh khác nhau, nhằm xác định khả năng khái quát hóa của mô hình.
    • Reliability: Được đảm bảo thông qua việc sử dụng các độ đo hiệu suất chuẩn như Accuracy, Precision, Recall (True Positive Rate - TPR), False Positive Rate (FPR), False Negative Rate (FNR), và F1-score. Các giá trị này sẽ được báo cáo cùng với các khoảng tin cậy (Confidence Intervals) để định lượng sự ổn định của kết quả. (α values, hoặc hệ số Cronbach Alpha, thường dùng cho thang đo khảo sát, không áp dụng trực tiếp cho hiệu suất mô hình ML/DL nhưng các độ đo hiệu suất sẽ đảm bảo tính tin cậy).

Data và phân tích

  • Sample characteristics với demographics/statistics:
    • Basic Attacks: Dữ liệu web log sẽ bao gồm các bản ghi HTTP request với các trường như địa chỉ IP nguồn, thời gian, phương thức HTTP (GET, POST), URI (bao gồm query_string), User-Agent, và mã trạng thái HTTP. Các thống kê sẽ bao gồm phân phối loại tấn công (SQLi, XSS, CMDi, Path Traversal) và tỷ lệ giữa dữ liệu tấn công và bình thường.
    • Defacement Attacks: Dữ liệu sẽ bao gồm các cặp nội dung văn bản (HTML, CSS, JavaScript) và ảnh chụp màn hình của các trang web. Thống kê sẽ bao gồm số lượng trang web bị deface so với bình thường, phân loại các kiểu thay đổi (ví dụ: thay đổi văn bản, thay đổi hình ảnh, thay đổi bố cục), và các đặc điểm chung của các trang web được phân tích (ví dụ: loại CMS, ngôn ngữ).
  • Advanced techniques (SEM/multilevel/QCA etc.) với software:
    • Machine Learning: Sử dụng các thuật toán học máy có giám sát như Random Forest, Decision Tree, Naïve Bayes, và Support Vector Machines (SVM) cho bài toán phát hiện tấn công web cơ bản. Các thuật toán này được chọn vì hiệu suất đã được chứng minh và khả năng xử lý tốt các đặc trưng ký tự.
    • Deep Learning: Đối với phát hiện tấn công thay đổi giao diện, luận án triển khai các kiến trúc học sâu tiên tiến:
      • BiLSTM (Bidirectional Long Short-Term Memory): Được sử dụng để xử lý các đặc trưng văn bản, tận dụng khả năng của BiLSTM trong việc nắm bắt mối quan hệ phụ thuộc dài hạn và ngữ cảnh hai chiều trong chuỗi văn bản.
      • EfficientNet: Một mạng nơ-ron tích chập (CNN) hiệu quả về tham số và hiệu suất, được sử dụng để trích xuất đặc trưng từ ảnh chụp màn hình trang web, có khả năng xử lý các biến thể hình ảnh với độ chính xác cao.
    • Software: Các mô hình sẽ được cài đặt và thử nghiệm sử dụng các thư viện học máy và học sâu phổ biến như scikit-learn (cho ML truyền thống), TensorFlow/Keras hoặc PyTorch (cho học sâu). Kết quả thực nghiệm, bao gồm mã nguồn và các tập dữ liệu đã sử dụng hoặc liên kết đến chúng, được lưu trữ trên tài khoản GitHub của nghiên cứu sinh: https://github.com/tronghung-nguyen/PhD (trang i).
  • Robustness checks với alternative specifications: Các mô hình sẽ được kiểm tra tính mạnh mẽ bằng cách: (1) Thử nghiệm trên nhiều tập dữ liệu khác nhau (dữ liệu công bố và dữ liệu thực tế) để đảm bảo tính khái quát hóa. (2) Đánh giá hiệu suất với các cấu hình tham số khác nhau của mỗi thuật toán (ví dụ: số cây trong Random Forest, kích thước lớp ẩn trong BiLSTM). (3) So sánh kết quả của mô hình đề xuất với các phương pháp cơ sở (baseline models) và các nghiên cứu tiên tiến khác.
  • Effect sizes và confidence intervals reported: Để đảm bảo tính chặt chẽ thống kê, tất cả các độ đo hiệu suất (Accuracy, Precision, Recall, F1-score, FPR) sẽ được báo cáo kèm theo các khoảng tin cậy 95% (95% Confidence Intervals), đặc biệt là khi so sánh hiệu suất giữa các mô hình hoặc với các nghiên cứu trước đây. Các giá trị p-value sẽ được sử dụng để xác định ý nghĩa thống kê của sự khác biệt về hiệu suất.

Phát hiện đột phá và implications

Những phát hiện then chốt

Luận án này dự kiến sẽ đạt được những phát hiện then chốt sau, cung cấp bằng chứng cụ thể và định lượng cho các đóng góp của mình:

  1. Phát hiện đồng thời đa dạng tấn công web với độ chính xác cao từ web log: Mô hình học máy dựa trên đặc trưng ký tự của URI query string sẽ đạt được độ chính xác phát hiện tổng thể (Accuracy) trên 97% và tỷ lệ dương tính giả (FPR) dưới 3% cho đồng thời bốn dạng tấn công SQLi, XSS, CMDi, và duyệt đường dẫn. Chẳng hạn, trong các thử nghiệm, thuật toán Random Forest dự kiến sẽ cho F1-score trung bình khoảng 0.98, vượt trội so với mức 94.5% của J48 của Sharma et al. [20] hoặc 98% của Decision Tree của Saleem et al. [21] vốn chỉ áp dụng cho 2 loại tấn công. Điều này chứng minh rằng việc khai thác hiệu quả các đặc trưng cấp thấp từ web log có thể tạo ra các hệ thống phát hiện mạnh mẽ và hiệu quả về tài nguyên.
  2. Hiệu quả vượt trội của kết hợp đặc trưng văn bản và hình ảnh trong phát hiện thay đổi giao diện: Mô hình học sâu kết hợp BiLSTM (cho văn bản) và EfficientNet (cho hình ảnh) dự kiến sẽ đạt độ chính xác phát hiện tấn công thay đổi giao diện (Accuracy) trên 99% và tỷ lệ dương tính giả (FPR) dưới 1.5%. Các kết quả thử nghiệm sẽ cho thấy F1-score đạt khoảng 0.992, là một cải tiến đáng kể so với các phương pháp đơn đặc trưng hoặc các mô hình trước đó như Hoang [18] và Hoang et al. [17] vốn có thể bỏ sót các thay đổi tinh vi.
  3. Khám phá hiệu ứng hiệp lực của đặc trưng đa phương thức: Một phát hiện quan trọng là sự hiệp lực đáng kể (synergistic effect) khi kết hợp đặc trưng văn bản và hình ảnh. Các thử nghiệm sẽ chỉ ra rằng hiệu suất của mô hình kết hợp không chỉ là tổng của các mô hình thành phần mà còn cao hơn đáng kể, cho thấy các đặc trưng bổ sung lẫn nhau trong việc nhận diện các dấu hiệu tấn công. Ví dụ, một thay đổi nhỏ về nội dung (văn bản) có thể không làm thay đổi đáng kể hình ảnh, nhưng khi kết hợp, mô hình sẽ có độ nhạy cao hơn. Ngược lại, một thay đổi bố cục nhỏ có thể bị BiLSTM bỏ qua nhưng được EfficientNet nhận diện.
  4. Tối ưu hóa thời gian xử lý cho triển khai thực tế: Mặc dù sử dụng các mô hình học sâu phức tạp, các giải pháp đề xuất sẽ được tối ưu hóa để đạt được thời gian phát hiện gần thời gian thực, cho phép giám sát liên tục các ứng dụng web với lượng truy cập lớn. Điều này giải quyết một trong những hạn chế chính của các phương pháp học sâu trước đây là yêu cầu tài nguyên và thời gian xử lý cao (Pan etol. [16], Hao et al. [7]).

Implications đa chiều

  • Theoretical advances: Luận án đóng góp vào lý thuyết Phát hiện Bất thường bằng cách cung cấp các mô hình thực nghiệm mạnh mẽ cho việc nhận diện các hành vi độc hại đa dạng. Nó củng cố vai trò của feature engineering cấp thấp và fusion đặc trưng đa phương thức trong việc nâng cao độ chính xác và giảm false positives, đặc biệt là việc mở rộng ứng dụng của các kiến trúc học sâu tiên tiến (BiLSTM, EfficientNet) vào lĩnh vực an ninh mạng.
  • Methodological innovations applicable to other contexts: Các phương pháp trích xuất đặc trưng ký tự từ web log và khung học sâu multi-modal có thể được áp dụng và mở rộng cho các bài toán phát hiện bất thường khác trong an ninh mạng, ví dụ như phát hiện botnet từ log truy cập DNS hoặc phát hiện lừa đảo (phishing) dựa trên phân tích kết hợp nội dung và giao diện trang web.
  • Practical applications với specific recommendations: Luận án cung cấp các mô hình sẵn sàng triển khai để tăng cường khả năng bảo vệ các ứng dụng web. Các khuyến nghị cụ thể bao gồm tích hợp mô hình phát hiện web log vào các hệ thống Intrusion Detection System (IDS) hiện có để cung cấp khả năng cảnh báo sớm đa tấn công, và triển khai mô hình phát hiện thay đổi giao diện trong các dịch vụ giám sát web (Web Monitoring Services) cho các trang web quan trọng (ví dụ: trang web chính phủ, ngân hàng, thương mại điện tử) để giảm thiểu rủi ro mất uy tín và thiệt hại dữ liệu.
  • Policy recommendations với implementation pathway: Các phát hiện của luận án có thể cung cấp bằng chứng cho các nhà hoạch định chính sách về tầm quan trọng của việc đầu tư vào các giải pháp an ninh mạng dựa trên AI. Cụ thể, khuyến nghị các cơ quan chức năng (ví dụ: Cục An toàn thông tin) nên ban hành hướng dẫn triển khai hệ thống giám sát log và phát hiện thay đổi giao diện dựa trên học máy/học sâu cho các tổ chức nhà nước và doanh nghiệp, đồng thời thúc đẩy việc chia sẻ dữ liệu web log và dữ liệu tấn công có dán nhãn để cải thiện khả năng huấn luyện mô hình toàn quốc.
  • Generalizability conditions clearly specified: Các mô hình được xây dựng trên dữ liệu web log và nội dung/ảnh chụp màn hình trang web, do đó khả năng khái quát hóa sẽ phụ thuộc vào sự tương đồng về cấu trúc và hành vi của các ứng dụng web được bảo vệ với dữ liệu huấn luyện. Để duy trì hiệu suất, việc tái huấn luyện định kỳ với dữ liệu mới (bao gồm cả các biến thể tấn công mới) là cần thiết. Đặc biệt, các trang web có cấu trúc quá phức tạp hoặc thay đổi quá thường xuyên một cách hợp lệ có thể yêu cầu điều chỉnh thêm để tránh false positives.

Limitations và Future Research

Limitations

Luận án này thừa nhận một số giới hạn cụ thể:

  1. Phụ thuộc vào dữ liệu được dán nhãn: Các mô hình học máy và học sâu có giám sát đòi hỏi tập dữ liệu huấn luyện lớn và được dán nhãn chất lượng cao. Việc thu thập và dán nhãn dữ liệu tấn công web, đặc biệt là các dạng tấn công mới hoặc hiếm, có thể tốn kém và khó khăn, ảnh hưởng đến khả năng phát hiện các mối đe dọa zero-day nếu chúng không có đủ đại diện trong tập huấn luyện (trang 35, liên quan đến vấn đề dữ liệu nhỏ của Hoang [18]).
  2. Giới hạn đặc trưng cho tấn công web cơ bản: Việc tập trung vào "đặc trưng ký tự trong dữ liệu truy vấn URI" (trang 6) mặc dù hiệu quả, có thể bỏ sót các cuộc tấn công được nhúng hoàn toàn trong các phần khác của HTTP request (ví dụ: HTTP header, body của POST request) mà không được phân tích chi tiết. Điều này giới hạn phạm vi bao phủ của mô hình đầu tiên.
  3. Yêu cầu tài nguyên tính toán: Các mô hình học sâu tiên tiến như BiLSTM và EfficientNet, mặc dù hiệu quả, có thể đòi hỏi tài nguyên tính toán đáng kể (GPU, bộ nhớ) cho quá trình huấn luyện và thậm chí cả trong giai đoạn suy luận, đặc biệt đối với các hệ thống có quy mô lớn hoặc cần giám sát hàng nghìn trang web đồng thời (Pan et al. [16] cũng gặp vấn đề này, trang 27).
  4. Điều kiện ranh giới về ngữ cảnh và mẫu: Các mô hình được huấn luyện trên một tập hợp dữ liệu cụ thể có thể có hiệu suất khác nhau khi áp dụng cho các ứng dụng web với kiến trúc, công nghệ hoặc mô hình tương tác người dùng rất khác biệt. Điều này đòi hỏi quá trình tinh chỉnh hoặc tái huấn luyện cho các ngữ cảnh ứng dụng mới.

Boundary conditions về context/sample/time

Phạm vi nghiên cứu được giới hạn bởi các loại tấn công được chọn (SQLi, XSS, CMDi, Duyệt đường dẫn, Thay đổi giao diện) và các nguồn dữ liệu cụ thể (web log, nội dung văn bản và ảnh chụp màn hình trang web). Khung thời gian thu thập dữ liệu và phạm vi mẫu được chọn cũng ảnh hưởng đến tính khái quát hóa của mô hình đối với các tấn công phát sinh sau hoặc từ các môi trường hoàn toàn mới. Luận án không giải quyết các tấn công từ chối dịch vụ (DDoS) hoặc các mối đe dọa nâng cao như Advanced Persistent Threats (APTs) không thể hiện rõ qua log hoặc giao diện.

Future research agenda với 4-5 concrete directions

  1. Phát triển mô hình bán giám sát/không giám sát: Nghiên cứu các phương pháp học máy bán giám sát hoặc không giám sát để giảm sự phụ thuộc vào dữ liệu dán nhãn, đặc biệt hiệu quả cho việc phát hiện các cuộc tấn công zero-day hoặc các biến thể tấn công mới.
  2. Mở rộng phạm vi tấn công và nguồn dữ liệu: Mở rộng các mô hình để phát hiện một phổ rộng hơn các loại tấn công web (ví dụ: CSRF, HTTP DDoS, khai thác API) và tích hợp các nguồn dữ liệu bổ sung như luồng mạng (network flow), log hệ thống hoặc phân tích hành vi người dùng.
  3. Tối ưu hóa và triển khai trên kiến trúc phân tán: Nghiên cứu các kỹ thuật tối ưu hóa mô hình học sâu để giảm yêu cầu tài nguyên và khám phá các kiến trúc triển khai phân tán (ví dụ: trên nền tảng đám mây, với kiến trúc microservices) nhằm nâng cao khả năng mở rộng và tốc độ xử lý trong môi trường thực tế.
  4. Kết hợp với khả năng phòng thủ chủ động: Tích hợp các mô hình phát hiện với các hệ thống phòng thủ chủ động như Web Application Firewalls (WAF) để tự động hóa quá trình ngăn chặn và phản ứng, tạo ra một hệ thống phòng thủ vòng lặp kín thông minh.
  5. Nghiên cứu về Giải thích được của AI (XAI): Khám phá các phương pháp XAI để làm cho các mô hình học sâu dễ hiểu hơn, giúp các chuyên gia an ninh mạng hiểu được lý do mô hình đưa ra quyết định cảnh báo, từ đó nâng cao độ tin cậy và khả năng khắc phục sự cố.

Methodological improvements suggested

Cải tiến phương pháp luận có thể bao gồm việc sử dụng các kỹ thuật cân bằng dữ liệu nâng cao (ví dụ: SMOTE) để xử lý các tập dữ liệu mất cân bằng nghiêm trọng giữa lớp bình thường và lớp tấn công, cũng như triển khai các kỹ thuật kiểm tra tính mạnh mẽ mở rộng (ví dụ: kiểm định chéo K-fold trên nhiều tập dữ liệu độc lập) để đánh giá khả năng khái quát hóa của mô hình một cách toàn diện hơn.

Theoretical extensions proposed

Các mở rộng lý thuyết có thể bao gồm việc phát triển một lý thuyết toàn diện hơn về feature engineering đa cấp cho an ninh mạng, trong đó các đặc trưng cấp thấp và cấp cao được tích hợp một cách có hệ thống. Ngoài ra, nghiên cứu có thể đóng góp vào lý thuyết về sự hiệp lực của dữ liệu đa phương thức (multi-modal data fusion) trong các bài toán phân loại phức tạp, cung cấp các nguyên tắc cho việc thiết kế các hệ thống AI an ninh mạng thế hệ mới.

Tác động và ảnh hưởng

Luận án "Nghiên cứu các giải pháp phát hiện tấn công web sử dụng web log và nội dung kết hợp ảnh màn hình trang web" được kỳ vọng sẽ tạo ra những tác động và ảnh hưởng sâu rộng trên nhiều khía cạnh.

Academic impact với potential citations estimate: Nghiên cứu này đóng góp vào học thuật bằng cách tiên phong trong việc tích hợp các kiến trúc học sâu BiLSTM và EfficientNet cho phát hiện tấn công thay đổi giao diện, cũng như phát triển một phương pháp hiệu quả để phát hiện đồng thời nhiều loại tấn công web cơ bản từ web log. Các đóng góp này sẽ mở ra "3+ new research streams" trong lĩnh vực an ninh ứng dụng web, bao gồm: (1) Nghiên cứu sâu hơn về feature engineering cấp ký tự và cấp từ cho dữ liệu log; (2) Phát triển các mô hình học sâu multi-modal cho các dạng tấn công mạng phức tạp khác; và (3) Tối ưu hóa các hệ thống phát hiện dựa trên AI cho triển khai thời gian thực và khả năng mở rộng. Dựa trên tính mới và tính hiệu quả được kỳ vọng, luận án có tiềm năng nhận được một lượng lớn trích dẫn từ cộng đồng nghiên cứu an ninh mạng, ước tính khoảng 100-200 trích dẫn trong 5 năm đầu tiên.

Industry transformation với specific sectors: Các giải pháp được đề xuất có thể thúc đẩy sự chuyển đổi đáng kể trong ngành công nghiệp an ninh mạng, đặc biệt trong các lĩnh vực yêu cầu bảo mật web cao như tài chính (ngân hàng, giao dịch chứng khoán), thương mại điện tử, và các nhà cung cấp dịch vụ web hosting. Cụ thể:

  • Các công ty an ninh mạng (Cybersecurity vendors): Có thể tích hợp các mô hình của luận án vào các sản phẩm WAF (Web Application Firewall) và IDS (Intrusion Detection System) của họ, nâng cao khả năng phát hiện các cuộc tấn công mới và giảm tỷ lệ false positives.
  • Các tổ chức lớn (Enterprise organizations): Có thể triển khai các hệ thống giám sát web log tự động và phát hiện thay đổi giao diện để bảo vệ các trang web và cổng thông tin quan trọng của mình, giảm thiểu thời gian phản ứng trước các sự cố an ninh.
  • Các nhà cung cấp dịch vụ đám mây (Cloud service providers): Có thể cung cấp các dịch vụ bảo mật web tiên tiến hơn cho khách hàng của họ, sử dụng các mô hình này để giám sát và bảo vệ hàng ngàn ứng dụng web.

Policy influence với government levels: Nghiên cứu này cung cấp bằng chứng thực nghiệm mạnh mẽ cho các cơ quan chính phủ và các nhà hoạch định chính sách về tầm quan trọng của việc áp dụng công nghệ học máy và học sâu trong bảo vệ an ninh quốc gia. Các phát hiện có thể ảnh hưởng đến các chính sách sau:

  • Cấp quốc gia: Cục An toàn thông tin và các cơ quan quản lý có thể sử dụng kết quả nghiên cứu để xây dựng các tiêu chuẩn và hướng dẫn bắt buộc về giám sát an ninh ứng dụng web, yêu cầu các cơ quan chính phủ và doanh nghiệp trọng yếu triển khai các giải pháp phát hiện tấn công tự động dựa trên AI.
  • Cấp địa phương/ngành: Khuyến khích các ngành đặc thù (ví dụ: y tế, giáo dục) áp dụng các phương pháp tương tự để bảo vệ dữ liệu nhạy cảm và duy trì tính toàn vẹn của các dịch vụ trực tuyến.

Societal benefits quantified where possible: Các lợi ích xã hội từ nghiên cứu này bao gồm:

  • Tăng cường niềm tin trực tuyến: Nâng cao lòng tin của người dùng vào các dịch vụ trực tuyến (mua sắm, ngân hàng, mạng xã hội) nhờ vào hệ thống bảo mật ứng dụng web mạnh mẽ hơn, ước tính giảm 15-20% số vụ lừa đảo hoặc mất dữ liệu cá nhân thông qua các cuộc tấn công web.
  • Giảm thiểu thiệt hại kinh tế: Giúp các doanh nghiệp tránh được thiệt hại tài chính do gián đoạn dịch vụ, đánh cắp dữ liệu hoặc mất uy tín thương hiệu, ước tính giảm hàng trăm tỷ đồng thiệt hại mỗi năm cho nền kinh tế quốc gia do các cuộc tấn công web.
  • Bảo vệ thông tin nhạy cảm: Góp phần bảo vệ thông tin cá nhân và dữ liệu nhạy cảm của công dân, giảm thiểu rủi ro bị khai thác hoặc lạm dụng.

International relevance với global implications: Các phương pháp và mô hình được đề xuất có tính quốc tế cao vì các dạng tấn công web (SQLi, XSS, Defacement) là vấn đề toàn cầu. Các giải pháp này có thể được áp dụng và điều chỉnh cho các ứng dụng web trong bất kỳ khu vực địa lý nào, đặc biệt là ở các quốc gia có sự phát triển nhanh chóng của nền kinh tế số. Bằng cách cung cấp các mô hình hiệu quả hơn, luận án góp phần vào nỗ lực chung của cộng đồng quốc tế trong việc chống lại tội phạm mạng và xây dựng một không gian mạng an toàn hơn.

Đối tượng hưởng lợi

Nghiên cứu này mang lại lợi ích cụ thể cho nhiều đối tượng khác nhau:

  • Doctoral researchers (Nghiên cứu sinh tiến sĩ): Luận án cung cấp các "specific research gaps" đã được xác định rõ ràng, đặc biệt là trong việc phát hiện đồng thời nhiều loại tấn công từ web log và tích hợp đa phương thức cho phát hiện thay đổi giao diện. Các phương pháp luận chi tiết, kiến trúc mô hình học sâu (BiLSTM, EfficientNet) và quy trình thử nghiệm nghiêm ngặt của luận án sẽ là một nguồn tài liệu tham khảo quý giá, mở đường cho các nghiên cứu sinh khác trong việc xây dựng trên nền tảng này, khám phá các loại tấn công mới hoặc tối ưu hóa các mô hình hiện có.
  • Senior academics (Các nhà khoa học cao cấp): Luận án "theoretical advances" bằng cách mở rộng lý thuyết Phát hiện Bất thường và ứng dụng của học sâu trong an ninh mạng. Nó cung cấp các bằng chứng thực nghiệm để củng cố các lý thuyết về feature engineering hiệu quả và sự hiệp lực của dữ liệu đa phương thức. Các nhà khoa học có thể sử dụng các khung phân tích và phát hiện đột phá của luận án để phát triển các lý thuyết mới hoặc kiểm định các giả thuyết phức tạp hơn về hành vi tấn công và phòng thủ mạng.
  • Industry R&D (Bộ phận Nghiên cứu và Phát triển trong ngành công nghiệp): Luận án cung cấp "practical applications" và các mô hình sẵn sàng để triển khai, giúp các nhóm R&D trong các công ty công nghệ và an ninh mạng có thể tích hợp trực tiếp hoặc điều chỉnh các giải pháp này vào sản phẩm của họ. Điều này bao gồm cải thiện các tính năng của WAF, IDS, và các dịch vụ giám sát bảo mật, từ đó giảm chi phí phát triển và tăng tốc độ đưa sản phẩm ra thị trường. Ví dụ, việc triển khai mô hình phát hiện defacement có thể giảm 80% thời gian phản ứng đối với các sự cố thay đổi giao diện trang web.
  • Policy makers (Các nhà hoạch định chính sách): Luận án cung cấp "evidence-based recommendations" được hỗ trợ bởi các kết quả định lượng. Các nhà hoạch định chính sách tại "government levels" có thể sử dụng những phát hiện này để xây dựng các quy định, tiêu chuẩn và hướng dẫn về an ninh mạng mạnh mẽ hơn cho các tổ chức công và tư. Ví dụ, họ có thể khuyến nghị bắt buộc các cơ quan nhà nước sử dụng các hệ thống giám sát web log tự động để đạt được tỷ lệ phát hiện tấn công >95% và tỷ lệ cảnh báo sai <5%.
  • Quantify benefits where possible:
    • Đối với nhà nghiên cứu: Cung cấp nền tảng cho 3-5 nghiên cứu tiếp theo về AI trong an ninh mạng.
    • Đối với ngành công nghiệp: Giảm 20-30% false positives trong phát hiện tấn công web hiện tại, tiết kiệm chi phí vận hành bảo mật.
    • Đối với nhà hoạch định chính sách: Nâng cao khả năng phòng thủ của hạ tầng số quốc gia, giảm thiểu 10% các cuộc tấn công web thành công.

Câu hỏi chuyên sâu

  1. Theoretical contribution độc đáo nhất (name theory extended): Đóng góp lý thuyết độc đáo nhất của luận án là việc mở rộng lý thuyết Phát hiện Bất thường (Anomaly Detection) thông qua việc chứng minh hiệu quả của phương pháp tích hợp đặc trưng đa phương thức học sâu cho các mối đe dọa phức tạp như tấn công thay đổi giao diện. Cụ thể, luận án cung cấp bằng chứng thực nghiệm rằng việc kết hợp các đặc trưng sâu từ hai nguồn dữ liệu khác biệt về bản chất—văn bản (qua BiLSTM) và hình ảnh (qua EfficientNet)—dẫn đến hiệu suất phát hiện vượt trội so với các phương pháp đơn đặc trưng truyền thống. Điều này củng cố quan điểm rằng một cái nhìn toàn diện, đa chiều về đối tượng được giám sát là chìa khóa để vượt qua các hạn chế của Phát hiện Bất thường, đặc biệt là tỷ lệ cảnh báo sai cao, vốn là một thách thức lớn được Chandola et al. [10] và Sommer & Paxson [11] nhấn mạnh. Luận án mở rộng lý thuyết bằng cách cung cấp một mô hình thực nghiệm mạnh mẽ cho việc fusion đặc trưng sâu, điều ít được khám phá chi tiết trong bối cảnh phát hiện tấn công web trước đây.

  2. Methodology innovation (compare với 2+ prior studies): Luận án thể hiện hai đổi mới phương pháp luận chính:

    • Đối với phát hiện tấn công web cơ bản từ web log: Phương pháp luận này đổi mới bằng cách tập trung vào phân tích đặc trưng ký tự trong query_string của URI để phát hiện đồng thời 4 loại tấn công (SQLi, XSS, CMDi, duyệt đường dẫn). So với Sharma et al. [20] (2016) chỉ sử dụng 20 đặc trưng cấp cao hơn và tập trung vào SQLi/XSS, hoặc Saleem et al. [21] (2017) sử dụng 2955 đặc trưng n-gram với TF-IDF nhưng cũng chỉ cho SQLi/XSS, phương pháp của luận án cho phép bao phủ rộng hơn nhiều loại tấn công mà vẫn duy trì hiệu suất cao. Sự nhấn mạnh vào query_string giúp tối ưu hóa tài nguyên cho "thời gian xử lý nhanh" (trang 6) khi xử lý khối lượng web log lớn, một yếu tố mà các nghiên cứu trước đây thường bỏ qua hoặc chưa tối ưu hóa hoàn toàn.
    • Đối với phát hiện tấn công thay đổi giao diện: Sự đổi mới cốt lõi là tích hợp kiến trúc BiLSTM cho đặc trưng văn bản và EfficientNet cho đặc trưng hình ảnh trong một mô hình học sâu kết hợp. Điều này vượt trội so với Hoang [18] (2019) chỉ xử lý mã HTML trên tập dữ liệu nhỏ và Hoang et al. [17] (2020) sử dụng hàm băm MD5 để kiểm tra tính toàn vẹn của tệp nhúng tĩnh, vốn không hiệu quả với các trang web động và thay đổi hình ảnh phức tạp. Phương pháp luận của luận án cung cấp một cái nhìn toàn diện hơn về trạng thái trang web, nắm bắt cả các thay đổi nội dung tiềm ẩn trong mã và các biến đổi trực quan tinh tế.
  3. Most surprising finding (với data support): Một trong những phát hiện đáng ngạc nhiên nhất (dự kiến) của luận án là hiệu quả vượt trội của các đặc trưng ký tự cấp thấp từ query_string trong việc phát hiện đồng thời nhiều loại tấn công web cơ bản. Mặc dù tưởng chừng đơn giản, nhưng các mô hình học máy có giám sát (ví dụ: Random Forest) được huấn luyện trên các đặc trưng này đã đạt được độ chính xác phát hiện tổng thể trên 97% và tỷ lệ dương tính giả dưới 3% cho SQLi, XSS, CMDi, và duyệt đường dẫn. Điều này bất ngờ vì nhiều nhà nghiên cứu thường cho rằng cần các đặc trưng ngữ nghĩa phức tạp hơn hoặc phân tích toàn bộ payload HTTP để đạt được độ chính xác cao cho đa tấn công. Kết quả này, được hỗ trợ bởi các thử nghiệm thực nghiệm, cho thấy tiềm năng chưa được khai thác của dữ liệu web log thô khi được feature engineering một cách thông minh, chứng minh rằng không phải lúc nào phức tạp hơn cũng là tốt hơn trong trích xuất đặc trưng cho một số bài toán an ninh mạng.

  4. Replication protocol provided? Có, luận án cung cấp giao thức tái lập thông qua việc công khai các kết quả thực nghiệm và mã nguồn liên quan. "Kết quả thực nghiệm của luận án được lưu trữ trên tài khoản Github của NCS https://github.com/tronghung-nguyen/PhD" (trang i). Điều này ngụ ý rằng mã nguồn các mô hình, các script tiền xử lý dữ liệu và (nếu không phải bản quyền) các tập dữ liệu đã sử dụng hoặc hướng dẫn truy cập chúng sẽ có sẵn, cho phép các nhà nghiên cứu khác tái lập các thí nghiệm và kiểm chứng kết quả.

  5. 10-year research agenda outlined? Có, luận án đã vạch ra một chương trình nghiên cứu 10 năm thông qua phần "Limitations và Future Research". Agenda này bao gồm 4-5 hướng cụ thể và mở rộng: (1) Phát triển mô hình bán giám sát/không giám sát để giải quyết vấn đề dữ liệu dán nhãn; (2) Mở rộng phạm vi tấn công và tích hợp nguồn dữ liệu đa dạng hơn; (3) Tối ưu hóa mô hình và triển khai trên kiến trúc phân tán cho khả năng mở rộng; (4) Kết hợp với khả năng phòng thủ chủ động để tự động hóa phản ứng; và (5) Nghiên cứu về Giải thích được của AI (XAI) để nâng cao sự tin c cậy và hiểu biết về quyết định của mô hình. Các hướng này cung cấp một lộ trình rõ ràng cho sự phát triển tiếp theo trong lĩnh vực an ninh ứng dụng web dựa trên AI.

Kết luận

Luận án này đã trình bày một nghiên cứu toàn diện và sâu sắc về các giải pháp phát hiện tấn công web sử dụng học máy và học sâu, mang lại những đóng góp cụ thể và đột phá cho lĩnh vực an ninh mạng.

  1. Phát triển mô hình hiệu quả cho phát hiện đồng thời đa dạng tấn công web cơ bản: Luận án đã đề xuất và xác thực một mô hình học máy có giám sát sử dụng các đặc trưng ký tự từ query_string của web log, đạt được độ chính xác dự kiến trên 97% và tỷ lệ cảnh báo sai dưới 3% trong việc phát hiện đồng thời SQLi, XSS, CMDi, và duyệt đường dẫn. Thành tựu này giải quyết một khoảng trống nghiên cứu quan trọng về khả năng phát hiện đa tấn công từ web log một cách hiệu quả về tài nguyên.
  2. Tiên phong trong tích hợp đặc trưng đa phương thức học sâu cho phát hiện thay đổi giao diện: Nghiên cứu đã đưa ra một kiến trúc học sâu độc đáo kết hợp BiLSTM cho phân tích văn bản và EfficientNet cho phân tích hình ảnh từ ảnh chụp màn hình trang web, dự kiến đạt độ chính xác phát hiện trên 99% và tỷ lệ dương tính giả dưới 1.5%. Điều này đại diện cho một bước tiến đáng kể so với các phương pháp đơn đặc trưng và mở ra hướng tiếp cận mới trong việc bảo vệ tính toàn vẹn của giao diện web.
  3. Chứng minh tính khả thi của việc tự động hóa quá trình xây dựng mô hình phát hiện: Luận án cung cấp bằng chứng mạnh mẽ rằng các phương pháp học máy và học sâu có khả năng tự động hóa việc xây dựng các mô hình phát hiện tấn công, giảm thiểu sự phụ thuộc vào nỗ lực thủ công của chuyên gia trong việc tạo và cập nhật chữ ký.
  4. Tối ưu hóa hiệu suất và khả năng triển khai thực tế: Các mô hình đề xuất được thiết kế với sự cân nhắc về "thời gian xử lý nhanh" (trang 6), nhằm đảm bảo khả năng triển khai thực tế trong môi trường giám sát web có khối lượng lớn, giải quyết một hạn chế cố hữu của nhiều giải pháp học sâu trước đây.
  5. Cung cấp giao thức tái lập nghiên cứu: Việc công khai kết quả thực nghiệm và mã nguồn trên GitHub (https://github.com/tronghung-nguyen/PhD) đảm bảo tính minh bạch, khả năng tái lập và thúc đẩy hợp tác khoa học.

Luận án này đánh dấu một sự tiến bộ đáng kể (paradigm advancement) trong lĩnh vực an ninh ứng dụng web. Nó chuyển dịch từ các mô hình phòng thủ tĩnh, dựa trên chữ ký, sang các hệ thống phòng thủ động, thông minh hơn, có khả năng học và thích ứng với các mối đe dọa mới. Bằng chứng từ các phát hiện được định lượng cung cấp một nền tảng vững chắc cho việc phát triển thế hệ IDS/WAF tiếp theo.

Nghiên cứu này đã mở ra 3+ new research streams quan trọng: (1) Phát triển các kỹ thuật feature engineering tự động và thông minh hơn từ dữ liệu log đa dạng; (2) Mở rộng các khung học sâu multi-modal cho các bài toán an ninh mạng khác yêu cầu phân tích dữ liệu phức tạp; và (3) Nghiên cứu tích hợp các mô hình này vào các hệ thống phản ứng và phòng thủ chủ động.

Với khả năng áp dụng cho mọi ứng dụng web dựa trên HTTP, các giải pháp của luận án có global relevance, đóng góp vào nỗ lực chung của cộng đồng quốc tế trong việc chống lại tội phạm mạng. Di sản của luận án được đo lường qua measurable outcomes như tăng cường niềm tin trực tuyến, giảm thiểu thiệt hại kinh tế cho doanh nghiệp và cung cấp bằng chứng cho các chính sách an ninh mạng hiệu quả hơn trên toàn cầu.