Luận án phát hiện tấn công web sử dụng web log - Nguyễn Trọng Hưng
Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Hệ thống thông tin
Ẩn danh
Luận án tiến sĩ
Năm xuất bản
Số trang
126
Thời gian đọc
19 phút
Lượt xem
1
Lượt tải
0
Phí lưu trữ
40 Point
Mục lục chi tiết
LỜI CAM ĐOAN
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
MỞ ĐẦU
1. CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN TẤN CÔNG WEB
1.1. Khái quát về web và dịch vụ web
1.2. Giao thức HTTP
1.3. Kiến trúc ứng dụng web và các thành phần
1.4. Tổng quan về tấn công web
1.4.1. Giới thiệu về tấn công web
1.4.2. Top 10 nguy cơ và lỗ hổng bảo mật web theo OWASP
1.4.3. Các dạng tấn công web thường gặp
1.5. Phát hiện tấn công web
1.5.1. Khái quát về phát hiện tấn công web
1.5.2. Các giải pháp và công cụ phát hiện tấn công web
1.5.3. Các kỹ thuật phát hiện tấn công web
1.6. Hướng nghiên cứu của luận án
1.6.1. Ưu điểm và nhược điểm của các giải pháp phát hiện tấn công web
1.6.2. Các vấn đề giải quyết trong luận án
1.6.3. Kiến trúc mô hình tổng thể cho các hướng nghiên cứu của luận án
1.6.4. Một số thuật toán học máy và học sâu sử dụng trong luận án.
1.6.4.1. Cây quyết định
1.6.4.2. Rừng ngẫu nhiên
1.7. Kết luận chương
2. CHƯƠNG 2: PHÁT HIỆN TẤN CÔNG WEB DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG
2.1. Khái quát về web log
2.1.1. Giới thiệu về web log
2.1.2. Một số dạng web log
2.2. Phát hiện tấn công web dựa trên học máy
2.3. Xây dựng và thử nghiệm mô hình phát hiện tấn công web dựa trên học máy sử dụng web log
2.3.1. Giới thiệu mô hình
2.3.2. Tiền xử lý dữ liệu
2.3.3. Huấn luyện và phát hiện
2.3.4. Tập dữ liệu thử nghiệm
2.3.5. Thử nghiệm và kết quả
2.4. Kết luận chương
3. CHƯƠNG 3: PHÁT HIỆN TẤN CÔNG THAY ĐỔI GIAO DIỆN TRANG WEB
3.1. Khái quát về tấn công thay đổi giao diện và phòng chống
3.1.1. Phòng chống tấn công thay đổi giao diện trang web
3.2. Phát hiện tấn công thay đổi giao diện
3.2.1. Thu thập bộ dữ liệu thử nghiệm
3.2.2. Phát hiện thay đổi giao diện sử dụng ảnh chụp màn hình trang web
3.2.2.1. Giới thiệu mô hình
3.2.2.2. Tiền xử lý dữ liệu và huấn luyện mô hình phát hiện
3.2.2.3. Tập dữ liệu thử nghiệm
3.2.2.4. Thử nghiệm và kết quả
3.2.3. Phát hiện tấn công thay đổi giao diện sử dụng nội dung văn bản
3.2.3.1. Giới thiệu mô hình
3.2.3.2. Tiền xử lý dữ liệu và huấn luyện mô hình phát hiện
3.2.3.3. Tập dữ liệu thử nghiệm
3.2.3.4. Thử nghiệm và kết quả
3.2.4. Phát hiện thay đổi giao diện sử dụng kết hợp nội dung văn bản và ảnh chụp màn hình trang web
3.2.4.1. Mô tả mô hình phát hiện
3.2.4.2. Tiền xử lý dữ liệu, huấn luyện và phát hiện
3.2.4.3. Tập dữ liệu thử nghiệm
3.2.4.4. Thử nghiệm và kết quả
3.3. Kết luận chương
DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ
TÀI LIỆU THAM KHẢO
Tóm tắt nội dung
I. Phát Hiện Tấn Công Web Bằng Web Log Hiệu Quả
Phát hiện tấn công web đang trở thành ưu tiên hàng đầu trong bảo mật hệ thống. Web log chứa thông tin quan trọng về mọi hoạt động trên ứng dụng web. Phân tích log analysis giúp phát hiện các mẫu tấn công bất thường. Intrusion detection system hiện đại kết hợp nhiều nguồn dữ liệu để tăng độ chính xác.
Các cuộc tấn công như SQL injection, XSS cross-site scripting và CSRF attack ngày càng tinh vi. Kẻ tấn công sử dụng nhiều kỹ thuật để che giấu dấu vết. Web application firewall đơn thuần không đủ để chống lại các mối đe dọa mới. Cần kết hợp nhiều phương pháp phát hiện khác nhau.
Mô hình phát hiện dựa trên học máy cho kết quả khả quan. Thuật toán phân tích hành vi người dùng qua web log. Security monitoring liên tục giúp phát hiện sớm các dấu hiệu bất thường. SIEM tích hợp dữ liệu từ nhiều nguồn để cảnh báo kịp thời. Anomaly detection xác định các hoạt động khác biệt so với baseline thông thường.
1.1. Tổng Quan Về Web Log Và Vai Trò
Web log ghi lại mọi yêu cầu HTTP đến máy chủ. Mỗi dòng log chứa thông tin về địa chỉ IP, thời gian, phương thức HTTP, URL và mã trạng thái. Dữ liệu này vô cùng giá trị cho phân tích bảo mật.
Các định dạng log phổ biến bao gồm Common Log Format và Combined Log Format. Apache, Nginx, IIS đều tạo ra web log với cấu trúc tương tự. Log analysis tools phân tích hàng triệu bản ghi mỗi ngày. Security monitoring dựa vào log để phát hiện các mẫu tấn công đã biết.
1.2. Các Loại Tấn Công Web Phổ Biến
SQL injection là kỹ thuật chèn mã SQL độc hại vào input. Kẻ tấn công khai thác lỗ hổng để truy cập trái phép cơ sở dữ liệu. XSS cross-site scripting cho phép thực thi JavaScript trên trình duyệt nạn nhân. CSRF attack lợi dụng phiên đăng nhập hợp lệ để thực hiện hành động trái phép.
Web application firewall lọc các request nguy hiểm dựa trên signature. Tuy nhiên, các cuộc tấn công zero-day vượt qua được WAF truyền thống. Intrusion detection system cần kết hợp nhiều phương pháp để phát hiện đầy đủ.
1.3. Học Máy Trong Phát Hiện Tấn Công
Thuật toán học máy phân loại traffic bình thường và bất thường. Cây quyết định và rừng ngẫu nhiên cho độ chính xác cao. Mô hình được huấn luyện trên tập dữ liệu lớn chứa cả tấn công và traffic hợp lệ.
Anomaly detection phát hiện các hành vi lệch khỏi baseline. SIEM tích hợp kết quả từ nhiều mô hình học máy. Log analysis tự động giảm thiểu công sức thủ công. Security monitoring real-time cảnh báo ngay khi phát hiện mối đe dọa.
II. Screenshot Analysis Phát Hiện Thay Đổi Giao Diện
Phát hiện thay đổi giao diện trang web là thách thức mới trong bảo mật. Kẻ tấn công có thể thay đổi nội dung hiển thị mà không để lại dấu vết trong web log. Screenshot analysis so sánh ảnh chụp màn hình để phát hiện sự khác biệt. Phương pháp này bổ sung cho log analysis truyền thống.
Các cuộc tấn công defacement thay đổi giao diện trang web hoàn toàn. Phishing attack tạo trang giả mạo với giao diện tương tự trang thật. Security monitoring cần kiểm tra cả nội dung hiển thị thực tế. Intrusion detection system kết hợp nhiều nguồn dữ liệu để phát hiện toàn diện.
Mô hình học sâu phân tích hình ảnh hiệu quả. Convolutional Neural Networks trích xuất đặc trưng từ screenshot. Anomaly detection so sánh với baseline để tìm sự khác biệt. Web application firewall không thể phát hiện loại tấn công này. SIEM cần tích hợp thêm screenshot analysis module.
2.1. Tấn Công Thay Đổi Giao Diện Web
Defacement attack thay đổi toàn bộ nội dung trang chủ. Kẻ tấn công khai thác lỗ hổng để upload file độc hại hoặc sửa đổi database. Phishing tạo trang giả mạo để đánh cắp thông tin đăng nhập.
Web log không ghi lại được thay đổi về mặt hiển thị. Security monitoring truyền thống bỏ sót loại tấn công này. Screenshot analysis định kỳ chụp màn hình để so sánh. Anomaly detection phát hiện sự khác biệt về layout, màu sắc, nội dung văn bản.
2.2. Kỹ Thuật Phân Tích Ảnh Màn Hình
Thu thập screenshot tự động theo lịch trình định sẵn. Tiền xử lý ảnh bao gồm resize, normalize và augmentation. Mô hình CNN trích xuất feature vector từ mỗi ảnh.
So sánh similarity score giữa ảnh hiện tại và baseline. Threshold được thiết lập để phân biệt thay đổi bình thường và bất thường. Log analysis kết hợp với screenshot analysis tăng độ tin cậy. SIEM tổng hợp cảnh báo từ cả hai nguồn.
2.3. Kết Hợp Nội Dung Văn Bản Và Hình Ảnh
Phân tích văn bản trích xuất từ HTML source code. Natural Language Processing phát hiện thay đổi về ngữ nghĩa. Screenshot analysis phát hiện thay đổi về mặt trực quan.
Mô hình kết hợp cho độ chính xác cao hơn từng phương pháp riêng lẻ. Feature fusion tích hợp đặc trưng từ cả text và image. Intrusion detection system đa phương thức phát hiện toàn diện hơn. Security monitoring hiệu quả với nhiều lớp phòng thủ.
III. Web Application Firewall Và Hệ Thống Phòng Thủ
Web application firewall là tuyến phòng thủ đầu tiên chống tấn công web. WAF lọc HTTP traffic dựa trên các rule và signature được định nghĩa trước. Bảo vệ khỏi SQL injection, XSS cross-site scripting và nhiều loại tấn công khác. Tuy nhiên, WAF truyền thống có hạn chế với zero-day attack.
Intrusion detection system giám sát traffic và phát hiện các mẫu bất thường. IDS hoạt động ở chế độ passive, không chặn traffic. Intrusion Prevention System tích cực chặn các request nguy hiểm. Security monitoring kết hợp WAF và IDS/IPS để bảo vệ toàn diện.
SIEM tập trung log từ nhiều nguồn khác nhau. Phân tích tương quan giữa các sự kiện để phát hiện tấn công phức tạp. Anomaly detection machine learning cải thiện khả năng phát hiện. Log analysis tự động giảm thiểu false positive. Web application firewall thế hệ mới tích hợp AI để học các mẫu tấn công mới.
3.1. Vai Trò Của WAF Trong Bảo Mật
Web application firewall kiểm tra mọi HTTP request trước khi đến ứng dụng. Rule-based filtering chặn các payload độc hại đã biết. Virtual patching bảo vệ lỗ hổng chưa được vá.
WAF chống SQL injection bằng cách kiểm tra input validation. XSS cross-site scripting bị phát hiện qua pattern matching. CSRF attack được ngăn chặn bởi token verification. Security monitoring qua WAF dashboard cung cấp visibility về traffic.
3.2. Intrusion Detection System Và IPS
IDS phân tích network traffic để tìm signature của tấn công. Signature-based detection hiệu quả với các mối đe dọa đã biết. Anomaly detection phát hiện hành vi lệch khỏi baseline bình thường.
IPS kết hợp khả năng phát hiện và chặn tự động. Inline deployment cho phép block traffic nguy hiểm real-time. Log analysis từ IDS/IPS cung cấp thông tin chi tiết về tấn công. SIEM tích hợp alerts từ nhiều IDS sensors.
3.3. SIEM Trung Tâm Giám Sát Bảo Mật
SIEM thu thập log từ WAF, IDS, firewall, web server và nhiều nguồn khác. Correlation engine phân tích mối liên hệ giữa các sự kiện. Real-time alerting cảnh báo ngay khi phát hiện mối đe dọa.
Log analysis tự động phân loại và ưu tiên các cảnh báo. Security monitoring dashboard hiển thị trực quan tình hình bảo mật. Anomaly detection machine learning cải thiện độ chính xác. Forensic analysis hỗ trợ điều tra sau sự cố.
IV. Log Analysis Kỹ Thuật Phân Tích Nhật Ký Web
Log analysis là nền tảng của security monitoring hiện đại. Web log chứa dữ liệu thô về mọi tương tác với ứng dụng. Parsing và normalization chuyển đổi log thành format có cấu trúc. Feature extraction trích xuất các thuộc tính quan trọng cho phân tích.
Intrusion detection system dựa vào log analysis để phát hiện tấn công. Pattern matching tìm kiếm các signature của SQL injection, XSS cross-site scripting. Statistical analysis phát hiện anomaly trong traffic pattern. Machine learning models phân loại request thành benign hoặc malicious.
SIEM platforms tự động hóa quy trình log analysis. Aggregation tổng hợp log từ nhiều server và ứng dụng. Correlation rules liên kết các sự kiện liên quan đến nhau. Anomaly detection algorithms học baseline behavior và cảnh báo deviation. Web application firewall sử dụng insights từ log analysis để cập nhật rules.
4.1. Cấu Trúc Và Nội Dung Web Log
Access log ghi lại IP address, timestamp, HTTP method, URL path, status code. Error log chứa thông tin về lỗi ứng dụng và server. Combined Log Format bao gồm thêm user agent và referrer.
Mỗi trường dữ liệu cung cấp thông tin hữu ích cho security monitoring. IP address giúp theo dõi nguồn tấn công. URL path và query string chứa payload của SQL injection hoặc XSS. Status code cho biết kết quả của request. Log analysis tools parse các trường này để phân tích.
4.2. Tiền Xử Lý Dữ Liệu Log
Parsing chuyển đổi raw log thành structured data. Regular expressions trích xuất các trường cần thiết. Normalization chuẩn hóa format từ nhiều nguồn khác nhau.
Feature engineering tạo ra các thuộc tính mới cho machine learning. URL length, number of parameters, special characters count là các feature quan trọng. Tokenization tách URL thành các components. Anomaly detection dựa vào các feature này để phân loại.
4.3. Machine Learning Cho Log Analysis
Supervised learning phân loại log thành attack và normal traffic. Decision trees, random forests, neural networks là các thuật toán phổ biến. Training data cần chứa cả benign và malicious samples.
Unsupervised learning phát hiện anomaly không cần labeled data. Clustering nhóm các request tương tự nhau. Outlier detection xác định các request bất thường. SIEM tích hợp các mô hình này để tăng độ chính xác phát hiện.
V. Anomaly Detection Phát Hiện Bất Thường Web
Anomaly detection phát hiện các hành vi lệch khỏi pattern bình thường. Phương pháp này hiệu quả với zero-day attacks chưa có signature. Baseline behavior được học từ dữ liệu lịch sử. Deviation đáng kể từ baseline kích hoạt cảnh báo.
Statistical methods sử dụng mean, standard deviation để định nghĩa normal range. Machine learning models học complex patterns trong data. Intrusion detection system kết hợp nhiều kỹ thuật anomaly detection. Security monitoring liên tục cập nhật baseline khi hành vi người dùng thay đổi.
Web application firewall thế hệ mới tích hợp anomaly detection. Log analysis cung cấp dữ liệu đầu vào cho các thuật toán. SIEM platform tổng hợp anomaly alerts từ nhiều nguồn. Time-series analysis phát hiện unusual spikes trong traffic. Behavioral analysis phát hiện account compromise qua thay đổi access patterns.
5.1. Các Phương Pháp Anomaly Detection
Statistical-based methods sử dụng threshold trên các metrics. Request rate vượt quá 3 standard deviations được coi là bất thường. Distribution-based methods so sánh với expected distribution.
Machine learning approaches học normal behavior từ training data. Autoencoders reconstruct normal traffic với low error. High reconstruction error indicates anomaly. Isolation Forest phân lập outliers hiệu quả. Security monitoring sử dụng ensemble của nhiều methods.
5.2. Baseline Behavior Và Adaptive Learning
Baseline được thiết lập từ historical data trong giai đoạn bình thường. Traffic patterns thay đổi theo giờ trong ngày, ngày trong tuần. Adaptive learning cập nhật baseline theo thời gian.
Concept drift xảy ra khi user behavior thay đổi dần. Model retraining định kỳ để duy trì accuracy. Anomaly detection cần balance giữa sensitivity và false positive rate. SIEM cho phép tuning threshold dựa trên risk tolerance.
5.3. Ứng Dụng Trong Phát Hiện Tấn Công
SQL injection tạo ra unusual patterns trong URL parameters. XSS cross-site scripting chứa JavaScript code trong input fields. CSRF attack có referrer không khớp với expected domain.
Anomaly detection phát hiện brute force qua spike trong failed login attempts. DDoS attacks tạo sudden increase trong request volume. Web application firewall sử dụng anomaly scores để quyết định block. Log analysis kết hợp với anomaly detection nâng cao detection rate.
VI. Security Monitoring Giám Sát Bảo Mật Toàn Diện
Security monitoring là quá trình giám sát liên tục các hệ thống và mạng. Mục tiêu phát hiện sớm các mối đe dọa và sự cố bảo mật. Real-time monitoring cung cấp visibility về tình hình bảo mật hiện tại. Historical analysis giúp hiểu xu hướng và patterns dài hạn.
SIEM platform là trung tâm của security monitoring. Log analysis từ web servers, databases, firewalls được tập trung tại đây. Correlation engine liên kết các events để phát hiện tấn công phức tạp. Alerting system thông báo cho security team khi có incident.
Web application firewall logs cung cấp thông tin về blocked requests. Intrusion detection system alerts chỉ ra các suspicious activities. Anomaly detection highlights deviations từ normal behavior. Dashboard visualization giúp security analysts nhanh chóng đánh giá tình hình. Automated response workflows giảm thời gian phản ứng với threats.
6.1. Kiến Trúc Hệ Thống Monitoring
Log collectors thu thập dữ liệu từ distributed sources. Agents được cài đặt trên web servers, application servers. Syslog protocol truyền log đến central SIEM.
Data pipeline xử lý và enrich log data. Parsing extracts structured information. Geo-IP lookup adds location context. Threat intelligence enrichment tags known malicious IPs. Security monitoring dashboard displays processed data real-time.
6.2. Alert Management Và Response
Alert rules định nghĩa conditions kích hoạt notifications. Severity levels prioritize alerts dựa trên impact. Alert aggregation giảm alert fatigue từ duplicate events.
Incident response workflows orchestrate các bước xử lý. Automated blocking qua web application firewall cho high-severity threats. Ticket creation trong ITSM system để track resolution. Log analysis hỗ trợ investigation và forensics.
6.3. Metrics Và Reporting
Key Performance Indicators đo lường hiệu quả security monitoring. Mean Time To Detect (MTTD) và Mean Time To Respond (MTTR) là metrics quan trọng. Attack volume trends cho thấy threat landscape.
Compliance reporting chứng minh adherence với security standards. Intrusion detection system effectiveness qua detection rate và false positive rate. Anomaly detection accuracy cải thiện qua tuning. SIEM dashboards cung cấp executive-level visibility.
Tải xuống file đầy đủ để xem toàn bộ nội dung
Tải đầy đủ (126 trang)Nội dung chính
Tổng quan về luận án
Luận án này trình bày một nghiên cứu đột phá trong lĩnh vực phát hiện tấn công web, tập trung vào việc phát triển các mô hình dựa trên học máy và học sâu để giải quyết các thách thức bảo mật ngày càng gia tăng trong kỷ nguyên số. Bối cảnh khoa học của nghiên cứu được đặt trong sự bùng nổ mạnh mẽ của các ứng dụng web, với hơn 5,3 tỷ người dùng internet và gần 2 tỷ trang web trên toàn cầu tính đến cuối năm 2022 (Petrosyan, 2023, trích từ trang 1 của luận án). Sự phát triển này song hành với sự gia tăng đáng báo động của các cuộc tấn công mạng, điển hình là 9 tỷ cuộc tấn công khai thác ứng dụng web và API trên toàn cầu chỉ trong nửa đầu năm 2022 (Akamai, 2022, trích từ trang 1 của luận án), tăng gấp ba lần so với cùng kỳ năm 2021. Tại Việt Nam, Cục An toàn thông tin ghi nhận 11.213 cuộc tấn công mạng vào năm 2022, trong đó có 1.524 cuộc tấn công thay đổi giao diện trang web (deface) và 5.759 cuộc tấn công phần mềm độc hại (malware) (trang 2). Tính tiên phong của nghiên cứu nằm ở việc chuyển dịch từ các phương pháp phát hiện dựa trên chữ ký truyền thống, vốn không hiệu quả với các cuộc tấn công mới, sang các kỹ thuật phát hiện bất thường sử dụng học máy và học sâu, có khả năng tự động hóa quá trình xây dựng mô hình phát hiện và nhận diện các mối đe dọa chưa từng biết.
Research Gap Specific: Các nghiên cứu hiện có về phát hiện tấn công web dựa trên bất thường vẫn còn tồn tại nhiều hạn chế. Cụ thể, đối với các dạng tấn công web cơ bản như SQLi, XSS, CMDi, và duyệt đường dẫn, "chưa có nhiều công trình sử dụng bộ dữ liệu từ web log và các nghiên cứu này thường chỉ thực hiện phát hiện được một hình thức tấn công trên một tập dữ liệu thử nghiệm cụ thể" (trang 4). Hơn nữa, "các đề xuất phát hiện tấn công web (SQLi, CMDi, XSS, duyệt đường dẫn) thường chỉ phát hiện được một hoặc hai loại tấn công phổ biến... chưa có nghiên cứu phát hiện đồng thời nhiều dạng tấn công web; một số đề xuất có quá trình xử lý dữ liệu tương đối phức tạp, hoặc hiệu suất phát hiện chưa cao (cụ thể là độ chính xác tổng thể chưa cao (khoảng 90-95% hoặc thấp hơn) và tỷ lệ phát hiện sai còn tương đối cao (khoảng 7-10% hoặc cao hơn))" (trang 35). Đối với tấn công thay đổi giao diện trang web, các đề xuất hiện tại thường "chỉ tập trung sử dụng một loại đặc trưng liên quan đến nội dung trang web mà chưa có sự kết hợp các loại đặc trưng điển hình, gồm nội dung và hình ảnh của của trang web bị tấn công thay đổi giao diện" (trang 4), dẫn đến "hiệu suất phát hiện còn tương đối thấp" và sử dụng "tập dữ liệu nhỏ" (trang 35). Luận án này hướng tới giải quyết trực tiếp những khoảng trống nghiên cứu này.
Research Questions and Hypotheses:
- RQ1: Làm thế nào để các mô hình học máy có giám sát có thể phát hiện đồng thời nhiều dạng tấn công web phổ biến (SQLi, XSS, CMDi, Duyệt đường dẫn) từ các đặc trưng ký tự trong
query_stringcủa web log với độ chính xác cao và tỷ lệ cảnh báo sai thấp?- H1: Một mô hình học máy có giám sát, được huấn luyện trên các đặc trưng ký tự từ
query_stringcủa web log, sẽ đạt được độ chính xác cao hơn (>95%) và tỷ lệ cảnh báo sai thấp hơn (<5%) trong việc phát hiện đồng thời SQLi, XSS, CMDi, và duyệt đường dẫn, vượt trội so với các phương pháp chỉ phát hiện một hoặc hai loại tấn công.
- H1: Một mô hình học máy có giám sát, được huấn luyện trên các đặc trưng ký tự từ
- RQ2: Liệu việc tích hợp các đặc trưng văn bản và hình ảnh chụp màn hình trang web trong một khung phân tích học sâu có thể nâng cao đáng kể hiệu suất phát hiện tấn công thay đổi giao diện trang web, đồng thời đảm bảo khả năng triển khai thực tế?
- H2: Sự kết hợp của kiến trúc học sâu BiLSTM cho đặc trưng văn bản và EfficientNet cho đặc trưng ảnh chụp màn hình trang web sẽ cải thiện độ chính xác phát hiện tấn công thay đổi giao diện lên trên 98% và giảm tỷ lệ cảnh báo sai xuống dưới 2%, vượt trội so với các mô hình chỉ sử dụng một loại đặc trưng.
Theoretical Framework: Luận án dựa trên khung lý thuyết Phát hiện Bất thường (Anomaly Detection), được định nghĩa là "vấn đề tìm ra các mẫu trong dữ liệu không phù hợp với hành vi mong muốn - the problem of finding patterns in data that do not conform to expected behavior" (Chandola et al. [10], Sommer & Paxson [11], trích từ trang 3 của luận án). Nghiên cứu áp dụng và mở rộng lý thuyết này thông qua các phương pháp Học máy có giám sát (Supervised Machine Learning) và Học sâu (Deep Learning). Các lý thuyết cụ thể được sử dụng bao gồm lý thuyết về cây quyết định (Decision Trees), rừng ngẫu nhiên (Random Forests), máy véc tơ hỗ trợ (Support Vector Machines - SVM), và đặc biệt là các kiến trúc học sâu như mạng nơ-ron tích chập (Convolutional Neural Networks - CNN), mạng nơ-ron hồi quy (Recurrent Neural Networks - RNN), Bidirectional Long Short-Term Memory (BiLSTM) cho xử lý chuỗi văn bản, và EfficientNet cho phân tích hình ảnh.
Đóng góp đột phá với Quantified Impact: Luận án mang lại hai đóng góp đột phá chính:
- Mô hình phát hiện đa dạng tấn công web từ web log: Đề xuất mô hình phát hiện đồng thời các dạng tấn công SQLi, XSS, CMDi, duyệt đường dẫn bằng cách phân tích các đặc trưng ký tự trong
query_stringcủa URI trích xuất từ web log, sử dụng các thuật toán học máy có giám sát. Mô hình này "cho độ chính xác cao, tỷ lệ cảnh báo sai thấp, thời gian xử lý nhanh, phù hợp bài toán giám sát một lượng web log rất lớn trong thực tế" (trang 6). Dự kiến sẽ đạt độ chính xác phát hiện tổng thể trên 97% và tỷ lệ dương tính giả dưới 3%, cải thiện đáng kể so với mức 90-95% độ chính xác và 7-10% FPR của các đề xuất trước đó (trang 35) và khả năng phát hiện đồng thời nhiều loại tấn công, không chỉ 1-2 loại. - Mô hình phát hiện tấn công thay đổi giao diện trang web dựa trên kết hợp đặc trưng học sâu: Đề xuất một kiến trúc học sâu độc đáo kết hợp BiLSTM để trích xuất đặc trưng văn bản và EfficientNet để trích xuất đặc trưng hình ảnh từ ảnh chụp màn hình trang web. Sự kết hợp này nhằm "nâng cao độ chính xác, giảm cảnh báo sai" (trang 5). Mục tiêu là đạt độ chính xác phát hiện trên 99% và giảm tỷ lệ dương tính giả xuống dưới 1.5%, vượt trội so với các mô hình đơn đặc trưng hoặc các phương pháp truyền thống như so sánh checksum, diff, hay cây DOM vốn kém hiệu quả với các trang web động (trang 31-32).
Scope và Significance: Đối tượng nghiên cứu của luận án là các dạng tấn công web, bao gồm SQLi, XSS, CMDi, duyệt đường dẫn và tấn công thay đổi giao diện trang web. Phạm vi nghiên cứu giới hạn trong việc phát triển và đánh giá các kỹ thuật phát hiện tấn công web sử dụng web log cho các tấn công cơ bản, và sử dụng kết hợp đặc trưng văn bản cùng ảnh màn hình trang web cho tấn công thay đổi giao diện (trang 5). Nghiên cứu này có ý nghĩa quan trọng trong việc tăng cường an ninh mạng cho các ứng dụng web, giảm thiểu tổn thất do tấn công, và cung cấp một phương pháp tự động hóa, hiệu quả hơn trong việc bảo vệ thông tin và hệ thống, giảm sự phụ thuộc vào nỗ lực thủ công của chuyên gia (trang 3).
Literature Review và Positioning
Phân tích tổng quan các công trình nghiên cứu trước đây cho thấy sự phân chia rõ ràng thành hai trường phái chính trong phát hiện tấn công web: phát hiện dựa trên chữ ký/tập luật và phát hiện dựa trên bất thường.
Synthesis của Major Streams:
- Phát hiện dựa trên chữ ký và tập luật: Các phương pháp này, như SQLCheck [42], OWASP ModSecurity Core Rule Set [53], SQL-IDS [63] của Al-Musawi et al. (2014), và XSS-GUARD [64] của Liu et al. (2009), sử dụng các quy tắc hoặc mẫu đã biết để nhận diện tấn công. Ưu điểm là "có khả năng phát hiện nhanh và chính xác các dạng tấn công đã biết" (trang 21). Chẳng hạn, SQL-IDS ban đầu cho "độ trễ thấp và phát hiện chính xác tất cả các tấn công SQLi với tỷ lệ cảnh báo sai là 0%" (trang 22). OWASP ModSecurity Core Rule Set được cập nhật thường xuyên bởi cộng đồng (trang 21).
- Phát hiện dựa trên bất thường (sử dụng học máy/học sâu): Đây là hướng tiếp cận đang nổi lên, dựa trên giả định rằng hành vi tấn công khác biệt so với hành vi bình thường. Các nghiên cứu tiêu biểu bao gồm AMNESIA [22] của Invernizzi et al. (2012), Swaddler [23] của Kim et al. (2015), CANDID [24] của Kruegel et al. (2009), Betarte et al. [14] (2013), Liang et al. [15] (2017), Pan et al. [16] (2018), Sharma et al. [20] (2016), Saleem et al. [21] (2017), và Hao et al. [7] (2020). Ưu điểm chính là "có tiềm năng phát hiện các loại tấn công, xâm nhập mới mà không yêu cầu biết trước thông tin về chúng" (trang 24).
- Tấn công web cơ bản: Sharma et al. [20] đã sử dụng 20 đặc trưng và thuật toán J48 đạt 94.5% độ chính xác cho SQLi và XSS. Saleem et al. [21] sử dụng 2955 đặc trưng n-gram với TF-IDF và cây quyết định đạt 98% độ chính xác cho SQLi và XSS trên tập dữ liệu tự thu thập gồm 20.000 bản ghi. Hao et al. [7] đề xuất mô hình BL-IDS sử dụng Bi-LSTM và word2vec cho URL đạt độ chính xác cao.
- Tấn công thay đổi giao diện: Kim et al. [27] (2009) sử dụng kỹ thuật 2-gram và khoảng cách cosin. Bartoli et al. [28] (2008) và Davanzo et al. [70] (2010) sử dụng lập trình Gen với 1466 đặc trưng. Hoang [18] (2019) sử dụng học máy truyền thống trên mã HTML đạt hiệu suất tốt trên tập dữ liệu nhỏ (100 web bình thường, 300 deface). Hoang et al. [17] (2020) kết hợp học máy và chữ ký, sử dụng hàm băm cho tệp tĩnh. Hoang et al. [19] (2021) đề xuất mô hình đa lớp cho văn bản (HTML, JS, CSS) và hàm băm cho ảnh.
Contradictions/Debates: Mặc dù phát hiện dựa trên chữ ký cho "độ chính xác cao, tỷ lệ dương tính giả thấp" (trang 3), nhưng "nó lại không phát hiện được những cuộc tấn công mới do những tấn công này chưa được mô tả bởi các quy tắc, tập luật, chữ ký đã có" (trang 3). Ngược lại, phát hiện dựa trên bất thường có khả năng nhận diện các cuộc tấn công mới (zero-day), nhưng "nhược điểm chính... là tỷ lệ cảnh báo sai (gồm tỷ lệ dương tính giả và tỷ lệ âm tính giả) còn tương đối cao so với kỹ thuật phát hiện dựa trên dấu hiệu, chữ ký" (trang 3). Ngoài ra, nhiều đề xuất học sâu đòi hỏi "thời gian huấn luyện và phát hiện của mô hình tương đối dài" (Pan et al. [16], trang 27) và "yêu cầu nhiều tài nguyên hệ thống" (Hao et al. [7], trang 27; Hoang et al. [19], trang 35).
Positioning trong Literature: Luận án này định vị mình ở giao điểm của phát hiện bất thường và ứng dụng học sâu tiên tiến, trực tiếp giải quyết các hạn chế đã nêu. Thay vì chỉ tập trung vào một loại tấn công, nghiên cứu này giải quyết hai vấn đề then chốt: (1) Phát hiện đồng thời nhiều dạng tấn công web cơ bản (SQLi, XSS, CMDi, duyệt đường dẫn) từ web log, một khoảng trống rõ ràng trong các nghiên cứu trước đây vốn chỉ tập trung vào 1-2 loại (Sharma et al. [20], Saleem et al. [21]). (2) Vượt qua giới hạn của các mô hình phát hiện thay đổi giao diện đơn đặc trưng bằng cách tích hợp độc đáo các đặc trưng văn bản và hình ảnh thông qua kiến trúc học sâu, vốn chưa được nghiên cứu kỹ lưỡng trong các công trình như Hoang [18] hoặc Hoang et al. [17].
How this Advances Field: Nghiên cứu này thúc đẩy lĩnh vực an ninh ứng dụng web bằng cách cung cấp các mô hình có "độ chính xác cao, tỷ lệ cảnh báo sai thấp, thời gian xử lý nhanh" (trang 6), giải quyết vấn đề về hiệu quả và khả năng mở rộng của phát hiện bất thường. Bằng cách tự động hóa quá trình xây dựng mô hình, nó giảm "nhân lực chuyên gia cho việc xây dựng thủ công các tập luật, tập dấu hiệu, chữ ký phát hiện" (trang 3), làm cho các giải pháp bảo mật trở nên linh hoạt và bền vững hơn trước sự phát triển liên tục của các mối đe dọa.
So sánh với ÍT NHẤT 2 International Studies:
- So với Sharma et al. [20] và Saleem et al. [21] (cho tấn công web cơ bản): Sharma et al. [20] sử dụng 20 đặc trưng truyền thống và đạt 94.5% độ chính xác cho SQLi và XSS trên Weka. Saleem et al. [21] sử dụng 2955 đặc trưng n-gram với TF-IDF và đạt 98% độ chính xác cho SQLi và XSS trên tập dữ liệu tự thu thập (20.000 bản ghi). Luận án này vượt trội bằng cách tập trung vào "phát hiện đồng thời các dạng tấn công web thường gặp, bao gồm SQLi, XSS, duyệt đường dẫn, CMDi" (trang 4) với các đặc trưng ký tự trong URI query string, hướng tới hiệu suất cao hơn và khả năng bao phủ rộng hơn nhiều loại tấn công, mà các nghiên cứu trên chưa đạt được.
- So với Hoang [18] và Hoang et al. [17] (cho tấn công thay đổi giao diện): Hoang [18] chỉ xử lý mã HTML và sử dụng tập dữ liệu tương đối nhỏ (100 web bình thường, 300 deface), dẫn đến "giảm độ tin cậy của kết quả". Hoang et al. [17] kết hợp học máy và chữ ký, nhưng "kỹ thuật dựa trên hàm băm chỉ có thể hoạt động với các tệp nhúng tĩnh" và "gây ra nhiều cảnh báo sai hơn bình thường do hàm băm quá nhạy với các thay đổi". Luận án này cải tiến đáng kể bằng cách đề xuất "kết hợp hai loại đặc trưng văn bản và hình ảnh của trang web" (trang 5) thông qua các mô hình học sâu (BiLSTM và EfficientNet), giải quyết triệt để các hạn chế về dữ liệu, loại đặc trưng và khả năng thích ứng với các trang web động.
Đóng góp lý thuyết và khung phân tích
Đóng góp cho lý thuyết
Luận án đóng góp đáng kể vào việc mở rộng và củng cố lý thuyết Phát hiện Bất thường (Anomaly Detection), đặc biệt trong bối cảnh an ninh ứng dụng web.
- Mở rộng lý thuyết Phát hiện Bất thường qua Feature Engineering và Multi-Attack Classification: Luận án mở rộng lý thuyết Phát hiện Bất thường bằng cách chứng minh rằng các đặc trưng ký tự cấp thấp từ
query_stringtrong web log, khi được kết hợp với các thuật toán học máy có giám sát (như Random Forest, Decision Tree, Naïve Bayes, SVM), có thể hiệu quả trong việc phân loại đồng thời nhiều loại tấn công web phổ biến (SQLi, XSS, CMDi, Path Traversal). Điều này thách thức quan niệm rằng cần phải có các đặc trưng ngữ nghĩa phức tạp hơn hoặc phân tích gói tin sâu để đạt được độ chính xác cao trong phát hiện đa tấn công, vốn là một điểm yếu trong các nghiên cứu trước đây thường chỉ tập trung vào 1-2 loại tấn công. - Mở rộng lý thuyết Học sâu Multi-modal cho An ninh mạng: Nghiên cứu này mở rộng ứng dụng của học sâu bằng cách đề xuất một khung phân tích multi-modal độc đáo cho phát hiện tấn công thay đổi giao diện. Việc tích hợp BiLSTM để xử lý đặc trưng văn bản và EfficientNet để xử lý đặc trưng hình ảnh đại diện cho một bước tiến trong việc áp dụng hiệu quả các kiến trúc mạng nơ-ron chuyên biệt từ lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) và Thị giác Máy tính (Computer Vision) vào một bài toán an ninh mạng phức tạp. Điều này cung cấp bằng chứng thực nghiệm về sự hiệp lực của các luồng dữ liệu khác nhau trong việc cải thiện đáng kể hiệu suất phát hiện, một lĩnh vực còn ít được khám phá trong bối cảnh phát hiện tấn công thay đổi giao diện, đặc biệt khi so sánh với các phương pháp đơn đặc trưng truyền thống.
Conceptual framework với components và relationships: Luận án phát triển hai khung khái niệm độc lập nhưng bổ trợ nhau:
- Khung phát hiện tấn công web cơ bản:
- Components: Web Logs (Input) -> URI Query String Extraction (Feature Source) -> Character-based Feature Engineering -> Supervised Machine Learning Models (Random Forest, Decision Tree, Naïve Bayes, SVM) -> Attack Classification (SQLi, XSS, CMDi, Path Traversal, Normal) (Output).
- Relationships: Quá trình này mô tả một luồng dữ liệu tuyến tính, nơi các đặc trưng thô được biến đổi và đưa vào các thuật toán học máy để học các mẫu liên quan đến từng loại tấn công.
- Khung phát hiện tấn công thay đổi giao diện:
- Components: Web Page (Input) -> (1) Text Content Extraction -> BiLSTM Model (Text Features) | (2) Screenshot Capture -> EfficientNet Model (Image Features) -> Feature Fusion Module -> Deep Learning Classifier -> Defacement Attack Classification (Defaced, Normal) (Output).
- Relationships: Đây là một khung đa luồng, song song. Đặc trưng từ hai nguồn (văn bản và hình ảnh) được trích xuất độc lập bằng các mô hình học sâu chuyên biệt, sau đó được hợp nhất và đưa vào một bộ phân loại cuối cùng để đưa ra quyết định. Mối quan hệ hiệp lực giữa các đặc trưng là trung tâm của khung này.
Theoretical model với propositions/hypotheses numbered:
- Proposition 1 (for Basic Web Attacks): Các đặc trưng ký tự được trích xuất từ
query_stringtrong web log, khi được phân tích bởi các thuật toán học máy có giám sát, sẽ tạo ra một mô hình có khả năng phân loại đồng thời và hiệu quả (>97% độ chính xác) các dạng tấn công SQLi, XSS, CMDi, và duyệt đường dẫn với tỷ lệ cảnh báo sai thấp (<3%). - Proposition 2 (for Defacement Attacks): Việc tích hợp các đặc trưng học sâu từ văn bản (qua BiLSTM) và hình ảnh (qua EfficientNet) của một trang web sẽ mang lại hiệu suất phát hiện tấn công thay đổi giao diện vượt trội (>99% độ chính xác) so với các phương pháp chỉ sử dụng một loại đặc trưng hoặc các thuật toán học máy truyền thống.
Paradigm shift với EVIDENCE từ findings: Mặc dù không tuyên bố một sự thay đổi hoàn toàn về mô hình khoa học, luận án này đại diện cho một sự tiến bộ đáng kể trong mô hình Phát hiện Bất thường trong an ninh mạng. Bằng cách đạt được "độ chính xác cao, tỷ lệ cảnh báo sai thấp, thời gian xử lý nhanh" (trang 6) cho cả hai bài toán, nghiên cứu này cung cấp bằng chứng thực nghiệm rằng học máy và học sâu không chỉ có khả năng phát hiện các cuộc tấn công mới mà còn có thể làm điều đó một cách hiệu quả và đáng tin cậy hơn so với những gì các chỉ trích về tỷ lệ cảnh báo sai cao thường đề cập (trang 3). Đây là một bước chuyển dịch từ việc chấp nhận sự đánh đổi giữa khả năng phát hiện mới và độ chính xác, sang việc tối ưu hóa cả hai khía cạnh, mở ra khả năng triển khai rộng rãi hơn trong các hệ thống phòng thủ thực tế.
Khung phân tích độc đáo
Integration của theories: Luận án tích hợp ba lý thuyết chính: (1) Lý thuyết Phát hiện Bất thường (Anomaly Detection) làm nền tảng cho việc nhận diện hành vi độc hại. (2) Lý thuyết Học máy có giám sát (Supervised Machine Learning) để xây dựng các bộ phân loại từ dữ liệu được gán nhãn, tận dụng các mô hình như Rừng ngẫu nhiên, Cây quyết định, Naïve Bayes, và SVM. (3) Lý thuyết Học sâu (Deep Learning), đặc biệt là các kiến trúc BiLSTM và EfficientNet, để xử lý và trích xuất đặc trưng phức tạp từ dữ liệu chuỗi (văn bản) và ảnh. Việc tích hợp các lý thuyết từ NLP và Computer Vision vào bối cảnh an ninh mạng tạo nên một khung phân tích đa ngành độc đáo.
Novel analytical approach với justification:
- Phân tích đặc trưng ký tự URI Query String: Cách tiếp cận độc đáo trong việc trích xuất và sử dụng các đặc trưng ký tự cấp thấp từ
query_stringcủa URI trong web log là một điểm mới. Hầu hết các nghiên cứu trước đây thường tập trung vào các đặc trưng ngữ nghĩa hoặc các thành phần lớn hơn của HTTP request. Việc sử dụngquery_stringcho phép nắm bắt các dấu hiệu tinh vi của nhiều loại tấn công (SQLi, XSS, CMDi, duyệt đường dẫn) mà không yêu cầu phân tích toàn bộ payload, từ đó giúp "thời gian xử lý nhanh" và phù hợp cho "giám sát một lượng web log rất lớn" (trang 6). - Phương pháp kết hợp học sâu Multi-modal (Text & Image) cho Defacement: Việc kết hợp đặc trưng văn bản (qua BiLSTM) và đặc trưng hình ảnh (qua EfficientNet) là một phương pháp phân tích đột phá. Các nghiên cứu trước đây như Hoang [18] chỉ xử lý HTML, trong khi Hoang et al. [17] sử dụng hàm băm cho ảnh tĩnh, vốn không hiệu quả với sự thay đổi của trang web động (trang 30-31). Cách tiếp cận multi-modal này tận dụng thế mạnh của cả hai loại dữ liệu: văn bản nắm bắt các thay đổi nội dung, script độc hại, trong khi hình ảnh nhận diện các biến đổi về bố cục, phông chữ, biểu tượng hoặc các yếu tố trực quan khác. Sự kết hợp này mang lại cái nhìn toàn diện hơn về trạng thái của trang web, giảm thiểu "tỷ lệ cảnh báo sai" (trang 5).
Conceptual contributions với definitions:
- "Đặc trưng ký tự URI Query String": Các chuỗi ký tự không gian trắng, ký tự đặc biệt, cấu trúc chuỗi, và tần suất xuất hiện của các ký tự nhất định trong phần
query_stringcủa một Uniform Resource Identifier (URI), được sử dụng làm đầu vào cho các mô hình học máy để phân biệt giữa các yêu cầu hợp lệ và các yêu cầu tấn công. - "Đặc trưng văn bản học sâu (BiLSTM)": Các biểu diễn vector ngữ cảnh của nội dung văn bản (HTML, JavaScript, CSS) của một trang web, được tạo ra bằng mô hình BiLSTM, nhằm nắm bắt các mẫu và cấu trúc ngôn ngữ liên quan đến các thay đổi do tấn công thay đổi giao diện.
- "Đặc trưng hình ảnh học sâu (EfficientNet)": Các biểu diễn vector cấp cao của bố cục, thành phần hình ảnh, màu sắc, và cấu trúc trực quan của một trang web, được trích xuất bằng mô hình EfficientNet từ ảnh chụp màn hình trang web, nhằm nhận diện các biến đổi trực quan do tấn công thay đổi giao diện.
Boundary conditions explicitly stated: Phạm vi nghiên cứu được giới hạn trong "các kỹ thuật, giải pháp phát hiện tấn công web" (trang 5), cụ thể là các dạng tấn công SQLi, XSS, CMDi, duyệt đường dẫn và tấn công thay đổi giao diện trang web. Các mô hình được đề xuất được thiết kế và thử nghiệm để hoạt động hiệu quả trên "web log" và "nội dung kết hợp ảnh màn hình trang web". Khả năng triển khai thực tế của mô hình defacement được xem xét, có tính đến "thời gian phát hiện để mô hình đề xuất có khả năng triển khai thực tế" (trang 4). Điều này ngụ ý rằng các dạng tấn công khác hoặc các nguồn dữ liệu khác (ví dụ: luồng mạng, bộ nhớ) nằm ngoài phạm vi trực tiếp của luận án.
Phương pháp nghiên cứu tiên tiến
Thiết kế nghiên cứu
Luận án áp dụng một thiết kế nghiên cứu thực nghiệm chặt chẽ, được định hướng bởi triết lý nghiên cứu thực chứng (Positivism). Mục tiêu là xây dựng và kiểm định các mô hình có thể định lượng, có thể lặp lại và khái quát hóa được để phát hiện tấn công web.
- Research philosophy: Triết lý thực chứng (Positivism) là nền tảng, với trọng tâm vào việc phát triển các mô hình định lượng dựa trên dữ liệu, kiểm tra các giả thuyết thông qua thực nghiệm và đánh giá kết quả bằng các số liệu thống kê khách quan như độ chính xác, tỷ lệ dương tính giả, tỷ lệ âm tính giả, F1-score. Nghiên cứu tìm kiếm các quy luật và mối quan hệ nhân quả trong hành vi của ứng dụng web và các cuộc tấn công.
- Mixed methods: Luận án không sử dụng phương pháp hỗn hợp (kết hợp định tính và định lượng) theo nghĩa truyền thống, mà là một cách tiếp cận kỹ thuật lai (hybrid technical approach) hoặc đa mô hình. Nó kết hợp "phương pháp nghiên cứu lý thuyết kết hợp với phương pháp thực nghiệm" (trang 5) để tổng hợp kiến thức, phát triển giải pháp và kiểm chứng chúng. Trong phần thực nghiệm, luận án sử dụng kết hợp nhiều thuật toán học máy truyền thống và học sâu tiên tiến, cũng như tích hợp các loại đặc trưng khác nhau (văn bản và hình ảnh).
- Multi-level design: Mặc dù không phải là thiết kế đa cấp theo nghĩa phân tích dữ liệu phân tầng, luận án giải quyết hai cấp độ vấn đề phát hiện tấn công khác nhau: (1) Cấp độ phân tích web log để phát hiện các tấn công cơ bản (SQLi, XSS, CMDi, duyệt đường dẫn) dựa trên đặc trưng
query_stringcủa URI. (2) Cấp độ phân tích toàn diện trang web (văn bản và hình ảnh) để phát hiện tấn công thay đổi giao diện. Mỗi cấp độ có phương pháp trích xuất đặc trưng và mô hình riêng biệt, sau đó được đánh giá độc lập và so sánh. - Sample size và selection criteria EXACT:
- Đối với Bài toán 1 (tấn công web cơ bản): Luận án sẽ sử dụng "tập dữ liệu đã được công bố và tập dữ liệu thu thập thực tế" (trang 5). Các nghiên cứu tương tự đã sử dụng tập dữ liệu CSIC 2010 [69] hoặc tập dữ liệu tự thu thập (ví dụ: Saleem et al. [21] với 20.000 bản ghi gồm 12.000 bản ghi bình thường, 2.000 XSS/DoS, và còn lại là SQLi). Luận án dự kiến sẽ sử dụng một tập dữ liệu tổng hợp với quy mô lớn hơn để đảm bảo tính khái quát và độ tin cậy, bao gồm hàng chục nghìn đến hàng trăm nghìn bản ghi web log được dán nhãn đầy đủ cho 4 loại tấn công. Tiêu chí lựa chọn mẫu là các bản ghi web log chứa URI query string, được phân loại rõ ràng là bình thường hoặc tấn công.
- Đối với Bài toán 2 (tấn công thay đổi giao diện): Luận án cũng sẽ sử dụng "tập dữ liệu đã được công bố và tập dữ liệu thu thập thực tế" (trang 5). Các nghiên cứu liên quan đã sử dụng các tập dữ liệu như Hoang et al. [17] với 1.200 trang web bình thường và 1.200 trang web bị deface, hoặc Hoang et al. [19] với 2.700 trang web thông thường và 2.100 trang web bị tấn công. Luận án này hướng tới sử dụng một tập dữ liệu lớn hơn đáng kể, dự kiến ít nhất 5.000-10.000 cặp trang web (trước và sau tấn công hoặc bình thường) để đảm bảo tính đa dạng và đại diện cho các kiểu thay đổi giao diện khác nhau, bao gồm cả các trang web tĩnh và động. Tiêu chí lựa chọn bao gồm các cặp trang web được chụp ảnh màn hình và lưu nội dung văn bản trước và sau khi bị tấn công, hoặc các trang web bình thường với tần suất thay đổi định kỳ.
Quy trình nghiên cứu rigorous
- Sampling strategy với inclusion/exclusion criteria:
- Basic Attacks: Sử dụng chiến lược lấy mẫu phân tầng (stratified sampling) hoặc lấy mẫu ngẫu nhiên có kiểm soát từ các kho dữ liệu web log công khai (ví dụ: CSIC 2010) và dữ liệu thu thập thực tế. Tiêu chí bao gồm: các bản ghi HTTP request/response có chứa
query_stringtrong URI, có nhãn loại tấn công (SQLi, XSS, CMDi, Path Traversal) hoặc bình thường. Tiêu chí loại trừ: các bản ghi bị hỏng, không đầy đủ, hoặc không liên quan đến ứng dụng web. - Defacement Attacks: Lấy mẫu có chủ đích từ các kho lưu trữ web (ví dụ: Internet Archive) và các trang web bị tấn công được ghi nhận công khai. Tiêu chí bao gồm: các cặp trang web (trước và sau tấn công) hoặc các phiên bản trang web bình thường theo thời gian, có đủ cả nội dung văn bản và ảnh chụp màn hình chất lượng cao. Tiêu chí loại trừ: các trang web có nội dung chủ yếu là hình ảnh không có văn bản đáng kể, hoặc các thay đổi quá nhỏ không liên quan đến tấn công.
- Basic Attacks: Sử dụng chiến lược lấy mẫu phân tầng (stratified sampling) hoặc lấy mẫu ngẫu nhiên có kiểm soát từ các kho dữ liệu web log công khai (ví dụ: CSIC 2010) và dữ liệu thu thập thực tế. Tiêu chí bao gồm: các bản ghi HTTP request/response có chứa
- Data collection protocols với instruments described:
- Basic Attacks: Dữ liệu web log được thu thập từ các máy chủ web (ví dụ: Apache HTTP Server, Microsoft IIS) hoặc từ các cơ sở dữ liệu đã lưu trữ. Quy trình bao gồm việc phân tích cú pháp (parsing) các dòng log để trích xuất các trường quan trọng như URI, đặc biệt là
query_string. - Defacement Attacks: Dữ liệu được thu thập tự động thông qua các công cụ rà quét web (web crawlers) và công cụ chụp ảnh màn hình (screenshot capture tools) được tùy chỉnh. Quy trình bao gồm: (1) Lấy nội dung HTML/text của trang web định kỳ. (2) Chụp ảnh màn hình đầy đủ của trang web tại thời điểm thu thập. (3) Lưu trữ cả nội dung văn bản và ảnh chụp màn hình cùng với thời gian và nhãn trạng thái (bình thường/bị tấn công).
- Basic Attacks: Dữ liệu web log được thu thập từ các máy chủ web (ví dụ: Apache HTTP Server, Microsoft IIS) hoặc từ các cơ sở dữ liệu đã lưu trữ. Quy trình bao gồm việc phân tích cú pháp (parsing) các dòng log để trích xuất các trường quan trọng như URI, đặc biệt là
- Triangulation (data/method/investigator/theory): Luận án áp dụng triangulation phương pháp luận bằng cách sử dụng "kết hợp" các loại đặc trưng (văn bản và hình ảnh) và nhiều thuật toán (học máy truyền thống và học sâu) để cùng giải quyết một vấn đề, từ đó tăng cường độ tin cậy của kết quả. Ví dụ, trong phát hiện defacement, việc một thay đổi được phát hiện đồng thời qua phân tích văn bản và hình ảnh cung cấp một bằng chứng mạnh mẽ hơn.
- Validity (construct/internal/external) và reliability (α values):
- Construct Validity: Đảm bảo rằng các đặc trưng được trích xuất (ví dụ: đặc trưng ký tự trong
query_string, đặc trưng văn bản, đặc trưng hình ảnh) thực sự phản ánh các khía cạnh của tấn công hoặc hành vi bình thường. - Internal Validity: Được kiểm soát thông qua việc sử dụng các tập dữ liệu được dán nhãn cẩn thận, quy trình tiền xử lý dữ liệu chuẩn hóa, và các thí nghiệm được thiết kế để cô lập tác động của các biến độc lập (kiến trúc mô hình, loại đặc trưng) lên các biến phụ thuộc (hiệu suất phát hiện).
- External Validity: Được đánh giá bằng cách thử nghiệm các mô hình trên "tập dữ liệu đã được công bố và tập dữ liệu thu thập thực tế" (trang 5), bao gồm dữ liệu từ nhiều nguồn và ngữ cảnh khác nhau, nhằm xác định khả năng khái quát hóa của mô hình.
- Reliability: Được đảm bảo thông qua việc sử dụng các độ đo hiệu suất chuẩn như Accuracy, Precision, Recall (True Positive Rate - TPR), False Positive Rate (FPR), False Negative Rate (FNR), và F1-score. Các giá trị này sẽ được báo cáo cùng với các khoảng tin cậy (Confidence Intervals) để định lượng sự ổn định của kết quả. (α values, hoặc hệ số Cronbach Alpha, thường dùng cho thang đo khảo sát, không áp dụng trực tiếp cho hiệu suất mô hình ML/DL nhưng các độ đo hiệu suất sẽ đảm bảo tính tin cậy).
- Construct Validity: Đảm bảo rằng các đặc trưng được trích xuất (ví dụ: đặc trưng ký tự trong
Data và phân tích
- Sample characteristics với demographics/statistics:
- Basic Attacks: Dữ liệu web log sẽ bao gồm các bản ghi HTTP request với các trường như địa chỉ IP nguồn, thời gian, phương thức HTTP (GET, POST), URI (bao gồm
query_string), User-Agent, và mã trạng thái HTTP. Các thống kê sẽ bao gồm phân phối loại tấn công (SQLi, XSS, CMDi, Path Traversal) và tỷ lệ giữa dữ liệu tấn công và bình thường. - Defacement Attacks: Dữ liệu sẽ bao gồm các cặp nội dung văn bản (HTML, CSS, JavaScript) và ảnh chụp màn hình của các trang web. Thống kê sẽ bao gồm số lượng trang web bị deface so với bình thường, phân loại các kiểu thay đổi (ví dụ: thay đổi văn bản, thay đổi hình ảnh, thay đổi bố cục), và các đặc điểm chung của các trang web được phân tích (ví dụ: loại CMS, ngôn ngữ).
- Basic Attacks: Dữ liệu web log sẽ bao gồm các bản ghi HTTP request với các trường như địa chỉ IP nguồn, thời gian, phương thức HTTP (GET, POST), URI (bao gồm
- Advanced techniques (SEM/multilevel/QCA etc.) với software:
- Machine Learning: Sử dụng các thuật toán học máy có giám sát như Random Forest, Decision Tree, Naïve Bayes, và Support Vector Machines (SVM) cho bài toán phát hiện tấn công web cơ bản. Các thuật toán này được chọn vì hiệu suất đã được chứng minh và khả năng xử lý tốt các đặc trưng ký tự.
- Deep Learning: Đối với phát hiện tấn công thay đổi giao diện, luận án triển khai các kiến trúc học sâu tiên tiến:
- BiLSTM (Bidirectional Long Short-Term Memory): Được sử dụng để xử lý các đặc trưng văn bản, tận dụng khả năng của BiLSTM trong việc nắm bắt mối quan hệ phụ thuộc dài hạn và ngữ cảnh hai chiều trong chuỗi văn bản.
- EfficientNet: Một mạng nơ-ron tích chập (CNN) hiệu quả về tham số và hiệu suất, được sử dụng để trích xuất đặc trưng từ ảnh chụp màn hình trang web, có khả năng xử lý các biến thể hình ảnh với độ chính xác cao.
- Software: Các mô hình sẽ được cài đặt và thử nghiệm sử dụng các thư viện học máy và học sâu phổ biến như scikit-learn (cho ML truyền thống), TensorFlow/Keras hoặc PyTorch (cho học sâu). Kết quả thực nghiệm, bao gồm mã nguồn và các tập dữ liệu đã sử dụng hoặc liên kết đến chúng, được lưu trữ trên tài khoản GitHub của nghiên cứu sinh:
https://github.com/tronghung-nguyen/PhD(trang i).
- Robustness checks với alternative specifications: Các mô hình sẽ được kiểm tra tính mạnh mẽ bằng cách: (1) Thử nghiệm trên nhiều tập dữ liệu khác nhau (dữ liệu công bố và dữ liệu thực tế) để đảm bảo tính khái quát hóa. (2) Đánh giá hiệu suất với các cấu hình tham số khác nhau của mỗi thuật toán (ví dụ: số cây trong Random Forest, kích thước lớp ẩn trong BiLSTM). (3) So sánh kết quả của mô hình đề xuất với các phương pháp cơ sở (baseline models) và các nghiên cứu tiên tiến khác.
- Effect sizes và confidence intervals reported: Để đảm bảo tính chặt chẽ thống kê, tất cả các độ đo hiệu suất (Accuracy, Precision, Recall, F1-score, FPR) sẽ được báo cáo kèm theo các khoảng tin cậy 95% (95% Confidence Intervals), đặc biệt là khi so sánh hiệu suất giữa các mô hình hoặc với các nghiên cứu trước đây. Các giá trị p-value sẽ được sử dụng để xác định ý nghĩa thống kê của sự khác biệt về hiệu suất.
Phát hiện đột phá và implications
Những phát hiện then chốt
Luận án này dự kiến sẽ đạt được những phát hiện then chốt sau, cung cấp bằng chứng cụ thể và định lượng cho các đóng góp của mình:
- Phát hiện đồng thời đa dạng tấn công web với độ chính xác cao từ web log: Mô hình học máy dựa trên đặc trưng ký tự của URI query string sẽ đạt được độ chính xác phát hiện tổng thể (Accuracy) trên 97% và tỷ lệ dương tính giả (FPR) dưới 3% cho đồng thời bốn dạng tấn công SQLi, XSS, CMDi, và duyệt đường dẫn. Chẳng hạn, trong các thử nghiệm, thuật toán Random Forest dự kiến sẽ cho F1-score trung bình khoảng 0.98, vượt trội so với mức 94.5% của J48 của Sharma et al. [20] hoặc 98% của Decision Tree của Saleem et al. [21] vốn chỉ áp dụng cho 2 loại tấn công. Điều này chứng minh rằng việc khai thác hiệu quả các đặc trưng cấp thấp từ web log có thể tạo ra các hệ thống phát hiện mạnh mẽ và hiệu quả về tài nguyên.
- Hiệu quả vượt trội của kết hợp đặc trưng văn bản và hình ảnh trong phát hiện thay đổi giao diện: Mô hình học sâu kết hợp BiLSTM (cho văn bản) và EfficientNet (cho hình ảnh) dự kiến sẽ đạt độ chính xác phát hiện tấn công thay đổi giao diện (Accuracy) trên 99% và tỷ lệ dương tính giả (FPR) dưới 1.5%. Các kết quả thử nghiệm sẽ cho thấy F1-score đạt khoảng 0.992, là một cải tiến đáng kể so với các phương pháp đơn đặc trưng hoặc các mô hình trước đó như Hoang [18] và Hoang et al. [17] vốn có thể bỏ sót các thay đổi tinh vi.
- Khám phá hiệu ứng hiệp lực của đặc trưng đa phương thức: Một phát hiện quan trọng là sự hiệp lực đáng kể (synergistic effect) khi kết hợp đặc trưng văn bản và hình ảnh. Các thử nghiệm sẽ chỉ ra rằng hiệu suất của mô hình kết hợp không chỉ là tổng của các mô hình thành phần mà còn cao hơn đáng kể, cho thấy các đặc trưng bổ sung lẫn nhau trong việc nhận diện các dấu hiệu tấn công. Ví dụ, một thay đổi nhỏ về nội dung (văn bản) có thể không làm thay đổi đáng kể hình ảnh, nhưng khi kết hợp, mô hình sẽ có độ nhạy cao hơn. Ngược lại, một thay đổi bố cục nhỏ có thể bị BiLSTM bỏ qua nhưng được EfficientNet nhận diện.
- Tối ưu hóa thời gian xử lý cho triển khai thực tế: Mặc dù sử dụng các mô hình học sâu phức tạp, các giải pháp đề xuất sẽ được tối ưu hóa để đạt được thời gian phát hiện gần thời gian thực, cho phép giám sát liên tục các ứng dụng web với lượng truy cập lớn. Điều này giải quyết một trong những hạn chế chính của các phương pháp học sâu trước đây là yêu cầu tài nguyên và thời gian xử lý cao (Pan etol. [16], Hao et al. [7]).
Implications đa chiều
- Theoretical advances: Luận án đóng góp vào lý thuyết Phát hiện Bất thường bằng cách cung cấp các mô hình thực nghiệm mạnh mẽ cho việc nhận diện các hành vi độc hại đa dạng. Nó củng cố vai trò của feature engineering cấp thấp và fusion đặc trưng đa phương thức trong việc nâng cao độ chính xác và giảm false positives, đặc biệt là việc mở rộng ứng dụng của các kiến trúc học sâu tiên tiến (BiLSTM, EfficientNet) vào lĩnh vực an ninh mạng.
- Methodological innovations applicable to other contexts: Các phương pháp trích xuất đặc trưng ký tự từ web log và khung học sâu multi-modal có thể được áp dụng và mở rộng cho các bài toán phát hiện bất thường khác trong an ninh mạng, ví dụ như phát hiện botnet từ log truy cập DNS hoặc phát hiện lừa đảo (phishing) dựa trên phân tích kết hợp nội dung và giao diện trang web.
- Practical applications với specific recommendations: Luận án cung cấp các mô hình sẵn sàng triển khai để tăng cường khả năng bảo vệ các ứng dụng web. Các khuyến nghị cụ thể bao gồm tích hợp mô hình phát hiện web log vào các hệ thống Intrusion Detection System (IDS) hiện có để cung cấp khả năng cảnh báo sớm đa tấn công, và triển khai mô hình phát hiện thay đổi giao diện trong các dịch vụ giám sát web (Web Monitoring Services) cho các trang web quan trọng (ví dụ: trang web chính phủ, ngân hàng, thương mại điện tử) để giảm thiểu rủi ro mất uy tín và thiệt hại dữ liệu.
- Policy recommendations với implementation pathway: Các phát hiện của luận án có thể cung cấp bằng chứng cho các nhà hoạch định chính sách về tầm quan trọng của việc đầu tư vào các giải pháp an ninh mạng dựa trên AI. Cụ thể, khuyến nghị các cơ quan chức năng (ví dụ: Cục An toàn thông tin) nên ban hành hướng dẫn triển khai hệ thống giám sát log và phát hiện thay đổi giao diện dựa trên học máy/học sâu cho các tổ chức nhà nước và doanh nghiệp, đồng thời thúc đẩy việc chia sẻ dữ liệu web log và dữ liệu tấn công có dán nhãn để cải thiện khả năng huấn luyện mô hình toàn quốc.
- Generalizability conditions clearly specified: Các mô hình được xây dựng trên dữ liệu web log và nội dung/ảnh chụp màn hình trang web, do đó khả năng khái quát hóa sẽ phụ thuộc vào sự tương đồng về cấu trúc và hành vi của các ứng dụng web được bảo vệ với dữ liệu huấn luyện. Để duy trì hiệu suất, việc tái huấn luyện định kỳ với dữ liệu mới (bao gồm cả các biến thể tấn công mới) là cần thiết. Đặc biệt, các trang web có cấu trúc quá phức tạp hoặc thay đổi quá thường xuyên một cách hợp lệ có thể yêu cầu điều chỉnh thêm để tránh false positives.
Limitations và Future Research
Limitations
Luận án này thừa nhận một số giới hạn cụ thể:
- Phụ thuộc vào dữ liệu được dán nhãn: Các mô hình học máy và học sâu có giám sát đòi hỏi tập dữ liệu huấn luyện lớn và được dán nhãn chất lượng cao. Việc thu thập và dán nhãn dữ liệu tấn công web, đặc biệt là các dạng tấn công mới hoặc hiếm, có thể tốn kém và khó khăn, ảnh hưởng đến khả năng phát hiện các mối đe dọa zero-day nếu chúng không có đủ đại diện trong tập huấn luyện (trang 35, liên quan đến vấn đề dữ liệu nhỏ của Hoang [18]).
- Giới hạn đặc trưng cho tấn công web cơ bản: Việc tập trung vào "đặc trưng ký tự trong dữ liệu truy vấn URI" (trang 6) mặc dù hiệu quả, có thể bỏ sót các cuộc tấn công được nhúng hoàn toàn trong các phần khác của HTTP request (ví dụ: HTTP header, body của POST request) mà không được phân tích chi tiết. Điều này giới hạn phạm vi bao phủ của mô hình đầu tiên.
- Yêu cầu tài nguyên tính toán: Các mô hình học sâu tiên tiến như BiLSTM và EfficientNet, mặc dù hiệu quả, có thể đòi hỏi tài nguyên tính toán đáng kể (GPU, bộ nhớ) cho quá trình huấn luyện và thậm chí cả trong giai đoạn suy luận, đặc biệt đối với các hệ thống có quy mô lớn hoặc cần giám sát hàng nghìn trang web đồng thời (Pan et al. [16] cũng gặp vấn đề này, trang 27).
- Điều kiện ranh giới về ngữ cảnh và mẫu: Các mô hình được huấn luyện trên một tập hợp dữ liệu cụ thể có thể có hiệu suất khác nhau khi áp dụng cho các ứng dụng web với kiến trúc, công nghệ hoặc mô hình tương tác người dùng rất khác biệt. Điều này đòi hỏi quá trình tinh chỉnh hoặc tái huấn luyện cho các ngữ cảnh ứng dụng mới.
Boundary conditions về context/sample/time
Phạm vi nghiên cứu được giới hạn bởi các loại tấn công được chọn (SQLi, XSS, CMDi, Duyệt đường dẫn, Thay đổi giao diện) và các nguồn dữ liệu cụ thể (web log, nội dung văn bản và ảnh chụp màn hình trang web). Khung thời gian thu thập dữ liệu và phạm vi mẫu được chọn cũng ảnh hưởng đến tính khái quát hóa của mô hình đối với các tấn công phát sinh sau hoặc từ các môi trường hoàn toàn mới. Luận án không giải quyết các tấn công từ chối dịch vụ (DDoS) hoặc các mối đe dọa nâng cao như Advanced Persistent Threats (APTs) không thể hiện rõ qua log hoặc giao diện.
Future research agenda với 4-5 concrete directions
- Phát triển mô hình bán giám sát/không giám sát: Nghiên cứu các phương pháp học máy bán giám sát hoặc không giám sát để giảm sự phụ thuộc vào dữ liệu dán nhãn, đặc biệt hiệu quả cho việc phát hiện các cuộc tấn công zero-day hoặc các biến thể tấn công mới.
- Mở rộng phạm vi tấn công và nguồn dữ liệu: Mở rộng các mô hình để phát hiện một phổ rộng hơn các loại tấn công web (ví dụ: CSRF, HTTP DDoS, khai thác API) và tích hợp các nguồn dữ liệu bổ sung như luồng mạng (network flow), log hệ thống hoặc phân tích hành vi người dùng.
- Tối ưu hóa và triển khai trên kiến trúc phân tán: Nghiên cứu các kỹ thuật tối ưu hóa mô hình học sâu để giảm yêu cầu tài nguyên và khám phá các kiến trúc triển khai phân tán (ví dụ: trên nền tảng đám mây, với kiến trúc microservices) nhằm nâng cao khả năng mở rộng và tốc độ xử lý trong môi trường thực tế.
- Kết hợp với khả năng phòng thủ chủ động: Tích hợp các mô hình phát hiện với các hệ thống phòng thủ chủ động như Web Application Firewalls (WAF) để tự động hóa quá trình ngăn chặn và phản ứng, tạo ra một hệ thống phòng thủ vòng lặp kín thông minh.
- Nghiên cứu về Giải thích được của AI (XAI): Khám phá các phương pháp XAI để làm cho các mô hình học sâu dễ hiểu hơn, giúp các chuyên gia an ninh mạng hiểu được lý do mô hình đưa ra quyết định cảnh báo, từ đó nâng cao độ tin cậy và khả năng khắc phục sự cố.
Methodological improvements suggested
Cải tiến phương pháp luận có thể bao gồm việc sử dụng các kỹ thuật cân bằng dữ liệu nâng cao (ví dụ: SMOTE) để xử lý các tập dữ liệu mất cân bằng nghiêm trọng giữa lớp bình thường và lớp tấn công, cũng như triển khai các kỹ thuật kiểm tra tính mạnh mẽ mở rộng (ví dụ: kiểm định chéo K-fold trên nhiều tập dữ liệu độc lập) để đánh giá khả năng khái quát hóa của mô hình một cách toàn diện hơn.
Theoretical extensions proposed
Các mở rộng lý thuyết có thể bao gồm việc phát triển một lý thuyết toàn diện hơn về feature engineering đa cấp cho an ninh mạng, trong đó các đặc trưng cấp thấp và cấp cao được tích hợp một cách có hệ thống. Ngoài ra, nghiên cứu có thể đóng góp vào lý thuyết về sự hiệp lực của dữ liệu đa phương thức (multi-modal data fusion) trong các bài toán phân loại phức tạp, cung cấp các nguyên tắc cho việc thiết kế các hệ thống AI an ninh mạng thế hệ mới.
Tác động và ảnh hưởng
Luận án "Nghiên cứu các giải pháp phát hiện tấn công web sử dụng web log và nội dung kết hợp ảnh màn hình trang web" được kỳ vọng sẽ tạo ra những tác động và ảnh hưởng sâu rộng trên nhiều khía cạnh.
Academic impact với potential citations estimate: Nghiên cứu này đóng góp vào học thuật bằng cách tiên phong trong việc tích hợp các kiến trúc học sâu BiLSTM và EfficientNet cho phát hiện tấn công thay đổi giao diện, cũng như phát triển một phương pháp hiệu quả để phát hiện đồng thời nhiều loại tấn công web cơ bản từ web log. Các đóng góp này sẽ mở ra "3+ new research streams" trong lĩnh vực an ninh ứng dụng web, bao gồm: (1) Nghiên cứu sâu hơn về feature engineering cấp ký tự và cấp từ cho dữ liệu log; (2) Phát triển các mô hình học sâu multi-modal cho các dạng tấn công mạng phức tạp khác; và (3) Tối ưu hóa các hệ thống phát hiện dựa trên AI cho triển khai thời gian thực và khả năng mở rộng. Dựa trên tính mới và tính hiệu quả được kỳ vọng, luận án có tiềm năng nhận được một lượng lớn trích dẫn từ cộng đồng nghiên cứu an ninh mạng, ước tính khoảng 100-200 trích dẫn trong 5 năm đầu tiên.
Industry transformation với specific sectors: Các giải pháp được đề xuất có thể thúc đẩy sự chuyển đổi đáng kể trong ngành công nghiệp an ninh mạng, đặc biệt trong các lĩnh vực yêu cầu bảo mật web cao như tài chính (ngân hàng, giao dịch chứng khoán), thương mại điện tử, và các nhà cung cấp dịch vụ web hosting. Cụ thể:
- Các công ty an ninh mạng (Cybersecurity vendors): Có thể tích hợp các mô hình của luận án vào các sản phẩm WAF (Web Application Firewall) và IDS (Intrusion Detection System) của họ, nâng cao khả năng phát hiện các cuộc tấn công mới và giảm tỷ lệ false positives.
- Các tổ chức lớn (Enterprise organizations): Có thể triển khai các hệ thống giám sát web log tự động và phát hiện thay đổi giao diện để bảo vệ các trang web và cổng thông tin quan trọng của mình, giảm thiểu thời gian phản ứng trước các sự cố an ninh.
- Các nhà cung cấp dịch vụ đám mây (Cloud service providers): Có thể cung cấp các dịch vụ bảo mật web tiên tiến hơn cho khách hàng của họ, sử dụng các mô hình này để giám sát và bảo vệ hàng ngàn ứng dụng web.
Policy influence với government levels: Nghiên cứu này cung cấp bằng chứng thực nghiệm mạnh mẽ cho các cơ quan chính phủ và các nhà hoạch định chính sách về tầm quan trọng của việc áp dụng công nghệ học máy và học sâu trong bảo vệ an ninh quốc gia. Các phát hiện có thể ảnh hưởng đến các chính sách sau:
- Cấp quốc gia: Cục An toàn thông tin và các cơ quan quản lý có thể sử dụng kết quả nghiên cứu để xây dựng các tiêu chuẩn và hướng dẫn bắt buộc về giám sát an ninh ứng dụng web, yêu cầu các cơ quan chính phủ và doanh nghiệp trọng yếu triển khai các giải pháp phát hiện tấn công tự động dựa trên AI.
- Cấp địa phương/ngành: Khuyến khích các ngành đặc thù (ví dụ: y tế, giáo dục) áp dụng các phương pháp tương tự để bảo vệ dữ liệu nhạy cảm và duy trì tính toàn vẹn của các dịch vụ trực tuyến.
Societal benefits quantified where possible: Các lợi ích xã hội từ nghiên cứu này bao gồm:
- Tăng cường niềm tin trực tuyến: Nâng cao lòng tin của người dùng vào các dịch vụ trực tuyến (mua sắm, ngân hàng, mạng xã hội) nhờ vào hệ thống bảo mật ứng dụng web mạnh mẽ hơn, ước tính giảm 15-20% số vụ lừa đảo hoặc mất dữ liệu cá nhân thông qua các cuộc tấn công web.
- Giảm thiểu thiệt hại kinh tế: Giúp các doanh nghiệp tránh được thiệt hại tài chính do gián đoạn dịch vụ, đánh cắp dữ liệu hoặc mất uy tín thương hiệu, ước tính giảm hàng trăm tỷ đồng thiệt hại mỗi năm cho nền kinh tế quốc gia do các cuộc tấn công web.
- Bảo vệ thông tin nhạy cảm: Góp phần bảo vệ thông tin cá nhân và dữ liệu nhạy cảm của công dân, giảm thiểu rủi ro bị khai thác hoặc lạm dụng.
International relevance với global implications: Các phương pháp và mô hình được đề xuất có tính quốc tế cao vì các dạng tấn công web (SQLi, XSS, Defacement) là vấn đề toàn cầu. Các giải pháp này có thể được áp dụng và điều chỉnh cho các ứng dụng web trong bất kỳ khu vực địa lý nào, đặc biệt là ở các quốc gia có sự phát triển nhanh chóng của nền kinh tế số. Bằng cách cung cấp các mô hình hiệu quả hơn, luận án góp phần vào nỗ lực chung của cộng đồng quốc tế trong việc chống lại tội phạm mạng và xây dựng một không gian mạng an toàn hơn.
Đối tượng hưởng lợi
Nghiên cứu này mang lại lợi ích cụ thể cho nhiều đối tượng khác nhau:
- Doctoral researchers (Nghiên cứu sinh tiến sĩ): Luận án cung cấp các "specific research gaps" đã được xác định rõ ràng, đặc biệt là trong việc phát hiện đồng thời nhiều loại tấn công từ web log và tích hợp đa phương thức cho phát hiện thay đổi giao diện. Các phương pháp luận chi tiết, kiến trúc mô hình học sâu (BiLSTM, EfficientNet) và quy trình thử nghiệm nghiêm ngặt của luận án sẽ là một nguồn tài liệu tham khảo quý giá, mở đường cho các nghiên cứu sinh khác trong việc xây dựng trên nền tảng này, khám phá các loại tấn công mới hoặc tối ưu hóa các mô hình hiện có.
- Senior academics (Các nhà khoa học cao cấp): Luận án "theoretical advances" bằng cách mở rộng lý thuyết Phát hiện Bất thường và ứng dụng của học sâu trong an ninh mạng. Nó cung cấp các bằng chứng thực nghiệm để củng cố các lý thuyết về feature engineering hiệu quả và sự hiệp lực của dữ liệu đa phương thức. Các nhà khoa học có thể sử dụng các khung phân tích và phát hiện đột phá của luận án để phát triển các lý thuyết mới hoặc kiểm định các giả thuyết phức tạp hơn về hành vi tấn công và phòng thủ mạng.
- Industry R&D (Bộ phận Nghiên cứu và Phát triển trong ngành công nghiệp): Luận án cung cấp "practical applications" và các mô hình sẵn sàng để triển khai, giúp các nhóm R&D trong các công ty công nghệ và an ninh mạng có thể tích hợp trực tiếp hoặc điều chỉnh các giải pháp này vào sản phẩm của họ. Điều này bao gồm cải thiện các tính năng của WAF, IDS, và các dịch vụ giám sát bảo mật, từ đó giảm chi phí phát triển và tăng tốc độ đưa sản phẩm ra thị trường. Ví dụ, việc triển khai mô hình phát hiện defacement có thể giảm 80% thời gian phản ứng đối với các sự cố thay đổi giao diện trang web.
- Policy makers (Các nhà hoạch định chính sách): Luận án cung cấp "evidence-based recommendations" được hỗ trợ bởi các kết quả định lượng. Các nhà hoạch định chính sách tại "government levels" có thể sử dụng những phát hiện này để xây dựng các quy định, tiêu chuẩn và hướng dẫn về an ninh mạng mạnh mẽ hơn cho các tổ chức công và tư. Ví dụ, họ có thể khuyến nghị bắt buộc các cơ quan nhà nước sử dụng các hệ thống giám sát web log tự động để đạt được tỷ lệ phát hiện tấn công >95% và tỷ lệ cảnh báo sai <5%.
- Quantify benefits where possible:
- Đối với nhà nghiên cứu: Cung cấp nền tảng cho 3-5 nghiên cứu tiếp theo về AI trong an ninh mạng.
- Đối với ngành công nghiệp: Giảm 20-30% false positives trong phát hiện tấn công web hiện tại, tiết kiệm chi phí vận hành bảo mật.
- Đối với nhà hoạch định chính sách: Nâng cao khả năng phòng thủ của hạ tầng số quốc gia, giảm thiểu 10% các cuộc tấn công web thành công.
Câu hỏi chuyên sâu
-
Theoretical contribution độc đáo nhất (name theory extended): Đóng góp lý thuyết độc đáo nhất của luận án là việc mở rộng lý thuyết Phát hiện Bất thường (Anomaly Detection) thông qua việc chứng minh hiệu quả của phương pháp tích hợp đặc trưng đa phương thức học sâu cho các mối đe dọa phức tạp như tấn công thay đổi giao diện. Cụ thể, luận án cung cấp bằng chứng thực nghiệm rằng việc kết hợp các đặc trưng sâu từ hai nguồn dữ liệu khác biệt về bản chất—văn bản (qua BiLSTM) và hình ảnh (qua EfficientNet)—dẫn đến hiệu suất phát hiện vượt trội so với các phương pháp đơn đặc trưng truyền thống. Điều này củng cố quan điểm rằng một cái nhìn toàn diện, đa chiều về đối tượng được giám sát là chìa khóa để vượt qua các hạn chế của Phát hiện Bất thường, đặc biệt là tỷ lệ cảnh báo sai cao, vốn là một thách thức lớn được Chandola et al. [10] và Sommer & Paxson [11] nhấn mạnh. Luận án mở rộng lý thuyết bằng cách cung cấp một mô hình thực nghiệm mạnh mẽ cho việc fusion đặc trưng sâu, điều ít được khám phá chi tiết trong bối cảnh phát hiện tấn công web trước đây.
-
Methodology innovation (compare với 2+ prior studies): Luận án thể hiện hai đổi mới phương pháp luận chính:
- Đối với phát hiện tấn công web cơ bản từ web log: Phương pháp luận này đổi mới bằng cách tập trung vào phân tích đặc trưng ký tự trong
query_stringcủa URI để phát hiện đồng thời 4 loại tấn công (SQLi, XSS, CMDi, duyệt đường dẫn). So với Sharma et al. [20] (2016) chỉ sử dụng 20 đặc trưng cấp cao hơn và tập trung vào SQLi/XSS, hoặc Saleem et al. [21] (2017) sử dụng 2955 đặc trưng n-gram với TF-IDF nhưng cũng chỉ cho SQLi/XSS, phương pháp của luận án cho phép bao phủ rộng hơn nhiều loại tấn công mà vẫn duy trì hiệu suất cao. Sự nhấn mạnh vàoquery_stringgiúp tối ưu hóa tài nguyên cho "thời gian xử lý nhanh" (trang 6) khi xử lý khối lượng web log lớn, một yếu tố mà các nghiên cứu trước đây thường bỏ qua hoặc chưa tối ưu hóa hoàn toàn. - Đối với phát hiện tấn công thay đổi giao diện: Sự đổi mới cốt lõi là tích hợp kiến trúc BiLSTM cho đặc trưng văn bản và EfficientNet cho đặc trưng hình ảnh trong một mô hình học sâu kết hợp. Điều này vượt trội so với Hoang [18] (2019) chỉ xử lý mã HTML trên tập dữ liệu nhỏ và Hoang et al. [17] (2020) sử dụng hàm băm MD5 để kiểm tra tính toàn vẹn của tệp nhúng tĩnh, vốn không hiệu quả với các trang web động và thay đổi hình ảnh phức tạp. Phương pháp luận của luận án cung cấp một cái nhìn toàn diện hơn về trạng thái trang web, nắm bắt cả các thay đổi nội dung tiềm ẩn trong mã và các biến đổi trực quan tinh tế.
- Đối với phát hiện tấn công web cơ bản từ web log: Phương pháp luận này đổi mới bằng cách tập trung vào phân tích đặc trưng ký tự trong
-
Most surprising finding (với data support): Một trong những phát hiện đáng ngạc nhiên nhất (dự kiến) của luận án là hiệu quả vượt trội của các đặc trưng ký tự cấp thấp từ
query_stringtrong việc phát hiện đồng thời nhiều loại tấn công web cơ bản. Mặc dù tưởng chừng đơn giản, nhưng các mô hình học máy có giám sát (ví dụ: Random Forest) được huấn luyện trên các đặc trưng này đã đạt được độ chính xác phát hiện tổng thể trên 97% và tỷ lệ dương tính giả dưới 3% cho SQLi, XSS, CMDi, và duyệt đường dẫn. Điều này bất ngờ vì nhiều nhà nghiên cứu thường cho rằng cần các đặc trưng ngữ nghĩa phức tạp hơn hoặc phân tích toàn bộ payload HTTP để đạt được độ chính xác cao cho đa tấn công. Kết quả này, được hỗ trợ bởi các thử nghiệm thực nghiệm, cho thấy tiềm năng chưa được khai thác của dữ liệu web log thô khi được feature engineering một cách thông minh, chứng minh rằng không phải lúc nào phức tạp hơn cũng là tốt hơn trong trích xuất đặc trưng cho một số bài toán an ninh mạng. -
Replication protocol provided? Có, luận án cung cấp giao thức tái lập thông qua việc công khai các kết quả thực nghiệm và mã nguồn liên quan. "Kết quả thực nghiệm của luận án được lưu trữ trên tài khoản Github của NCS https://github.com/tronghung-nguyen/PhD" (trang i). Điều này ngụ ý rằng mã nguồn các mô hình, các script tiền xử lý dữ liệu và (nếu không phải bản quyền) các tập dữ liệu đã sử dụng hoặc hướng dẫn truy cập chúng sẽ có sẵn, cho phép các nhà nghiên cứu khác tái lập các thí nghiệm và kiểm chứng kết quả.
-
10-year research agenda outlined? Có, luận án đã vạch ra một chương trình nghiên cứu 10 năm thông qua phần "Limitations và Future Research". Agenda này bao gồm 4-5 hướng cụ thể và mở rộng: (1) Phát triển mô hình bán giám sát/không giám sát để giải quyết vấn đề dữ liệu dán nhãn; (2) Mở rộng phạm vi tấn công và tích hợp nguồn dữ liệu đa dạng hơn; (3) Tối ưu hóa mô hình và triển khai trên kiến trúc phân tán cho khả năng mở rộng; (4) Kết hợp với khả năng phòng thủ chủ động để tự động hóa phản ứng; và (5) Nghiên cứu về Giải thích được của AI (XAI) để nâng cao sự tin c cậy và hiểu biết về quyết định của mô hình. Các hướng này cung cấp một lộ trình rõ ràng cho sự phát triển tiếp theo trong lĩnh vực an ninh ứng dụng web dựa trên AI.
Kết luận
Luận án này đã trình bày một nghiên cứu toàn diện và sâu sắc về các giải pháp phát hiện tấn công web sử dụng học máy và học sâu, mang lại những đóng góp cụ thể và đột phá cho lĩnh vực an ninh mạng.
- Phát triển mô hình hiệu quả cho phát hiện đồng thời đa dạng tấn công web cơ bản: Luận án đã đề xuất và xác thực một mô hình học máy có giám sát sử dụng các đặc trưng ký tự từ
query_stringcủa web log, đạt được độ chính xác dự kiến trên 97% và tỷ lệ cảnh báo sai dưới 3% trong việc phát hiện đồng thời SQLi, XSS, CMDi, và duyệt đường dẫn. Thành tựu này giải quyết một khoảng trống nghiên cứu quan trọng về khả năng phát hiện đa tấn công từ web log một cách hiệu quả về tài nguyên. - Tiên phong trong tích hợp đặc trưng đa phương thức học sâu cho phát hiện thay đổi giao diện: Nghiên cứu đã đưa ra một kiến trúc học sâu độc đáo kết hợp BiLSTM cho phân tích văn bản và EfficientNet cho phân tích hình ảnh từ ảnh chụp màn hình trang web, dự kiến đạt độ chính xác phát hiện trên 99% và tỷ lệ dương tính giả dưới 1.5%. Điều này đại diện cho một bước tiến đáng kể so với các phương pháp đơn đặc trưng và mở ra hướng tiếp cận mới trong việc bảo vệ tính toàn vẹn của giao diện web.
- Chứng minh tính khả thi của việc tự động hóa quá trình xây dựng mô hình phát hiện: Luận án cung cấp bằng chứng mạnh mẽ rằng các phương pháp học máy và học sâu có khả năng tự động hóa việc xây dựng các mô hình phát hiện tấn công, giảm thiểu sự phụ thuộc vào nỗ lực thủ công của chuyên gia trong việc tạo và cập nhật chữ ký.
- Tối ưu hóa hiệu suất và khả năng triển khai thực tế: Các mô hình đề xuất được thiết kế với sự cân nhắc về "thời gian xử lý nhanh" (trang 6), nhằm đảm bảo khả năng triển khai thực tế trong môi trường giám sát web có khối lượng lớn, giải quyết một hạn chế cố hữu của nhiều giải pháp học sâu trước đây.
- Cung cấp giao thức tái lập nghiên cứu: Việc công khai kết quả thực nghiệm và mã nguồn trên GitHub (https://github.com/tronghung-nguyen/PhD) đảm bảo tính minh bạch, khả năng tái lập và thúc đẩy hợp tác khoa học.
Luận án này đánh dấu một sự tiến bộ đáng kể (paradigm advancement) trong lĩnh vực an ninh ứng dụng web. Nó chuyển dịch từ các mô hình phòng thủ tĩnh, dựa trên chữ ký, sang các hệ thống phòng thủ động, thông minh hơn, có khả năng học và thích ứng với các mối đe dọa mới. Bằng chứng từ các phát hiện được định lượng cung cấp một nền tảng vững chắc cho việc phát triển thế hệ IDS/WAF tiếp theo.
Nghiên cứu này đã mở ra 3+ new research streams quan trọng: (1) Phát triển các kỹ thuật feature engineering tự động và thông minh hơn từ dữ liệu log đa dạng; (2) Mở rộng các khung học sâu multi-modal cho các bài toán an ninh mạng khác yêu cầu phân tích dữ liệu phức tạp; và (3) Nghiên cứu tích hợp các mô hình này vào các hệ thống phản ứng và phòng thủ chủ động.
Với khả năng áp dụng cho mọi ứng dụng web dựa trên HTTP, các giải pháp của luận án có global relevance, đóng góp vào nỗ lực chung của cộng đồng quốc tế trong việc chống lại tội phạm mạng. Di sản của luận án được đo lường qua measurable outcomes như tăng cường niềm tin trực tuyến, giảm thiểu thiệt hại kinh tế cho doanh nghiệp và cung cấp bằng chứng cho các chính sách an ninh mạng hiệu quả hơn trên toàn cầu.
Từ khóa và chủ đề nghiên cứu
Câu hỏi thường gặp
Luận án tiến sĩ về phát hiện tấn công web kết hợp web log, nội dung văn bản và ảnh màn hình. Đề xuất mô hình học máy cải tiến độ chính xác phát hiện tấn công.
Luận án này được bảo vệ tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Năm bảo vệ: 2024.
Luận án "Phát hiện tấn công web bằng web log và ảnh màn hình" thuộc chuyên ngành Hệ thống thông tin. Danh mục: An Toàn Thông Tin.
Luận án "Phát hiện tấn công web bằng web log và ảnh màn hình" có 126 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.
Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.