Luận án tiến sĩ khoa học máy tính phân tích cảm xúc trên cơ sở trị cảm xúc chuyể
đại học bách khoa
Khoa học máy tính
Ẩn danh
Luận án tiến sĩ
Năm xuất bản
Số trang
193
Thời gian đọc
29 phút
Lượt xem
0
Lượt tải
0
Phí lưu trữ
50 Point
Mục lục chi tiết
LỜI CAM ĐOAN
TÓM TẮT LUẬN ÁN
ABSTRACT
LỜI CÁM ƠN
DANH MỤC CÁC HÌNH ẢNH
DANH MỤC BẢNG BIỂU
DANH MỤC CÁC TỪ VIẾT TẮT
1. CHƯƠNG 1: GIỚI THIỆU
1.1. Đề xuất nghiên cứu
1.2. Mục đích và phạm vi nghiên cứu
1.3. Các đóng góp của luận án
1.4. Cấu trúc của luận án
2. CHƯƠNG 2: PHÂN TÍCH CẢM XÚC VÀ SỰ DỊCH CHUYỂN CẢM XÚC
2.1. Phân tích cảm xúc
2.1.1. Một số hướng tiếp cận cho phân tích cảm xúc
2.1.1.1. Tiếp cận hướng đến ngữ nghĩa
2.1.1.2. Tiếp cận theo học máy
2.2. Sự dịch chuyển cảm xúc và những vấn đề cần nghiên cứu
2.2.1. Hiện tượng dịch chuyển cảm xúc
2.2.2. Khoảng trống trong nghiên cứu
2.3. Tổng kết chương 2
3. CHƯƠNG 3: XÁC ĐỊNH SỰ DỊCH CHUYỂN TRỊ CẢM XÚC CỦA TỪ VÀ CỤM TỪ
3.1. Động cơ nghiên cứu
3.2. Mô hình tính toán trị cảm xúc và sự dịch chuyển cảm xúc của từ, cụm từ trong các nhận xét tiếng Việt
3.2.1. Xác định trị cảm xúc cho từ
3.2.2. Xác định trị cảm xúc cho cụm từ
3.3. Phân tích đánh giá
3.4. Tổng kết chương 3
4. CHƯƠNG 4: PHÁT HIỆN KHÍA CẠNH VÀ TRỊ CẢM XÚC TRONG CÁC NHẬN XÉT TIẾNG VIỆT
4.1. Giới thiệu bài toán phân tích cảm xúc mức khía cạnh
4.1.1. Xác định và rút trích khía cạnh
4.1.2. Xác định cảm xúc của khía cạnh
4.2. Khai thác mối quan hệ phụ thuộc của các từ để rút trích đồng thời khía cạnh và từ cảm xúc tương ứng
4.3. Mô hình phát hiện khía cạnh và trị cảm xúc
4.3.1. Tập luật rút trích khía cạnh và từ mang cảm xúc tươmg ứng
4.3.2. Xây dựng ontology để gom nhóm các khía khía cạnh
4.3.2.1. Hệ thống tra cứu thông tin khách sạn
4.3.2.2. Xây dựng cơ sở trí thức khách sạn
4.3.2.3. Xây dựng bộ xử lý ngôn ngữ tiếng Việt
4.4. Nhận xét đánh giá
4.5. Tổng kết chương 4
5. CHƯƠNG 5: ĐỀ XUẤT PHƯƠNG PHÁP HỌC TỔ HỢP CHO PHÂN LỚP CẢM XÚC CÁC NHẬN XÉT TIẾNG VIỆT
5.1. Động cơ nghiên cứu
5.2. Mô hình học tổ hợp cho phân lớp cảm xúc
5.2.1. Học tổ hợp
5.2.2. Phát hiện đặc trưng gây dịch chuyển trị cảm xúc và đặc trưng tiềm ẩn
5.2.3. Các bộ học thành phần và bộ học tổ hợp
5.2.4. Mô hình học tổ hợp đề xuất
5.3. Phân tích đánh giá
5.4. Mô hình học tổ hợp hướng đến ngữ cảnh cho phân lớp cảm xúc
5.4.1. Bộ học thành phần sử dụng cơ chế attention (attention classifier)
5.5. Tổng kết chương 5
6. CHƯƠNG 6: KẾT LUẬN
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
TÀI LIỆU THAM KHẢO
SƠ LƯỢC ĐẶC TRƯNG NGÔN NGỮ TIẾNG VIỆT
1. Tính từ trong tiếng Việt
2. Động từ trong tiếng Việt
3. Phó từ trong tiếng Việt
PHỤ LỤC 2: DANH SÁCH MỘT SỐ CỤM TỪ CẢM XÚC
PHỤ LỤC 3: VĂN PHẠM PHỤ THUỘC
1. Văn phạm phụ thuộc
2. Mối quan hệ phụ thuộc của một số từ loại trong tiếng Việt
2.1. Quan hệ phụ thuộc giữa danh từ và động từ
2.2. Quan hệ phụ thuộc giữa danh từ và tính từ
2.3. Quan hệ phụ thuộc giữa động từ và tính từ
2.4. Quan hệ phụ thuộc giữa động từ và động từ
Tóm tắt nội dung
I.Giới thiệu Phân tích Cảm xúc Tiếng Việt và NLP
Phân tích cảm xúc là một lĩnh vực trọng tâm của xử lý ngôn ngữ tự nhiên (NLP). Nó tập trung vào việc xác định và trích xuất ý kiến, thái độ, và cảm xúc từ văn bản. Công nghệ này đặc biệt hữu ích cho việc khai thác các ý kiến trong nội dung do người dùng tạo ra trên các nền tảng mạng xã hội, diễn đàn trực tuyến hoặc đánh giá sản phẩm. Tuy nhiên, các hệ thống phân tích cảm xúc hiện tại vẫn còn nhiều hạn chế, đặc biệt khi áp dụng cho tiếng Việt. Ngôn ngữ tiếng Việt sở hữu cấu trúc ngữ pháp phức tạp, nhiều sắc thái biểu cảm đặc trưng, và thường xuyên xuất hiện các hiện tượng ngôn ngữ gây nhầm lẫn. Điều này làm cho bài toán nhận diện cảm xúc trở nên khó khăn hơn. Các công cụ hiện tại thường gặp phải vấn đề về hiệu năng thấp, xuất phát từ bản chất phức tạp của bài toán NLP này. Chúng chưa thể xử lý hiệu quả một số hiện tượng ngôn ngữ như dịch chuyển cảm xúc theo ngữ cảnh và văn bản mang ý kiến hỗn hợp. Luận án này đặt mục tiêu giải quyết những thách thức cố hữu đó. Nó nhằm nâng cao đáng kể độ chính xác của quá trình phân tích cảm xúc cho tiếng Việt. Việc này dựa trên nền tảng vững chắc của khoa học dữ liệu và sử dụng các công cụ mạnh mẽ từ trí tuệ nhân tạo (AI). Nghiên cứu này đóng góp vào sự phát triển của các thuật toán phân loại cảm xúc.
1.1. Thách thức trong Nhận diện Cảm xúc hiệu quả
Nhận diện cảm xúc là một bài toán phức tạp trong lĩnh vực xử lý ngôn ngữ tự nhiên. Tiếng Việt sở hữu nhiều đặc điểm ngôn ngữ độc đáo, tạo ra không ít khó khăn cho việc phân tích. Một trong những thách thức lớn nhất là hiện tượng dịch chuyển cảm xúc theo ngữ cảnh. Đây là khi sắc thái cảm xúc của một từ hoặc cụm từ thay đổi hoàn toàn tùy thuộc vào các từ xung quanh. Ví dụ, từ "khủng" có thể mang nghĩa "khủng khiếp" (tiêu cực) trong một câu, nhưng lại có nghĩa "tuyệt vời" (tích cực) trong câu khác. Ngoài ra, văn bản mang ý kiến hỗn hợp, tức là chứa cả cảm xúc tích cực và tiêu cực trong cùng một đoạn, cũng là một trở ngại đáng kể. Việc xác định chính xác sắc thái cảm xúc trong những trường hợp này trở nên cực kỳ phức tạp đối với các mô hình hiện tại. Hầu hết các phương pháp truyền thống thường bỏ qua hoặc xử lý chưa hiệu quả các yếu tố ngữ cảnh tinh tế này. Điều đó dẫn đến kết quả phân loại cảm xúc không chính xác, làm giảm độ tin cậy của hệ thống. Do đó, cần thiết phải phát triển các phương pháp tiếp cận mới, toàn diện hơn, có khả năng nắm bắt được sự tinh tế của ngôn ngữ. Các kỹ thuật học máy và học sâu được xem xét như giải pháp tiềm năng để giải quyết những vấn đề này trong khoa học dữ liệu.
1.2. Vai trò của Xử lý Ngôn ngữ Tự nhiên NLP
Xử lý ngôn ngữ tự nhiên (NLP) là nền tảng không thể thiếu của phân tích cảm xúc. NLP cung cấp các công cụ và kỹ thuật cho phép máy tính hiểu, diễn giải và xử lý ngôn ngữ con người. Trong bối cảnh phân tích cảm xúc tiếng Việt, các kỹ thuật NLP giúp thực hiện nhiều tác vụ quan trọng như tách từ, gán nhãn từ loại, phân tích cú pháp, và trích xuất thông tin. Nó cũng hỗ trợ biểu diễn văn bản thành các định dạng mà mô hình học máy và học sâu có thể xử lý hiệu quả. Tuy nhiên, việc áp dụng NLP cho tiếng Việt đối mặt với nhiều thách thức đặc thù. Các công cụ và tài nguyên cần được tùy chỉnh và cải tiến để phù hợp với ngữ cảnh ngôn ngữ. Luận án này phát triển các phương pháp NLP tiên tiến, đặc biệt chú trọng vào việc giải quyết vấn đề dịch chuyển cảm xúc. Việc áp dụng các kỹ thuật từ học máy (Machine Learning) và học sâu (Deep Learning), bao gồm cả mạng nơ-ron, là cần thiết để xây dựng một hệ thống nhận diện cảm xúc mạnh mẽ và chính xác. Trí tuệ nhân tạo đóng vai trò quan trọng trong việc thúc đẩy khả năng hiểu ngôn ngữ của máy tính.
II.Nâng cao Phân tích Cảm xúc với Dịch chuyển Ngữ cảnh
Luận án này đặc biệt chú trọng hiện tượng dịch chuyển cảm xúc theo ngữ cảnh. Đây là yếu tố then chốt để cải thiện hiệu năng của các hệ thống phân tích cảm xúc. Việc hiểu và xử lý hiệu quả dịch chuyển cảm xúc giúp hệ thống đạt được độ chính xác cao hơn. Một phương pháp tiếp cận mới được đề xuất, tập trung vào sự thay đổi trị cảm xúc của từ và cụm từ. Cách tiếp cận này áp dụng đặc biệt cho các nhận xét tiếng Việt. Các thử nghiệm thực nghiệm đã chứng minh rằng việc quan tâm đúng mức đến ngữ cảnh là chìa khóa để giải quyết vấn đề. Điều này giúp nâng cao đáng kể độ tin cậy của phân tích cảm xúc. Khoa học máy tính cung cấp khung lý thuyết và công cụ cần thiết để phát triển mô hình này. Việc tích hợp sâu sắc ngữ nghĩa vào quá trình phân tích là trọng tâm của nghiên cứu. Điều này đảm bảo rằng các sắc thái cảm xúc được nắm bắt một cách toàn diện, vượt qua những hạn chế của các phương pháp chỉ dựa vào từ điển tĩnh. Công trình này đóng góp đáng kể vào lĩnh vực trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên, đặc biệt là nhận diện cảm xúc cho tiếng Việt.
2.1. Xây dựng Kho Từ vựng Cảm xúc Tiếng Việt đặc thù
Một mục tiêu quan trọng của luận án là xây dựng một kho từ vựng cảm xúc toàn diện. Kho từ vựng này được thiết kế riêng cho tiếng Việt. Nó phục vụ cho việc phân tích cảm xúc ở cả mức từ, cụm từ và mức khía cạnh. Kho từ vựng được xây dựng để phản ánh chính xác các sắc thái cảm xúc, bao gồm cả những từ ngữ có khả năng dịch chuyển nghĩa tùy theo ngữ cảnh. Mỗi từ hoặc cụm từ trong kho từ vựng đều được gán một trị cảm xúc cơ bản, đóng vai trò làm điểm khởi đầu cho việc phân tích ngữ cảnh. Đây là một nguồn dữ liệu quan trọng, cung cấp nền tảng vững chắc cho các hệ thống phân loại cảm xúc tiếp theo. Việc có một kho từ vựng chất lượng cao giúp giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn thủ công tốn kém và mất thời gian. Nó cung cấp một nền tảng mạnh mẽ cho các kỹ thuật xử lý ngôn ngữ tự nhiên, hỗ trợ việc biểu diễn văn bản một cách hiệu quả hơn. Kho từ vựng này là một đóng góp thiết yếu vào khoa học dữ liệu tiếng Việt, đặc biệt trong lĩnh vực phân tích cảm xúc.
2.2. Hiểu rõ Dịch chuyển Trị cảm xúc theo ngữ cảnh
Dịch chuyển trị cảm xúc là một hiện tượng phức tạp và là thách thức lớn đối với nhận diện cảm xúc. Hiện tượng này xảy ra khi sắc thái cảm xúc của một từ hoặc cụm từ thay đổi hoàn toàn tùy thuộc vào ngữ cảnh xung quanh nó. Ví dụ điển hình là câu "phim dở nhưng diễn viên đẹp". Trong câu này, "dở" mang nghĩa tiêu cực, nhưng "đẹp" lại mang nghĩa tích cực, tạo nên một ý kiến hỗn hợp. Hệ thống phân tích cảm xúc cần có khả năng nhận diện và xử lý linh hoạt sự thay đổi này. Luận án đã nghiên cứu sâu các trường hợp cụ thể gây ra dịch chuyển cảm xúc trong văn bản tiếng Việt. Nó phát triển một mô hình tính toán trị cảm xúc động. Mô hình này không chỉ dựa vào giá trị cảm xúc tĩnh của từ mà còn xem xét toàn bộ ngữ cảnh xung quanh từ đó. Việc này giúp hệ thống nhận diện cảm xúc chuẩn xác hơn trong những tình huống phức tạp. Đây là một đóng góp lớn vào lĩnh vực trí tuệ nhân tạo và khoa học máy tính, đặc biệt là trong việc phát triển các thuật toán phân loại có khả năng hiểu sâu sắc hơn về ngôn ngữ con người.
III.Ứng dụng Học máy Học sâu trong Phân loại Cảm xúc
Luận án áp dụng các kỹ thuật tiên tiến nhất từ học máy (Machine Learning) và học sâu (Deep Learning) để giải quyết bài toán phân loại cảm xúc. Một phương pháp định hướng ngữ nghĩa được kết hợp một cách chiến lược với các mô hình này. Sự kết hợp này tạo ra một phương pháp học tổ hợp mạnh mẽ và linh hoạt. Nó đặc biệt hiệu quả trong việc xử lý các văn bản tiếng Việt phức tạp, nơi có nhiều sắc thái và hiện tượng dịch chuyển cảm xúc. Việc sử dụng mạng nơ-ron (Neural Networks), một nhánh của học sâu, giúp mô hình tự động học được các biểu diễn văn bản sâu sắc và trừu tượng. Các biểu diễn này phản ánh tốt hơn ngữ nghĩa và cảm xúc thực sự của văn bản. Điều này mang lại hiệu suất phân loại cao hơn đáng kể so với các phương pháp truyền thống. Trí tuệ nhân tạo (AI) đóng vai trò trung tâm trong quá trình phát triển các mô hình này, cung cấp khả năng học hỏi và thích nghi vượt trội. Công trình này minh chứng sức mạnh của khoa học dữ liệu khi kết hợp các phương pháp đa dạng để giải quyết những thách thức phức tạp.
3.1. Kết hợp Phương pháp Định hướng Ngữ nghĩa sâu sắc
Phương pháp định hướng ngữ nghĩa là trọng tâm trong cách tiếp cận của luận án. Nó giúp hệ thống không chỉ phân tích cảm xúc dựa trên từ khóa đơn lẻ. Thay vào đó, nó hiểu sâu sắc hơn về ý nghĩa tổng thể của văn bản và mối quan hệ giữa các thành phần ngôn ngữ. Việc này đặc biệt quan trọng khi xử lý hiện tượng dịch chuyển cảm xúc. Phương pháp định hướng ngữ nghĩa cung cấp một cái nhìn toàn diện hơn về ngữ cảnh, cho phép mô hình điều chỉnh trị cảm xúc của từ dựa trên môi trường xung quanh. Bằng cách tích hợp sâu sắc ngữ nghĩa vào các kỹ thuật học máy, hệ thống nhận diện cảm xúc có khả năng nắm bắt được những sắc thái tinh tế nhất. Điều này giúp cải thiện đáng kể độ chính xác tổng thể của hệ thống, giảm thiểu sai sót do hiểu lầm ngữ cảnh. Việc này là một bước tiến quan trọng trong khoa học dữ liệu, mở ra khả năng cho các hệ thống trí tuệ nhân tạo có thể hiểu ngôn ngữ con người một cách chân thực hơn.
3.2. Phát triển Thuật toán Phân loại Cảm xúc hiệu quả
Luận án tập trung vào việc phát triển và ứng dụng các thuật toán phân loại tiên tiến. Các kỹ thuật học máy truyền thống như máy vector hỗ trợ (SVM) hoặc Naive Bayes được xem xét và so sánh. Tuy nhiên, trọng tâm chính là các mô hình học sâu, đặc biệt là mạng nơ-ron. Mạng nơ-ron có khả năng vượt trội trong việc tự động trích xuất các đặc trưng phức tạp từ dữ liệu thô. Điều này giúp xử lý biểu diễn văn bản một cách hiệu quả hơn, không cần đến quá trình trích xuất đặc trưng thủ công tốn thời gian. Các kiến trúc mạng nơ-ron như CNN (Mạng nơ-ron tích chập) hoặc RNN (Mạng nơ-ron hồi quy) được tùy chỉnh và tối ưu hóa cho bài toán phân loại cảm xúc tiếng Việt. Mục tiêu là đạt được hiệu suất cao nhất trong việc phân loại cảm xúc ở cấp độ văn bản. Sự kết hợp giữa các thuật toán học máy và học sâu, cùng với phương pháp định hướng ngữ nghĩa, cho thấy hiệu quả vượt trội. Các thuật toán này góp phần quan trọng vào việc xây dựng một hệ thống trí tuệ nhân tạo mạnh mẽ cho nhận diện cảm xúc.
IV.Khoa học Dữ liệu cải thiện Hệ thống Nhận diện Cảm xúc AI
Khoa học dữ liệu đóng vai trò thiết yếu, cung cấp nền tảng thực nghiệm vững chắc để đánh giá và cải thiện hệ thống. Các thử nghiệm được thực hiện một cách kỹ lưỡng trên các tập dữ liệu tiếng Việt thực tế, đa dạng. Kết quả của những thực nghiệm này đã chứng minh rõ ràng hiệu quả vượt trội của phương pháp đề xuất. Cụ thể, việc quan tâm đúng mức đến hiện tượng dịch chuyển cảm xúc theo ngữ cảnh đã mang lại độ chính xác cao hơn đáng kể cho hệ thống. Đồng thời, sự kết hợp linh hoạt và hiệu quả của nhiều kỹ thuật khác nhau cũng là yếu tố then chốt. Nghiên cứu này không chỉ đóng góp vào lĩnh vực học máy và học sâu mà còn mở ra những hướng mới cho nhận diện cảm xúc trong trí tuệ nhân tạo. Nó cung cấp bằng chứng thực nghiệm về việc tích hợp sâu sắc ngữ nghĩa và ngữ cảnh có thể dẫn đến những cải tiến đáng kể. Các phát hiện này có ý nghĩa quan trọng đối với các ứng dụng thực tế, từ phân tích ý kiến khách hàng đến giám sát mạng xã hội.
4.1. Đánh giá Hiệu năng Hệ thống AI chính xác
Hiệu năng của hệ thống được đánh giá một cách cẩn thận và toàn diện. Các chỉ số đo lường hiệu suất tiêu chuẩn như độ chính xác (Accuracy), độ phủ (Recall), và F1-score được sử dụng để định lượng kết quả. Các thực nghiệm được tiến hành trên nhiều tập dữ liệu tiếng Việt khác nhau, đảm bảo tính khách quan và khả năng tổng quát hóa của mô hình. Kết quả thực nghiệm đã cho thấy sự cải thiện rõ rệt về hiệu suất so với các phương pháp phân tích cảm xúc truyền thống. Hệ thống mới, tích hợp việc xử lý dịch chuyển cảm xúc, đã vượt trội trong việc phân loại cảm xúc. Sự chú trọng vào ngữ cảnh và sự kết hợp của các phương pháp học máy và học sâu đóng góp lớn vào sự cải thiện này. Điều này khẳng định tính đúng đắn và hiệu quả của hướng nghiên cứu. Khoa học máy tính đã cung cấp các công cụ và phương pháp luận cần thiết để đạt được những kết quả ấn tượng này, đẩy mạnh khả năng của trí tuệ nhân tạo trong việc hiểu ngôn ngữ.
4.2. Tiềm năng Ứng dụng Trí tuệ Nhân tạo rộng lớn
Nghiên cứu này có tiềm năng ứng dụng rộng lớn trong nhiều lĩnh vực của trí tuệ nhân tạo. Nó có thể cải thiện đáng kể các công cụ phân tích ý kiến khách hàng, giúp doanh nghiệp hiểu sâu hơn về phản hồi của người dùng. Các hệ thống khuyến nghị sản phẩm và dịch vụ cũng sẽ được hưởng lợi, trở nên thông minh và cá nhân hóa hơn. Ứng dụng trong giám sát mạng xã hội để theo dõi xu hướng dư luận hoặc phát hiện các vấn đề xã hội là hoàn toàn khả thi. Việc nhận diện cảm xúc chính xác và nhạy cảm với ngữ cảnh giúp các doanh nghiệp và tổ chức đưa ra quyết định kinh doanh hoặc chính sách tốt hơn. Ngoài ra, nó còn góp phần vào sự phát triển chung của trí tuệ nhân tạo, đặc biệt trong lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt. Đây là một bước tiến quan trọng hướng tới việc xây dựng các hệ thống AI có khả năng hiểu cảm xúc con người một cách sâu sắc và tinh tế hơn, mở ra nhiều cơ hội mới trong tương lai của khoa học dữ liệu và công nghệ.
Tải xuống file đầy đủ để xem toàn bộ nội dung
Tải đầy đủ (193 trang)Câu hỏi thường gặp
Tài liệu: Luận án tiến sĩ khoa học máy tính phân tích cảm xúc trên cơ sở trị cảm xúc chuyển dịch theo ngữ cảnh cho tiếng việt. Tải miễn phí tại TaiLieu.VN
Luận án này được bảo vệ tại đại học bách khoa. Năm bảo vệ: 2021.
Luận án "Luận án tiến sĩ khoa học máy tính phân tích cảm xúc trên cơ" thuộc chuyên ngành Khoa học máy tính. Danh mục: Kỹ Thuật Cơ Khí.
Luận án "Luận án tiến sĩ khoa học máy tính phân tích cảm xúc trên cơ" có 193 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.
Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.