Thông tin LATS của NCS Nguyễn Thị Xuân Hương

TIN TỨC & SỰ KIỆN

Trang nhất

14:43:29 Ngày 19/12/2020 GMT+7

Tên đề tài: Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm

1. Họ và tên: Nguyễn Thị Xuân Hương 2. Giới tính: Nữ

3. Ngày sinh: 03/02/1976 4. Nơi sinh: Hải Phòng

5. Quyết định công nhận nghiên cứu sinh số: 1146, ngày 08 .tháng. 12 năm 2010 của Hiệu trưởng trường Đại học Công nghệ.

6. Các thay đổi trong quá trình đào tạo:

Đổi tên Luận án: “Nghiên cứu học máy thống kê cho phân tích quan điểm”, thời gian: 01/12/2012.

7. Tên đề tài luận án: Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm.

8. Chuyên ngành: Khoa học máy tính 9. Mã số: 62.48.01.01

10. Cán bộ hướng dẫn khoa học: PGS. TS. Lê Anh Cường; PGS. TS. Nguyễn Lê Minh

11. Tóm tắt các kết quả mới của luận án:

- Phân tích và đề xuất các phương pháp trích chọn đặc trưng hữu ích làm dữ liệu vào cho các phương pháp học máy để phân loại bình luận chủ quan hay khách quan bằng tiếng Anh và tiếng Việt. Phương pháp thứ nhất được đề xuất là trích các đặc trưng ngôn ngữ dựa trên các mẫu ngữ pháp cho để phân loại tính chủ quan bằng phương pháp Maximum Entropy. Phương pháp được thử nghiệm trên bộ dữ liệu đánh giá phim ảnh bằng tiếng Anh, và kết quả thực hiện cho độ chính xác đạt tới 92.1%. Phương pháp thứ hai là học thống kê để trích các đặc trưng ngữ pháp thể hiện quan điểm dựa trên các mẫu được học một cách tự động và sử dụng các mẫu tốt nhất đã được học để trích các thông tin hữu ích làm đầu vào cho các thuật toán phân loại SVM và NB để xác định xem một bình luận cho thuộc về lớp chủ quan hay khách quan về các sản phẩm công nghệ được thu thập từ các trang sản phẩm và diễn đàn. Luận án cũng phân tích việc kết hợp các đặc trưng này với 1-gram, 2-gram để làm tăng độ chính xác của mô hình. Kết quả tốt nhất là 84,04% khi phân loại bình luận chủ quan bằng SVM.

- Đề xuất một mô hình tích hợp các đặc trưng giàu thông tin bên ngoài vào mô hình mạng nơ ron tích chập để làm tăng hiệu năng thực hiện cho mô hình trong đó sử dụng đặc trưng đầu vào là các véc tơ biểu diễn từ. Các đặc trưng này được trích xuất dựa vào TF-IDF của các từ loại là tính từ và động từ. Thử nghiệm phương pháp trên tập dữ liệu ABSA 2016 đã được gán nhãn các bình luận bằng tiếng Anh cho dữ liệu đánh giá nhà hàng. Kết quả của phương pháp có điểm F1 tốt nhất, tốt hơn nhiều so với một số mô hình nghiên cứu khác trước đó cho bài toán này được so sánh trên cùng bộ dữ liệu.

- Đề xuất hai phương pháp chuẩn hóa để tiền xử lý phù hợp cho dữ liệu Microblog tiếng Việt, phương pháp thứ nhất để kiểm tra chính tả sử dụng mô hình ngôn ngữ n-gram được huấn luyện từ kho ngữ liệu lớn, phương pháp thứ hai sử dụng hệ thống kiểm tra từ viết tắt và kiểm tra chính tả trong tách từ. Các phương pháp này đã được áp dụng cho dữ liệu quan điểm tiếng Việt dạng Microblog và kết quả thu được đã chứng minh chúng ảnh hưởng tốt đến độ chính xác của các phương pháp phân tích quan điểm. Các phương pháp này đã được áp dụng cho bước tiền xử lý dữ liệu quan điểm trong phân loại tính chủ quan cho dữ liệu Microblog tiếng Việt của chúng tôi.

12. Khả năng ứng dụng trong thực tiễn: Đề tài luận án có thể được áp dụng vào các hệ thống phân tích đánh giá ý kiến người dùng cho các sản phẩm, dịch vụ, v.v. trên thực tế. 13. Những hướng nghiên cứu tiếp theo: Nghiên cứu các phương pháp tích hợp các đặc trưng hữu ích khác và phát triển mô hình học hiệu quả cho phân tích tính chủ quan và phân tích tình cảm theo khía cạnh cho cả dữ liệu tiếng Anh và tiếng Việt.

14. Các công trình đã công bố có liên quan đến luận án:

2012, “Linguistic Features for Subjectivity Classification.”, In Proc. of the 6th International Conf. The International Conference on Asian Language Processing (IALP 2012), pp. 17-20.

2014, “Adapting Vietnamese Word Segmentation for Microblog-Style Data”, In In Proc., The Third Asian Conference on Information Systems, pp. 164-171.

2014, “Automatically Learning Patterns in Subjectivity Classification for Vietnamese”, In Proc. The Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), pp. 675-690.

2014, “Using Large N-gram for Vietnamese Spell Checking”, In Proc. The Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), pp. 655-674.

2018, “Adding External Features to Convolutional Neural Network for Aspect-based Sentiment Analysis”, In In Proc. The 5th NAFOSTED Conference on Information and Computer Science (NICS), pp. 53-59

Phạm Minh Khuê