Ứng dụng học máy bán giám sát trong phân lớp văn bản

Võ Duy Thanh, Trần Văn Đại, Đỗ Công Đức 

Trường Cao đẳng CNTT Hữu nghị Việt – Hàn  

{ Địa chỉ email này đã được bảo vệ từ spam bots, bạn cần kích hoạt Javascript để xem nó. , Địa chỉ email này đã được bảo vệ từ spam bots, bạn cần kích hoạt Javascript để xem nó. , congducvhit}@gmail.com

 

Tóm tắt

Trong bài báo này chúng tôi trình bày giải pháp ứng dụng học bán giám sát SVM trong phân lớp văn bản, học bán giám sát là một lớp giải thuật trong học máy và được ứng dụng thành công trong nhiều lĩnh vực khác nhau. Giải thuật học máy SVM thường được sử dụng cho các bài toán phân lớp từ một tập huấn luyện được chọn lựa ngẫu nhiên đã được phân loại trước, sau đó áp dụng kết hợp vào các nhãn chưa biết. Để có được một kết quả phân loại tốt thường tập huấn luyện này chứa một tập rất lớn các mẫu có nhãn. Việc gán nhãn trên dữ liệu mất rất nhiều thời gian và không chính xác. Mốt số giải thuật giải quyết được vấn đề này với một lượng nhỏ mẫu gán nhãn và một lượng lớn các trường hợp không có nhãn. Học bán giám sát sử dụng tất cả các dữ liệu được gán nhãn để xây dựng các mô hình. Sự lựa chọn các trường hợp không có nhãn để gán nhãn tiếp theo có tác động tốt đến chất lượng của kết quả mô hình đề xuất giải pháp SVMLin.

Full text download