7. ID3 chon thuoc tinh
7)Hãy cho biết các tiêu chuẩn chọn thuộc tính và cách xử lý mẫu huấn luyện khi có giá trị thuộc tính bị mất để nâng cao hiệu quả ID3 .
Tiêu chuẩn chọn thuộc tính.
- Việc sử dụng thu hoạch thông tin làm tiêu chuẩn chọn thuộc tính là ưu tiên cho các thuộc tính có nhiều giá trị hơn các thuộc tính có ít giá trị, tiêu chuẩn này chưa hẳn là tốt.
- Một phương pháp khác đã được sử dụng thành công là tỷ lệ thu hoạch. Phương pháp tỷ lệ thu hoạch này phạt các thuộc tính dạng như date bằng cách thêm vào vào một hạng tử gọi là thông tin chia (Splitinformation) rất nhạy cảm với việc đánh giá tính rộng và đồng nhất khi chia tách dữ liệu theo thuộc tính:
Splitinformation(S,A) = Tổng (Si/S log2 Si/S
trong đó S1 đến Sc là c tập con của các mẫu khi phân chia S theo c giá trị của thuộc tính A. Splitinformation(S,A) thực tế là entropy của S ứng với giá trị của thuộc tính A.
Phương pháp (Gain Ration) được định nghĩa trong các nhóm phương pháp tương ứng với split information như sau:
GainRatio (S,A) =Gain(S,A) /Splitinformation(S,A)
Một vấn đề thực tế là sử dụng GainRatio thay cho Gain để lựa chọn các thuộc tính thì mẫu số có thể bằng 0 hoặc rất nhỏ khi |Si| xấp xỉ |S|. Điều này tạo ra GainRatio không xác định được hoặc rất lớn với thuộc tính có cùng giá trị cho tất cả các thành phần của S. Để tránh việc lựa chọn các thuộc tính chỉ trên cơ sở này, chúng ta có thể chấp nhận một kinh nghiệm là đầu tiên tính toán Gain cho mỗi thuộc tính, sau đó áp dụng GainRatio chỉ kiểm tra cho các thuộc tính này với giá trị Gain trên trung bình .
Xử lý mẫu huấn luyện với giá trị thuộc tính bị mất.
- Xét trường hợp Gain(S,A) được tính tại nút n trong cây quyết định để đánh giá xem thuộc tính a có là thuộc tính tốt nhất để kiểm tra ở nút quyết định này. Giả sử rằng (x, c(x)) là một trong các ví dụ học trong S và giá trị A(x) là chưa biết.
- Một chiến lược để làm việc với giá trị thuộc tính thiếu là gán cho nó giá trị phổ biến nhất trong các mẫu học tại nút n có phân lớp c(x).
- Thủ tục thứ hai phức tạp hơn là gán một xác suất cho mỗi giá trị có thể của A hơn là gán đơn giản giá trị phổ biết nhất cho A(x). Những xác suất này chúng ta ước lượng lại dựa vào rất nhiều giá trị được quan sát của A trong số các ví dụ tại nút n. Chẳng hạn, cho một thuộc tính A giá trị bun, nếu nút n chứa 6 mẫu đã biết với A=1 và 4 mẫu đã biết với A=0. Sau đó chúng ta có thể nói xác suất để A(x)=1 là 0.6 và xác suất để A(x)=0 là 0.4. phân tỷ lệ 0,6 xuống nhánh ứng với A=1 và phần lẻ 0.4 của x được đưa xuống nhánh khác của cây. Những phần lẻ này được sử dụng cho mục đích tính toán thông tin Gain và hơn nữa có thể chia nhỏ các nhánh tiếp theo của cây nếu có lỗi thứ hai thì giá trị thuộc tính phải được kiểm tra. Các phần lẻ giống nhau của ví dụ có thể cũng được dùng trong nghiên cứu tiếp sau để phân loại biến mới mà giá trị thuộc tính chưa biết.
- Trong trường hợp này, sự phân lớp biến mới đơn giản xếp vào lớp phổ biến nhất, được tính bằng cách lấy tổng phần lẻ của các biến đã được phân loại theo nhiều chách khác nhau tại các nút là của cây.
Bạn đang đọc truyện trên: Truyen4U.Com