Chào các bạn! Truyen4U chính thức đã quay trở lại rồi đây!^^. Mong các bạn tiếp tục ủng hộ truy cập tên miền Truyen4U.Com này nhé! Mãi yêu... ♥

15.Đánh giá bộ phân lớp và so sánh chất lượng hai bộ phân lớp

1. Phương pháp chung.

Ta xét t tập mẫu được lấy ngẫu nhiên độc lập cùng phân bố. Ký hiệu Pe là lỗi thực (tỷ lệ lỗi thực chưa biết ) và Pet(n) là tỷ lệ lỗi kiểm tra trong tập co n dữ liêu. Khi đó Pet(n) là ước lượng không chệch của Pe :

                         Pe =E[Pet (n)]                                                                                               (5.20a)

Phương sai :  sqrt(Pe(1-Pe) / n )                                                                                                     (5.20b)

 Khi n đủ lớn (>30), lý thuyết thống kê cho phép kết luận rằng  thì  Pet(n) xấp xỉ phân bố chuẩn với trung bình Pe và phương sai là Pe(1-Pe). Hơn nữa nếu không có thông tin thêm, giá trị có thể xảy ra nhất của Pe là Pet(n), với xác suất khoảng 95% lỗi thực Pe nằm trong khoảng :

Pet(n) ± 1,96 sqrt ( Pe t(n) (1-Pe t(n)) /n )                                                                 (5.20c)

Tổng quát hơn, với khoảng tin cậy N= 1-  alpha  (còn gọi là độ tin cậy) thì Pe thuộc khoảng :

Pet(n) ± ZN  sqrt( Pe_t(n) (1-Pe_t(n)) / n )                                                                 (5.20e)

Trong đó ZN được xác định bằng bảng phân bố chuẩn theo giá trị       /2.   

Ví dụ. Giả định rằng dữ liệu mẫu gồm n = 40 mẫu  và giả thiết có r = 12 lỗi. Lỗi mẫu Pet(40) = 12/40 = 0,30. Nếu khôngcó thông tin khác, ước lượng tốt nhất của lỗi thực Pe là lỗi mẫu 0,30. Tuy nhiên, chúng ta không chắc đây là ước lượng hoàn hảo của lỗi thực. Nếu chúng ta tìm được tập dữ liệu khác D’ gồm 40 mẫu ngẫu nhiên mới, chúng ta có thể mong lỗi mẫu mớiPet(40;D’)  sai khác nhỏ với Pet(40). Chúng ta thấy gì ở sự khác nhau giữa các giá trị ngẫu nhiên trong tập S và S’. Trong thực tế, chúng ta thấy rằng trong khoảng 95 cuộc thử nghiệm, khoảng được tính sẽ bao gồm lỗi thực. Vì lý do này, chúng ta gọi khoảng trên là khoảng tin cậy 95% đối với Pe. Trong mẫu đã nêu, ở đây r=12 và n=40, khoảng tin cậy 95% theo các biểu thức, 0,30  (1,96*0,07) = 0,30 0,14.

2. So sanh

Giả sử ta có hai bộ phân lớp được thiết kế và đã được kiểm tra tra trên tập mẫu S1, S2 bao gồm n1, n2 mẫu ngẫu nhiên tương ứng. Giả sử ta muốn ước lượng sự  khác biệt lỗi thật sự d  giữa hai bộ phân lớp này:

d = P1 e(S1) - P2 e(S2) 

                                                                                                (5.22a)

Ta ước lượng d bởi d' của hai tập mẫu 

 d' = p1 et(n1) - P2 et(n2)                                                                                (5.22b)

Mặc dù không chứng minh nhưng ta có thể thấy rằngd' là một ước lượng không chệch của d; E[  d' ] = d. Với n1, n2 lớn (ví dụ n1, n2 ≥ 30), cả hai hàm P1 et(n1) và P2 et(n2) đều được xấp xỉ bởi phân phối chuẩn. Do hiệu của hai phân phối chuẩn cũng là phân phối chuẩn nên d' cũng được xấp xỉ bởi phân phối chuẩn, với kỳ vọng là d. Ngoài ra thì phương sai của phân phối này là :

 Xichma_d^2 = P1 et(n1) (1-P1 et(n1)) / n1   +  P2 et(n1)( 1-P2 et(n1))/n2 (5.22c)

Vậy ước lượng khoảng tin cậy N cho d

d' +- Zn sqrt(xichma)

(5.22d)

với zN  là hằng số đựơc xác định như trong bảng phân bố chuẩn ứng với giá trị alpha/2, trong đó alpha =1-N Tương tự ta có thể dùng lý thuyết thống kê để đánh giá bộ phân lớp nào tốt hơn.

Bạn đang đọc truyện trên: Truyen4U.Com

Tags: