Overfitting là gì?

20

Overfitting là gì?

Overfitting là một lỗi lập mô hình trong thống kê xảy ra khi một hàm được căn chỉnh quá chặt chẽ với một tập hợp giới hạn các điểm dữ liệu. Do đó, mô hình chỉ hữu ích khi tham chiếu đến tập dữ liệu ban đầu của nó chứ không phải bất kỳ tập dữ liệu nào khác.

Trang bị quá mức mô hình thường có hình thức tạo ra một mô hình quá phức tạp để giải thích các đặc điểm riêng trong dữ liệu đang nghiên cứu. Trong thực tế, dữ liệu thường được nghiên cứu có một số mức độ lỗi hoặc nhiễu ngẫu nhiên bên trong nó. Do đó, việc cố gắng làm cho mô hình phù hợp quá chặt chẽ với dữ liệu hơi không chính xác có thể khiến mô hình bị nhiễm các lỗi đáng kể và làm giảm khả năng dự đoán của nó.

Tóm tắt ý kiến chính

  • Overfitting là một lỗi xảy ra trong mô hình dữ liệu do một chức năng cụ thể sắp xếp quá chặt chẽ với một tập hợp điểm dữ liệu tối thiểu.
  • Các chuyên gia tài chính có nguy cơ trang bị quá nhiều một mô hình dựa trên dữ liệu hạn chế và kết quả là sai sót.
  • Khi một mô hình bị tổn hại do trang bị quá nhiều, mô hình đó có thể mất giá trị như một công cụ dự đoán để đầu tư.
  • Một mô hình dữ liệu cũng có thể không được trang bị đầy đủ, nghĩa là nó quá đơn giản, với quá ít điểm dữ liệu để có hiệu quả.
  • Mặc quá nhiều là một vấn đề thường xuyên xảy ra hơn so với mặc thiếu và thường xảy ra do cố gắng tránh mặc quá nhiều.

Hiểu biết về Overfitting

Ví dụ, một vấn đề phổ biến là sử dụng các thuật toán máy tính để tìm kiếm cơ sở dữ liệu mở rộng về dữ liệu thị trường lịch sử nhằm tìm ra các mẫu. Với đủ nghiên cứu, người ta thường có thể phát triển các định lý phức tạp để dự đoán lợi nhuận trên thị trường chứng khoán với độ chính xác cao.

Tuy nhiên, khi áp dụng cho dữ liệu bên ngoài mẫu, các định lý như vậy có thể chứng minh chỉ là sự bổ sung quá mức của một mô hình so với những gì trong thực tế chỉ là những sự cố tình cờ. Trong mọi trường hợp, điều quan trọng là phải kiểm tra một mô hình dựa trên dữ liệu nằm ngoài mẫu được sử dụng để phát triển nó.

Làm thế nào để ngăn chặn trang phục quá nhiều

Các cách để ngăn chặn việc trang bị quá nhiều bao gồm xác nhận chéo, trong đó dữ liệu đang được sử dụng để đào tạo mô hình được cắt nhỏ thành các nếp gấp hoặc phân vùng và mô hình được chạy cho từng nếp gấp. Sau đó, ước tính lỗi tổng thể được tính trung bình. Các phương pháp khác bao gồm tập hợp: dự đoán được kết hợp từ ít nhất hai mô hình riêng biệt, tăng cường dữ liệu, trong đó tập dữ liệu có sẵn được tạo ra để trông đa dạng và đơn giản hóa dữ liệu, trong đó mô hình được sắp xếp hợp lý để tránh trang bị quá mức.

Các chuyên gia tài chính phải luôn nhận thức được sự nguy hiểm của việc trang bị quá mức hoặc trang bị thấp hơn một mô hình dựa trên dữ liệu hạn chế. Hình mẫu lý tưởng nên được cân bằng.

Quá thích hợp trong Học máy

Trang bị quá nhiều cũng là một yếu tố trong học máy. Nó có thể xuất hiện khi một máy được dạy quét dữ liệu cụ thể theo một cách, nhưng khi áp dụng quy trình tương tự cho một tập dữ liệu mới, kết quả không chính xác. Điều này là do lỗi trong mô hình đã được xây dựng, vì nó có thể cho thấy độ chệch thấp và phương sai cao. Mô hình có thể có các tính năng thừa hoặc chồng chéo, dẫn đến việc nó trở nên phức tạp không cần thiết và do đó không hiệu quả.

Overfitting so với Underfitting

Một mô hình được trang bị quá nhiều có thể quá phức tạp, khiến nó không hiệu quả. Nhưng một mô hình cũng có thể không được trang bị đầy đủ, nghĩa là nó quá đơn giản, với quá ít tính năng và quá ít dữ liệu để xây dựng một mô hình hiệu quả. Mô hình overfit có độ chệch thấp và phương sai cao, trong khi mô hình underfit thì ngược lại – nó có độ chệch cao và phương sai thấp. Thêm nhiều tính năng hơn vào một mô hình quá đơn giản có thể giúp hạn chế sự sai lệch.

Ví dụ về Overfitting

Ví dụ, một trường đại học đang thấy tỷ lệ bỏ học đại học cao hơn mức mong muốn, họ quyết định muốn tạo ra một mô hình để dự đoán khả năng một ứng viên sẽ vượt qua tất cả các chặng đường để tốt nghiệp.

Để làm được điều này, trường đại học đào tạo một mô hình từ tập dữ liệu gồm 5.000 người nộp đơn và kết quả của họ. Sau đó, nó chạy mô hình trên tập dữ liệu ban đầu — nhóm 5.000 người nộp đơn — và mô hình dự đoán kết quả với độ chính xác 98%. Nhưng để kiểm tra độ chính xác của nó, họ cũng chạy mô hình trên tập dữ liệu thứ hai — thêm 5.000 người nộp đơn. Tuy nhiên, lần này, mô hình chỉ chính xác 50%, vì mô hình quá phù hợp với một tập hợp con dữ liệu hẹp, trong trường hợp này là 5.000 ứng dụng đầu tiên.

Nguồn tham khảo: investmentopedia