Học tập củng cố (RL)được đưa ra một hệ thống phần thưởng và hình phạt. Học tập củng cố rộng hơn so với học tập có giám sát hoặc không giám sát để đạt được mục tiêu hoặc chỉ để đạt được từ các khuyến khích và hình phạt do tiếp xúc với môi trường.
Loại phần thưởng và hình phạt nào được đưa ra dưới dạng phản hồi?
Đầu tiên là phản hồi đánh giánhư là sự củng cố, nơi phần thưởng và hình phạt được sử dụng để hình thành hành vi của người học thông qua cơ chế học tập củng cố.
Hình thức thưởng và phạt là gì?
Bây giờ chúng ta hãy kết hợp bốn thuật ngữ sau:củng cố tích cực, củng cố tiêu cực, trừng phạt tích cực và trừng phạt tiêu cực(Bảng 1). Một cái gì đó được thêm vào để tăng khả năng xảy ra một hành vi. Một thứ gì đó được thêm vào để giảm khả năng xảy ra một hành vi.
Hình thức học tập nào dựa trên phương pháp thưởng và phạt?
Mặc nhiên, không cần xử lý có ý thức, các cá nhân tìm hiểu về giá trị thưởng và phạt của từng bối cảnh và hoạt động. Đến lượt mình, các quy trìnhhọc liên kếtnày lại ảnh hưởng đến xác suất các cá nhân sẽ tham gia lại vào các hoạt động đó hoặc tìm kiếm bối cảnh đó.
Thưởng và phạt ảnh hưởng đến việc học như thế nào?
Nhìn chung, chúng tôi thấy phần thưởng ít ảnh hưởng đến quá trình học tập hoặc duy trì. Hình phạt không ảnh hưởng đến khả năng duy trì kỹ năng, nhưng có ý nghĩa quan trọng,tác động phụ thuộc vào nhiệm vụ đối với việc học. Trong hình phạt SRTT,đã cải thiện tốc độ với tác động tối thiểu đến độ chính xác. Ngược lại, hình phạt làm giảm hiệu suất trên FTT.