Trang này chứa các thuật ngữ trong bảng thuật ngữ về Học viện tăng cường. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.
Đáp
hành động
Trong phương pháp học tăng cường, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Nhân viên hỗ trợ chọn thao tác bằng cách sử dụng một chính sách.
nhân viên hỗ trợ
Trong môi trường học tăng cường, thực thể sử dụng chính sách để tối đa hoá l��i tức dự kiến thu được từ quá trình chuyển đổi giữa trạng thái của môi trường.
Nhìn chung, tác nhân hỗ trợ là phần mềm tự lập kế hoạch và thực hiện một loạt hành động để đạt được một mục tiêu, với khả năng thích ứng với những thay đổi trong môi trường. Ví dụ: các tác nhân dựa trên LLM có thể sử dụng LM để tạo kế hoạch, thay vì áp dụng chính sách học tăng cường.
B
Phương trình Bellman
Trong học tăng cường, danh tính sau được hàm Q tối ưu đáp ứng:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Thuật toán Học tăng cường áp dụng danh tính này để tạo Q-learn thông qua quy tắc cập nhật sau:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Ngoài việc học tăng cường, phương trình Bellman còn có nhiều ứng dụng cho việc lập trình động. Vui lòng xem mục trên Wikipedia về phương trình Bellman.
C
phê bình
Từ đồng nghĩa với Deep Q-Network.
D
Mạng Q sâu (DQN)
Trong Q-học, một mạng nơron sâu dự đoán hàm Q.
Phê bình là một từ đồng nghĩa với Deep Q-Network.
DQN (Mã số sản phẩm thương mại toàn cầu)
Tên viết tắt của Deep Q-Network.
E
môi trường
Trong mô hình học tăng cường, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được đại diện có thể là một trò chơi như cờ vua hoặc thế giới thực như một mê cung. Khi tác nhân áp dụng một hành động cho môi trường, thì môi trường sẽ chuyển đổi giữa các trạng thái.
tập
Trong mô hình học tăng cường, mỗi lần tác nhân lặp lại để tìm hiểu một môi trường.
chính sách về mục đích tham lam của epsilon
Trong mô hình học tăng cường, một chính sách tuân theo chính sách ngẫu nhiên với xác suất epsilon hoặc chính sách tham lam. Ví dụ: nếu epsilon là 0, 9, thì chính sách này sẽ tuân theo một chính sách ngẫu nhiên 90% thời gian và chính sách tham lam là 10%.
Trong các tập liên tiếp, thuật toán sẽ giảm giá trị của epsilon để chuyển từ tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, tác nhân sẽ khám phá ngẫu nhiên môi trường, sau đó khai thác kết quả khám phá ngẫu nhiên một cách tham lam.
phát lại trải nghiệm
Trong học tăng cường, một kỹ thuật DQN được dùng để giảm các mối tương quan tạm thời trong dữ liệu huấn luyện. Tác nhân lưu trữ hoạt động chuyển đổi trạng thái trong vùng đệm phát lại, sau đó lấy mẫu hiệu ứng chuyển đổi từ vùng đệm phát lại để tạo dữ liệu huấn luyện.
G
chính sách tham lam
Trong mô hình học tăng cường, một chính sách luôn chọn hành động có trả về dự kiến cao nhất.
M
Quy trình quyết định Markov (MDP)
Một biểu đồ biểu thị mô hình ra quyết định trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một chuỗi các trạng thái theo giả định là thuộc tính Markov. Trong phương pháp học tăng cường, những hoạt động chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.
Thuộc tính Markov
Thuộc tính của một số môi trường nhất định, trong đó việc chuyển đổi trạng thái được xác định hoàn toàn theo thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.
Điểm
policy
Trong mô hình học tăng cường, việc ánh xạ xác suất của tác nhân từ trạng thái đến hành động.
Hỏi
Hàm Q
Trong học tăng cường, hàm dự đoán trả về dự kiến từ việc thực hiện một hành động ở một trạng thái và sau đó tuân theo một chính sách nhất định.
Hàm Q còn được gọi là hàm giá trị hành động trạng thái.
Hỏi đáp
Trong phương pháp học tăng cường, một thuật toán cho phép tác nhân tìm hiểu hàm Q tối ưu của quá trình quyết định của Markov bằng cách áp dụng phương trình Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.
R
chính sách ngẫu nhiên
Trong phương pháp học tăng cường, một chính sách chọn một hành động một cách ngẫu nhiên.
học tăng cường (RL)
Một nhóm thuật toán học chính sách tối ưu có mục tiêu là tối đa hoá lợi tức khi tương tác với một môi trường. Ví dụ: Phần thưởng cuối cùng trong hầu hết các trò chơi là chiến thắng. Các hệ thống học tăng cường có thể trở thành chuyên gia khi chơi các trò chơi phức tạp bằng cách đánh giá trình tự của các lượt di chuyển trước đó trong trò chơi dẫn đến chiến thắng và những trình tự cuối cùng dẫn đến thua.
Học tăng cường từ phản hồi của con người (RLHF)
Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng câu trả lời của mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các câu trả lời trong tương lai dựa trên ý kiến phản hồi đó.
vùng đệm phát lại
Trong các thuật toán giống DQN, bộ nhớ mà tác nhân dùng để lưu trữ các lượt chuyển đổi trạng thái nhằm sử dụng trong phát lại trải nghiệm.
return
Trong mô hình học tăng cường, với một chính sách nhất định và một trạng thái nhất định, kết quả trả về là tổng tất cả phần thưởng mà tác nhân mong muốn nhận được khi tuân theo chính sách từ trạng thái đến cuối tập. Nhân viên hỗ trợ có tính đến tính chất chậm trễ của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo các lượt chuyển đổi trạng thái cần thiết để nhận được phần thưởng.
Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\)biểu thị phần thưởng cho đến cuối tập, thì phép tính trả về sẽ như sau:
phần thưởng
Trong mô hình học tăng cường, kết quả dạng số của việc thực hiện một hành động ở một trạng thái, do môi trường xác định.
S
state
Trong mô hình học tăng cường, các giá trị tham số mô tả cấu hình hiện tại của môi trường mà tác nhân sử dụng để chọn một hành động.
hàm giá trị hành động trạng thái
Từ đồng nghĩa với Q-function.
T
Q- Learning theo bảng
Trong bài học củng cố, hãy triển khai học tập Q bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp giữa trạng thái và hành động.
mạng mục tiêu
Trong Deep Q- Learning, một mạng nơron gần đúng với mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn sẽ ngăn được vòng lặp phản hồi xảy ra khi mạng chính huấn luyện trên các giá trị Q do chính nó dự đoán. Bằng cách tránh phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.
điều kiện chấm dứt
Trong bài học củng cố, các điều kiện xác định thời điểm một tập kết thúc, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá số lần chuyển đổi trạng thái ngưỡng nhất định. Ví dụ: trong tic-tac-toe (còn gọi là chơi chỉ và chữ thập), một tập phim sẽ kết thúc khi người chơi đánh dấu ba dấu cách liên tiếp hoặc khi tất cả các dấu cách đều được đánh dấu.
quỹ đạo
Trong học tăng cường, một chuỗi bộ dữ liệu đại diện cho một chuỗi chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, tác nhân, phần thưởng và trạng thái tiếp theo cho một lượt chuyển đổi trạng thái nhất định.