Reinforcement Learning Là Gì

  -  

Trong lĩnh vực trí tuệ tự tạo nói chung cùng nghành nghề dịch vụ học tập thiết bị thích hợp thì Reinforcement learing (RL) là 1 bí quyết tiếp cận tập trung vào câu hỏi học tập nhằm xong xuôi được mục tiêu bởi vấn đề shop trực tiếp cùng với môi trường thiên nhiên.Quý Khách đã xem: Rl là gì

1. Reinforcement Learning (RL):

RL là học dòng để tiến hành, tức là trường đoản cú những trường hợp thực tiễn để đưa ra các action nhất thiết, miễn là maximize được reward. Machine không được bảo về cái action để triển khai cơ mà cầm vào đó cần khám phá ra action có thể tạo ra được không ít reward nhất. Trong thế giới của RL thì bọn họ bao gồm tư tưởng Call là agent, nó có một chút ít nào đó ngụ ý về một thực thể mà bạn muốn train nó để hoàn toàn có thể làm cho được một task nào đó mà các bạn phó thác (đương nhiên là nó đã tiến hành theo cách đã có được reward những nhất).

Bạn đang xem: Reinforcement learning là gì

Vì RL được ứng va tương đối nhiều vào robotic với game buộc phải tôi đã mang một ví dụ tự phía trên cho bạn tưởng tượng. Dưới đó là 1 tựa mini game mà tôi muốn các bạn liếc qua. Cách đùa thì tôi suy nghĩ những bạn sẽ tiện lợi để hiểu được. Tên của chính nó là CoastRunners

Nhiệm vụ của người sử dụng là xong được chặng đua thuyền một cách nkhô hanh độc nhất với giả dụ có thể thì cần sinh hoạt top trên. Giả sử nlỗi bạn muốn training một agent nhằm nó hoàn toàn có thể xong xuôi chặng đua nhanh tuyệt nhất thì về cơ phiên bản các bạn đề xuất xây dựng được một reward function cùng từ đó bạn sẽ train agent dựa trên reward function này. quý khách hàng có thể coi nó là Loss function dẫu vậy rứa vày phải minimize hàm loss như trong những mạng Neural Network thông thương thơm thì tại chỗ này chúng ta vẫn bắt buộc maximize nó như tôi đã nói trên. Việc lựa chọn ra một reward function thoạt chú ý vào hơi đơn giản dễ dàng vị nó chỉ dựa trên các tiêu chí hết sức phân biệt của một task ví dụ, chẳng hạn như làm việc trò chơi ở trên thì ta gồm dựa vào tiêu chuẩn là thời hạn xong xuôi chặng đua chẳng hạn. (Việc xây đắp cụ thể tôi xin phxay dời lại ở một bài viết không giống về sau). Tuy nhiên, nếu như khách hàng đưa ra những tiêu chí không xuất sắc thì đã agent nhưng chúng ta train có thể gồm các behavior tương đối kỳ cục giống hệt như nghiên cứu sau đây cơ mà team OpenAI đã trải qua lúc reward mà người ta chọn lại dưa bên trên tiêu chí của score vào game cố gắng bởi là thời gian kết thúc khoảng đua. Và đó là tác dụng.

Agent không cần phải xong xuôi chặng đua tuy nhiên vẫn hoàn toàn có thể đạt được score cao.

Vấn đề này thoạt liếc qua chiếc vẻ hơi "trúc vị" trong toàn cảnh của video clip game mà lại vào nghành nghề dịch vụ tự động hóa hoá hay robotics ví dụ điển hình thì những cái behavior này rất có thể gây nên số đông hành động không hề muốn hoặc thậm chí còn gian nguy. Rộng rộng, những agent này (được nhúng vào vào robot chẳng hạn) có thể gồm có hành vi không ổn định hoặc không theo những nguyên lý cơ bản về phương diện nghệ thuật nói thông thường nhưng rất có thể dãn đến cđộc ác hoạ vô cùng ẩn chứa.


*

Các chúng ta cũng có thể đọc thêm về idea trong bài xích báo của OpenAI về dòng mà người ta Hotline là Safety AI

2. Mô hình hoá toán thù học của RL:

Bây giờ đồng hồ tôi đang dẫn các bạn đi qua một chút về các định nghĩa chính vào RL:| .

Các hình dưới đây tôi tham khảo từ khóa học 6.S191 intro deep learning của MIT

2.1 Đây là 1 trong ví dụ trực quan lại về Agent:

*

*

*

*

Tất cả gần như trang bị nhưng mà tôi vừa trình diễn sơ qua nó dựa vào một framework được điện thoại tư vấn là Markov Decision Processes (MDPs). Về cơ bản thì một MDP. hỗ trợ một framework toán học tập đến bài toán modelling các trường hợp decision-making. Ở trên đây, các hiệu quả (outcomes) xẩy ra một giải pháp hốt nhiên một trong những phần với phần sót lại thì dựa vào bên trên những action của agent (hoặc decision maker) vẫn tạo thành trước kia. reward nhận được vày decision maker nhờ vào bên trên action mà decision maker chọn và dựa trên cả nhì State bắt đầu (S(t+1)) và cũ (S(t)) của enviroment.

Xem thêm: 5 Câu Chuyện Cực Ngắn Và Siêu Dễ Thương Cho Những Câu Chuyện Tình Yêu Dễ Thương

Một reward Rai(sj,sk)R_ai(s_j, s_k)Rai​(sj​,sk​) nhận được Khi agent lựa chọn action aia_iai​ ở state sjs_jsj​ cùng làm cho enviorment biến đổi từ state sjs_jsj​ sang sks_ksk​. Agent nó follow theo một policy πpiπ. Cụ thể là π(⋅):S→Api(cdot):mathcalS ightarrow mathcalAπ(⋅):S→A sao để cho cùng với mỗi một state sj∈Ss_j in mathcalSsj​∈S thì agent chọn cho nó một action ai∈Aa_i in mathcalAai​∈A. Vậy đề xuất policy là thứ bảo cùng với agent dòng action làm sao đề nghị được chọn trong mỗi state.

Để hoàn toàn có thể train được agent thì mục tiêu của bọn họ là cần tìm kiếm được policy πpiπ sao cho:


*βetaβ là discount factor cùng βetaβ reward (tất cả tình đến discount factor nhỏng đang kể sống trên) sống mỗi state cụ thể trường đoản cú thời điểm bước đầu đến lúc hoàn thành (dẫu mang lại T → ightarrow→ ∞infty∞, do bọn họ chưa biết bao giờ thì quá trình này ngừng nên nó vẫn vẫn là một chuỗi vô hạn), cùng tất nhiên là phải dựa vào policy πpiπ bởi agent của bọn họ base trên nó nhằm lựa chọn reward tốt nhất có thể mà. Bản chất thì đấy là một bài tân oán buổi tối ưu (optimazation problem).

Ở bên trên là 1 trong những tiêu chuẩn nhưng chúng ta cũng có thể dùng làm optimize mang đến việc đào bới tìm kiếm ra nghịệm (optimal policy). Cụ thể chúng ta Call tiêu chuẩn này là infinite horizon sum reward criteria. Cũng tất cả một vài ba reward criteria khác nhưng mà tôi trong thời điểm tạm thời ko gác lại trong sự cân đối bài viết này.

Prúc thuộc vào các criteria khác biệt cơ mà họ sẽ có được các algorithm khác biệt nhằm đưa ra optimal policy. Với infinite horizon sum reward criteria thì chúng ta có thể thực hiện một thuật toán thù RL cũng rất bom tấn đó là Q-Learning để giải quyết (tôi vẫn nói tới alogorithm này tại một nội dung bài viết khác).

Xem thêm: Các " Sản Phẩm Của Khách Sạn Là Gì ? Khái Niệm Sản Phẩm Của Khách Sạn

Tôi xin trong thời điểm tạm thời gác lại phần lý thuyết sơ bộ ở đây. Hẹn gặp gỡ lại chúng ta sống bài viết sau về Q-Learning với phương pháp để impement nó.