用Python實作強化學習|使用TensorFlow與OpenAI Gym

Name: 用Python實作強化學習|使用TensorFlow與OpenAI Gym
Brand: 碁峰資訊
SKU: 2014713578891
Price: 468 TWD
Availability: InStock
Rating: 4 (1 reviews)
Author: Sudharsan Ravichandiran
ISBN: 9789865021412

【KINYO】KIHP-2250 智慧溫控快煮杯0.5L

最強熱水支援，讓你隨時喝熱茶、煮泡麵

★ 1個人喜歡

紙本平裝電子書

9折 468元
~~520~~元

預計最高可得金幣20點 ? 可100%折抵
活動加倍另計
HAPPY GO享100累1點 4點抵1元折抵無上限

分類：
中文書＞電腦資訊＞APP開發／程式設計＞Python
追蹤

? 追蹤分類後，您會在第一時間收到分類新品通知。
作者： Sudharsan Ravichandiran 追蹤 ? 追蹤作者後，您會在第一時間收到作者新書通知。
譯者：CAVEDU教育團隊曾吉弘
出版社：碁峰資訊追蹤 ? 追蹤出版社後，您會在第一時間收到出版社新書通知。
出版日：2019/05/29

立即結帳

加入購物車

預計 2024/05/07 出貨購買後進貨　

預訂門市商品

門市庫存

大量採購

配送方式

台灣
- 國內宅配：本島、離島
- 到店取貨：
  
  不限金額免運費
海外
- 國際快遞：全球
- 港澳店取：

內容簡介

強化學習可說是能自我演進的機器學習，能帶領我們達到真正的人工智慧。本書好讀又容易上手，運用了大量Python範例來從頭解釋所有東西。

本書從強化學習的簡介開始，接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念，例如Markov決策過程、蒙地卡羅法與動態規劃，包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法，例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。

本書精彩內容：
．理解強化學習方法、演算法與重要元素的相關基礎
．使用OpenAI Gym與TensorFlow來訓練代理
．理解Markov決策過程、Bellman最佳化與TD學習
．運用多種演算法來解決多臂式吃角子老虎問題
．熟悉各種深度學習演算法，如RNN、LSTM、CNN與其應用
．使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
．使用DDPG來教導代理來玩月球冒險遊戲
．使用競爭DQN來訓練代理來玩賽車遊戲

作者

Sudharsan Ravichandiran

Sudharsan Ravichandiran是位資料科學家、研究者、人工智慧狂熱者與YouTuber（請搜尋Sudharsan reinforcement learning），在Anna大學取得資訊科技學士學位，研究領域是深度學習與強化學習的實務性實作，包含字元語言處理與電腦視覺。

看更多

第一章｜認識強化學習
介紹何謂強化學習以及其運作原理。介紹強化學習的各種元素，如代理、環境、策略與模型，並帶領讀者認識用於強化學習的各種環境、平台與函式庫，以及強化學習的一些應用。

第二章｜認識OpenAI與TensorFlow
建置使用強化學習的電腦環境，包括Anaconda、Docker、OpenAI Gym、Universe與TensorFlow的安裝設定，並說明如何在OpenAI Gym中來模擬代理，以及如何建置一個會玩電玩遊戲的機器人程式。另外也會解說TensorFlow的基礎觀念以及如何使用TensorBoard來進行視覺化操作。

第三章｜Markov決策過程與動態規劃
從介紹何謂Markov鍊與Markov流程開始，說明如何使用Markov決策流程來對強化學習問題來建模。接著是一些重要的基本概念，例如價值函數、Q函數與Bellman方程式。然後介紹動態規劃以及如何運用價值迭代與策略迭代來解決凍湖問題。

第四章｜使用Monte Carlo方法來玩遊戲
介紹了Monte Carlo法與不同類型的 Monte Carlo預測法，如首次拜訪MC與每次拜訪MC，並說明如何使用Monte Carlo法來玩二十一點這項撲克牌遊戲。最後會介紹現時與離線這兩種不同的Monte Carlo控制方法。

第五章｜時間差分學習
介紹時間差分（TD）學習、TD預測與TD的即時/離線控制法，如Q學習與SARSA。並說明如何使用Q學習與SARSA來解決計程車載客問題。

第六章｜多臂式吃角子老虎機問題
要討論的是強化學習的經典問題：多臂式吃角子老虎機（MAB）問題，也稱為k臂式吃角子老虎機（MAB）問題。介紹如何使用各種探索策略來解決這個問題，例如epsilon-貪婪、softmax探索、UCB與湯普森取樣。本章後半也會介紹如何運用MAB來對使用者顯示正確的廣告橫幅。

第七章｜深度學習的基礎概念
介紹深度學習的重要觀念。首先，說明何謂神經網路，接著是不同類型的神經網路，如RNN、LSTM與CNN等。本章將實作如何自動產生歌詞與分類時尚產品。

第八章｜使用深度Q網路來玩Atari遊戲
介紹了一套最常用的深度強化學習演算法：深度Q網路（DQN）。接著介紹DQN的各個元件，並說明如何運用DQN來建置代理來玩Atari遊戲。最後介紹一些新型的DQN架構，如雙層DQN與競爭DQN。

第九章｜使用深度循環Q網路來玩毀滅戰士
介紹深度循環Q網路（DRQN），並說明它與DQN的差異。本章會運用DRQN來建置代理來玩毀滅戰士遊戲。同時介紹深度專注循環Q網路，它在DRQN架構中加入了專注機制。

第十章｜非同步優勢動作評價網路
介紹了非同步優勢動作評價網路（A3C）的運作原理。我們將帶領你深入了解A3C的架構並學會如何用它來建置會爬山的代理。

第十一章｜策略梯度與最佳化
說明策略梯度如何在不需要Q函數的前提下，幫助我們找到正確的策略。同時還會介紹深度確定性策略梯度法，以及最新的策略最佳化方法，如信賴域策略最佳化與近端策略最佳化。

第十二章使用DQN來玩賽車遊戲
本章將帶領你運用競爭DQN來建置代理，讓它學會玩賽車遊戲。

第十三章近期發展與下一步
介紹強化學習領域中的各種最新發展，例如想像增強代理、從人類偏好來學習、由示範來進行的深度Q學習以及事後經驗回放等等，然後談到了不同的強化學習方法，如層次強化學習與逆向強化學習。

看更多

詳細資料

- 語言
- 中文繁體
- 裝訂
- 紙本平裝
- ISBN
- 9789865021412
- 分級
- 普通級
- 頁數
- 328
- 商品規格
- 18開17*23cm
- 出版地
- 台灣
- 適讀年齡
- 全齡適讀
- 注音
- 級別

中文書＞電腦資訊＞APP開發／程式設計＞Python

看更多

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』，隨時掌握出貨動態：

提醒您！！
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機，請不要聽從指示，以免受騙上當！

退換貨須知：

**提醒您，鑑賞期不等於試用期，退回商品須為全新狀態**

依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」，以下商品購買後，除商品本身有瑕疵外，將不提供7天的猶豫期：
1. 易於腐敗、保存期限較短或解約時即將逾期。（如：生鮮食品）
2. 依消費者要求所為之客製化給付。（客製化商品）
3. 報紙、期刊或雜誌。（含MOOK、外文雜誌）
4. 經消費者拆封之影音商品或電腦軟體。
5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務，經消費者事先同意始提供。（如：電子書、電子雜誌、下載版軟體、虛擬商品…等）
6. 已拆封之個人衛生用品。（如：內衣褲、刮鬍刀、除毛刀…等）
若非上列種類商品，均享有到貨7天的猶豫期（含例假日）。
辦理退換貨時，商品（組合商品恕無法接受單獨退貨）必須是您收到商品時的原始狀態（包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等），請勿直接使用原廠包裝寄送，或於原廠包裝上黏貼紙張或書寫文字。
退回商品若無法回復原狀，將請您負擔回復原狀所需費用，嚴重時將影響您的退貨權益。

看更多

用Python實作強化學習|使用TensorFlow與OpenAI Gym

配送方式

內容簡介

作者

目錄

詳細資料

詳細資料

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』，隨時掌握出貨動態：

退換貨須知：