HCR強化學習智能應用之賦能工業(下)

來源:HCR慧辰資訊 時間:2019-07-23 08:15:28

 

強化學習能夠解決燃煤工業鍋爐控制中很多“怎么辦”的問題:

 

  • 生產任務(熱量需求)會持續變化辉煌彩票平台,煤炭質量參差不齊,如何調整送煤量既滿足需求又不浪費?

     

  • 既要保證安全運行,又要保證煤炭充分燃燒辉煌彩票平台,還要盡量減少空氣帶走的熱量辉煌彩票平台,如何精細化調整風機轉速辉煌彩票平台?


 1首先要明確環境和交互

 

智能體:一個虛擬的實體(如阿爾法狗)辉煌彩票平台,通過與環境交互來學習控制策略。

 

環境:即要面對的任務(圖中地球),如棋局辉煌彩票平台、鍋爐等。

 

交互:即面對環境智能體可以采取的動作(圖中Action),如下棋時可以落子辉煌彩票平台、燒鍋爐時可以送煤、鼓風等。


 2其次要定義學習目標

 

反饋:當采取行動后會導致狀態發生變化辉煌彩票平台,強化學習算法通過獎勵值函數評估每個狀態的優劣,做出懲罰或獎勵(即圖中reward) 。

 

目標:是指希望最終到達的狀態,如贏得比賽辉煌彩票平台、煤炭利用率最高辉煌彩票平台。

 

獎勵值函數:是強化學習的關鍵,設置恰當的獎勵函數能夠指引智能體達到目標。

 

例如,目標是取得比賽勝利,一種獎勵函數值是對“比賽勝利”狀態反饋獎勵值1,其他狀態反饋獎勵值-1。


 3最后要確定算法來尋找最優策略

 

策略:面對環境狀態,策略(Policy)決定如何采取動作辉煌彩票平台,最優策略在任何狀態下選擇的動作都能最快到達目標(累計獎勵值最大)

 

算法:算法學習的目標是找到最優策略,算法從一無所知開始(隨機策略)辉煌彩票平台,通過與環境交互、獲得反饋來找到最優策略。

燃煤工業鍋爐主要包括:

 

  • 爐膛:燃燒的容器

  • 給煤機:向爐膛內送煤

  • 爐排:煤炭在爐排上燃燒并送出(類似傳送帶)

  • 鼓風機:向鍋爐內送風

  • 引風機:從爐膛向外排氣

  • 吸熱管網:吸收熱量

  • 傳感器:實時采集鍋爐狀態,如負壓辉煌彩票平台、溫度等

     

這里面有兩個概念要需要重點講一下:

 

  1. 一個是負壓辉煌彩票平台辉煌彩票平台,如果鍋爐火焰躥到爐膛外會降低熱效率、威脅人員設備安全辉煌彩票平台,將爐膛內壓力保持在略小于大氣壓狀況(引風機向外抽氣實現)可以避免此類危害,稱爐膛為負壓狀態。

     

  2. 另一個是運行負荷辉煌彩票平台辉煌彩票平台,運行負荷是指鍋爐的有效熱量輸出(用于供暖等),可以通過進水溫度、出水溫度、水流量計算得到。

 

來看下我們建立的強化學習模型:

 

環境:鍋爐,環境狀態包括:傳感器采集的爐膛負壓辉煌彩票平台、溫度辉煌彩票平台、水溫等;各組件運行狀態:煤機、風機轉速等。

 

交互動作:調整煤機、爐排辉煌彩票平台辉煌彩票平台、風機轉速等辉煌彩票平台。

 

目標

  1. 安全:負壓控制涉及到鍋爐運行安全,道路千萬條辉煌彩票平台,安全第一條,安全問題容不得有絲毫馬虎;

  2. 完成負荷輸出任務:鍋爐運行的意義在于提供熱量輸出,滿足工業生產需求義不容辭;

  3. 節約煤炭:每節約一點煤炭都能為企業降低生產成本。

 

由目標確定反饋獎勵值評估方法:

  1. 負壓值超出安全區間,獎勵值為指數級負數(巨大的懲罰)

  2. 負荷輸出沒有滿足需求,獎勵值為指數級負數(巨大的懲罰)

  3. 煤炭消耗量辉煌彩票平台,獎勵值為線性級負數(適當懲罰)

 

我們的獎勵函數如下:

其中辉煌彩票平台,PI為爐膛負壓與理想范圍偏離值辉煌彩票平台,GL為鍋爐負荷低于任務值辉煌彩票平台, AR為煤炭消耗速度。

 

算法與策略:

 

鍋爐燃燒控制是一個典型的連續空間尋優問題,我們基于Actor-Critic算法實現。我們創建一個智能體Agent(類似阿爾法狗)辉煌彩票平台,是一位專注于鍋爐控制的好學生。

 

Agent從一無所知開始,通過大量實踐來尋找鍋爐控制的最佳策略,他會不斷探索辉煌彩票平台,通過實踐來尋找最優策略,使長期reward最大(累計懲罰最少)。

 

到目前,我們已經把整個模型講完了,程序也可以按部就班地開發出來了,但是我們無法直接應用到工業生產中。

 

阿爾法狗訓練了數百萬次才學會下圍棋,在贏得比賽之前,它輸了無數次。但是在工業領域中,一次失敗代表一次鍋爐事故辉煌彩票平台,我們一次也不能失敗,這也是大部分強化學習應用局限于游戲領域的原因。

 

如何解決這個問題呢?我們想到了向老師傅學習辉煌彩票平台、以及現有數據分析。

 

1

 

首先,我們通過分析大量真實鍋爐運行數據、集成一線專家經驗,基于深度學習構建一個模擬環境。

 

2

 

隨后,Agent通過與模擬環境交互來進行實踐,在模擬環境內練習鍋爐控制過程辉煌彩票平台,不斷優化控制策略辉煌彩票平台。Agent學習的上限是我們模擬環境的真實程度,當模擬環境越接近真實環境時,Agent學習得到的策略越好。

 

3

 

然后,當Agent策略基本穩定后,我們會對Agent的策略進行評估辉煌彩票平台,例如當鍋爐負壓值很大的時候辉煌彩票平台,Agent采取什么樣的行動辉煌彩票平台;當輸出負荷沒有達到任務值的時候Agent會采取什么樣的行動辉煌彩票平台。

 

4

 

最后,當Agent的策略得到老師傅的認可后,我們將Agent應用到真實的鍋爐控制中去(同時還需要有工作人員實時監督,這樣Agent在控制生產鍋爐時能做到不犯大錯)。當系統長時間穩定運行之后(如穩定運行兩個月),Agent就可以獨立工作啦(學成出徒了)。

 

 

<section powered-by="xiumi.us" style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box; color: rgb(51, 51, 51); font-family: -apple-system-font, BlinkMacSystemFont, " helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" letter-spacing:="" 0.544px;="" text-align:="" justify;="" word-wrap:="" break-word="" !important;"="">

強化學習在實際工業應用中存在學習成本過大的問題辉煌彩票平台,如何快速低成本地訓練強化學習模型是影響其應用的關鍵。

 

我們利用深度學習和專家經驗知識來降低學習成本,最終將強化學習應用于工業領域來降低生產成本、提高資源利用率。

 

通過在工業領域中運用強化學習技術來解決實際業務問題,HCR已經積累了一套可行的實踐經驗辉煌彩票平台,相關算法已經申請專利,后續將拓展到更多的應用領域。

辉煌彩票平台