冷軋數據清洗與特徵選擇

來自搜狐網的圖片

冷軋數據清洗與特徵選擇鋼鐵企業中冷軋帶鋼數據的清洗、對齊和特徵選擇。

主要技術內容

技術背景和意義

冷軋是鋼鐵冶金工業的最終生產環節，是實現最終鋼鐵產品高效率、高質量生產的一個關鍵環節。隨着我國經濟發展方式的轉變和產業結構的調整，市場對附加值更高的冷軋帶鋼的需求量越來越大，對鋼鐵產業尤其是冷軋帶鋼^[1]生產質量提出了更高的要求。目前，一些鋼鐵製造企業冷軋生產過程中會積累很多過程參數和歷史質量數據，這些數據中存在着大量的噪聲數據，而通過數據清洗和特徵選擇技術可以將冷軋帶鋼數據整理為規範化的表格數據為後續通過數據挖掘技術來發現數據中的規律並進行冷軋生產質量預測等奠定基礎。

技術要點和優勢

技術要點：冷軋工藝流程分為軋機、連退和電鍍三個步驟，不同步驟會產出相應工序的數據。冷軋原始數據較為複雜，它包含了靜態和動態兩種類型數據，首先需要根據帶鋼卷號按工藝將所有獨立的靜態和動態數據拼接起來，便於後續的數據清洗和對齊，在保證數據真實性的原則下，可以採用上採樣拼接和下採樣拼接兩種數據拼接方式。然後根據數據的完整性和真實性需要，對冷軋數據進行清洗與對齊，對於處理後的數據採用機器學習算法建立參數權重計算模型配合專家知識進行特徵選擇。

實施關鍵點

（1）數據清洗：首先需要清洗無效數據、重複數據、亂序數據等，數據清洗包括兩個重要方面，一方面需要進行偏差檢測，即檢查導致偏差的因素，並識別離散值與噪聲值；另一方面需要進行數據清洗，即處理缺失值與噪聲。

（2）數據對齊：其次通過各工序勾連與長度匹配、頭尾一致性進行數據對齊，最終實現數據組織的結構化。數據對齊具體包括顯示格式一致性檢驗、數據去重、按照工藝流程數據對齊、根據冷軋領域知識修正矛盾內容等。

（3）數據庫構建對於經過數據清洗與數據對齊處理後的數據，還需要對其進行數據組織的結構化，形成固定的字段、固定的格式、固定的字段屬性、便於二維表儲存與管理的結構化數據。根據此結構化數據的字段和數據類型構建數據庫^[2]保存冷軋清洗數據。

（4）特徵選擇：冷軋生產過程中包含很多工藝參數，所以冷軋帶鋼數據是典型的高維數據，為了避免高維數據稀疏性導致模型過擬合，必須對數據進行降維操作，而特徵選擇可以實現此目的。通過機器學習算法並結合專家知識可以提取數據中少量且具有較好表達能力的特徵，為後續的冷軋生產質量預測等工作提供數據支持。

技術優勢

（1）數據拼接方式：數據拼接採用上採樣拼接和下採樣拼接兩種方式，上採樣拼接是增加原來冷軋帶鋼數據樣本採樣點數量較少的樣本採樣點，上採樣拼接方法簡單易行，準確率較高，添加的數據仍為該數據集中原始樣本數據；下採樣拼接是減少原來樣本採樣點數量相對多的樣本採樣點，直接丟棄多餘的採樣點，保留較少的採樣點，下採樣拼接方法適合缺失值數量較少，並且是隨機出現的，刪除它們對整體數據影響不大的情況。通過上採樣拼接和下採樣拼接分別處理數據表中缺失值較多和缺失值較少的情況，在保證數據真實性的同時使最終拼接的數據更加充分。

（2）特徵選擇算法：通過機器學習算法得到輸出對冷軋帶鋼結果影響較為顯著的參數，由於使用算法選擇出來的特徵不一定完全是符合實際生產情況的，所以結合專家將無法調控的和影響不顯著的參數去掉，保證提取到的特徵的有效性。

技術應用情況

應用案例介紹

在保證數據真實性情況下，某鋼鐵企業分別採用上採樣拼接和下採樣拼接兩種方式對冷軋各工序進行數據拼接處理，得到10個分工序不同方法拼接的數據集，然後採用機器學習算法在處理後的數據集上分別建立參數權重計算模型配合專家知識進行特徵選擇，選取出對冷軋帶鋼質量結果影響較為顯著的參數。分別採用多種分類和回歸機器學習算法建立冷軋帶鋼質量預測模型對冷軋帶鋼進行質量預測，基於分類算法的冷軋帶鋼質量預測精確率最高達到93.57%，基於回歸算法的精確率最高達到89.15%。

參考文獻

↑ 【技術】冷軋帶鋼基礎知識，搜狐，2017-04-02
↑ 數據庫發展史，搜狐，2019-07-12

[1] 【技術】冷軋帶鋼基礎知識，搜狐，2017-04-02

[2] 數據庫發展史，搜狐，2019-07-12

[1]

[2]

求真百科