曼徹斯特大學AI表征學習綜合指南

發布時間：2023-09-19 10:57

機器學習和人工智能的一個主要組成部分是提取數據背后的有用信息，特別是高維數據。深度學習最近的成功也歸功于有效的數據表示。作為機器學習的新興領域，表征學習可以從原始數據中提取特征，發現數據背后變異的解釋因素，解決高維數據帶來的棘手問題。表征學習已成功應用于計算機視覺、音頻/語音信息處理、自然語言處理/理解、機器人技術和各種醫學應用等許多領域。

1.什么是表征學習?

表征學習是一類機器學習方法，它允許系統在原始數據中找到發現特征或進行分類所需的表征。通過讓機器學習特征并將其應用于操作，減少了人工特征開發的需要。

在表征學習中，數據被發送給機器，機器自己學習表征。這就決定了特征數據的表示方法、距離函數和相似度函數，從而決定了預測模型的性能。表征學習的工作原理是將高維數據還原為低維數據，從而更容易識別模式和異常，同時更好地理解數據的整體行為。

一般來說，機器學習任務(如分類)通常需要在數學和計算上可控的輸入數據，這也是表征學習的動機之一。現實世界的數據，如照片、視頻和傳感器數據，會阻礙通過算法識別特定特征的嘗試。一種方法是探索數據以找到這些特征或表征，而不是依賴明確的技術。

二、學習表征的方法

我們需要使用表征學習來確保模型給出不變且無偏見的結果，以提高其準確性和性能。本節將討論表征學習如何在三種不同的學習環境中提高模型性能：有監督學習、無監督學習。

1.監督學習

當 ML 或 DL 模型在輸入 X 和輸出 Y 之間建立起對應關系時，就出現了監督學習。計算機會通過比較模型輸出和基本事實來進行修正，學習過程會優化輸入和輸出之間的匹配。這一過程不斷重復，直到優化函數達到全局最小值。

即使優化函數達到了全局最小值，新數據也不一定能提供好的結果，從而導致過度擬合。雖然監督學習不需要大量數據來學習輸入和輸出之間的對應關系，但它確實需要學習函數。如果將學習到的屬性納入監督學習算法，預測準確率可提高 17%。

使用標記輸入數據，特征學習是監督學習的一部分。例如，監督神經網絡、多層感知器和(監督)字典學習。

2.無監督學習

無監督學習是機器學習的一種類型，在這種學習中，標簽被忽略，而僅僅是觀察。無監督學習不用于分類或回歸，而是用于發現潛在模式、對數據進行聚類、去除數據中的噪聲、檢測異常值和分解數據等。

在處理 x 數據時，我們必須非常謹慎地使用 z 分數，以確保我們創建的模型是準確的。據觀察，更多的數據并不總是意味著更好的代表性。我們需要確保創建的模型既靈活又有表現力，這樣提取的特征才能傳達基本信息。

無監督特征學習通過字典學習、獨立成分分析、自動編碼器、矩陣因式分解和各種形式的聚類等方法，從無標記的輸入數據中學習特征。

海馬課堂專業課程預習，2300+嚴選碩博學霸師資，針對學生的薄弱科目和學校教學進度，匹配背景相符的導師，根據學生情況進行1V1專屬備課，上課時間靈活安排，中英雙語詳細講解課程中的考點、難點問題，并提供多方位的課前預習，輔助學生掌握全部課程知識，補足短板。如果你對此還有疑問,或者有更多關于學業輔導方面需求的話,可以添加微信號：hmkt131聯系海馬課堂的Joye老師哦。