常見的降維方法 :
PCA、tsne、Factor Analysis Method、lda
降維效果的好壞評斷
- 沒有一個通用的指標去衡量降維效果的好壞。
- 降維後的數據也可以展示到二維或三維空間中通過視覺化的手段來確定降維效果的好壞(通常只適用於需要降維到二維或三維的情況)。
- 不是樣本點分的越開越好,而是盡可能的保持原始數據的相似程度。以分類問題為例,同一類別的樣本點距離較近,不同類別的樣本點距離較遠比較好。
- 視覺化來確定降維效果的好壞,也可適用於降維到四維或更高維數的情況。不過,降維到二維或三維可以透過視覺化的方法,利用人眼判斷兩個樣本點之間的距離,降維到高維時需要通過計算獲得樣本點之間的距離。
- 透過比較降維前後模型學習的性能,包括時間複雜度、空間複雜度、學習效果等,是較為客觀的判別降維效果好壞的方法。
補充
- 累計方差貢獻率 : 衡量提取的主成分包含的原始數據方差信息的多少。(限PCA)
- PCA累計方差貢獻率numpy計算python實作連結
=> https://www.csdn.net/tags/MtTaEgysMjAwOTc4LWJsb2cO0O0O.html
參考連結:https://www.zhihu.com/question/361228139/answer/956683294