《机器学习中的表示学习》PDF-101页

本书为表示提供了简明而全面的指南，这是机器学习(ML)的核心。最先进的实际应用涉及许多高维数据分析的挑战。不幸的是，许多流行的机器学习算法在面对庞大的基础数据时，在理论和实践中都无法执行。本书恰当地介绍了这个问题的解决方案。此外，这本书涵盖了广泛的表示技术，对学者和ML从业者都很重要，如局部敏感哈希(LSH)，距离度量和分数范数，主成分(PCs)，随机投影和自动编码器。书中提供了几个实验结果来证明所讨论技术的有效性。本书讨论了机器学习(ML)中最重要的表示问题。在使用机器从数据中学习类/聚类抽象时，以适合有效和高效机器学习的形式表示数据是很重要的。在本书中，我们建议涵盖各种在理论和实践中都很重要的表示技术。在当前兴趣的实际应用中，数据通常是高维的。这些应用包括图像分类、信息检索、人工智能中的问题解决、生物和化学结构分析以及社会网络分析。这种高维数据分析的一个主要问题是，大多数流行的工具，如k近邻分类器、决策树分类器，以及一些依赖于模式间距离计算的聚类算法都不能很好地工作。因此，在低维空间中表示数据是不可避免的。 常用的降维技术有以下几种：

特征选择方案:在这里，给定的特征集的一个适当子集被识别并用于学习。
特征提取方案:在学习中使用给定特征的线性或非线性组合。一些流行的线性特征提取器基于主成分、随机投影和非负矩阵分解。我们在本书中涵盖了所有这些技术。关于用主成分子集表示数据，文献中存在一些误解。一般认为，前几个主成分是对数据进行分类的正确选择。我们在书中论证并实际地表明，这种做法可能是不正确的。