UniformManifoldApproximationandProjection(UMAP)是一种降维技术,可用于类似于t-SNE的可视化,也可用于一般的非线性降维。该算法建立在对数据的三个假设之上。
数据均匀分布在黎曼流形上;黎曼度量是局部常数(或可以近似);流形是局部连接的。根据这些假设,可以对具有模糊拓扑结构的流形进行建模。嵌入是通过搜索具有最接近的可能等效模糊拓扑结构的数据的低维投影来找到的。此软件包现在也提供对densMAP的支持。densMAP算法增强了UMAP,除了数据的拓扑结构外,还保留了局部密度信息。
UMAP依赖于scikit-learn,因此也依赖于scikit-learn的依赖关系,如numpy和scipy。由于性能原因,UMAP增加了对numba的要求。原始版本使用Cython,但Numba的代码清晰度、简单性和性能的提高使得这一转变成为必要。
评论