UMAD(UniversalManagementandAnalysisofData)是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数据类型抽象到度量空间之中,而所有的索引算法都针对度量空间这一数据结构进行设计,以此达到算法通用的目的。
项目基于jdk12.0.2实现,为了更好地支持中文,全部编码统一采用UTF-8。项目目前支持DNA、RNA、Peptide、Spectra、Image和Vector数据库的建立和相似性搜索。实现了常用的支撑点选择算法,如FFT、CENTER、RANDOM等;常用的数据划分算法,例如Balanced、ClusteringKMeans、CGHT和GHT等。
评论