DaPy是一个在设计时就非常关注易用性的数据分析库。通过提供设计合理的数据结构和丰富的机器学习模型,它能帮助开发者快速地实现数据分析思路。
DaPy专为数据分析师设计,而不是程序员。DaPy的用户只需要关注于他们解决问题的思路,而不必太在意数据结构这些编程陷阱。这些大量编程陷阱出现的原因分为两方面,其一,API的设计较为严格,符合程序开发的要求,但不太适合数据分析师的学习。其二,Pandas在设计时以列存数据,并且没有进行行优化的情况下,导致了这个极差的操作体验。
API接口设计
多种在CMD中呈现数据的方式符合Python语法习惯的二维数据表结构与SQL语法相似的函数封装方法封装了许多常用的数据预处理或者特征工程方法支持多种文件格式的I/O工具(支持格式:Html网页、xls表格、SQLite3数据库、.csv文本文件、SPSS数据文件,MySQL导出文件,直连MySQL服务器)内建基本机器学习模型(决策树、多层感知机、线性回归等)DaPy的性能表现
虽然DaPy目前是由纯Python语言实现的,但它与现有的数据处理框架在性能上也具有可比性。下图展示了使用具有432万条记录及7个变量的数据集的性能测试结果。
评论