【描述】本工程是深度学习在计算机视觉图像分类方面的应用,基于 Vision Transformer 架构(Vit),采用的 Kaggle X光胸片数据集,共4个分类,7,100多张图片,数据集压缩包占用1.8GB 的磁盘空间,该数据集 Kaggle 持续在更新中。
【项目源码】https://github.com/tgltt/ChestXRayVit
【技术】Transformer、VisionTransformer(ViT)、Pytorch等
【职责】
1、阅读 Transformer、VisionTransformer(ViT )相关论文,制定模改方案;
2、数据探索,浏览数据集,并根据数据集特点,确定 ViT 输入图像的尺寸及 Transformer 输入数据的 embedding 大小;
3、数据预处理,删除无效图片(不支持的格式及过大分辨率的图像),统计训练集均值及标准差,随后使用随机策略裁减原图、颜色抖动、随机水平镜像、缩放、转 Tensor 、标准化等预处理对图像数据进行增强;
4、模型改造,裁减 Transformer 模型,只保留其 Encoder 提取图像特征,然后