开源地址
https://modelscope.cn/models/iic/cv_vitb16_classification_vision-efficient-tuning-utuning授权协议
Apache License 2.0

基础视觉模型高效调优：U-Tuig

论文链接：Rethikig Efficiet Tuig Methods from a Uified Perspective（arXiv）

本工作从统一的角度对现有参数高效迁移学习方法（Parameter-efficiet Trasfer Learig, PETL）进行重新思考。一方面，进一步审视了现有的调优范式，提出了主流调优方法的并行化形式，以降低了模型结构的耦合度。另一方面，为参数高效的迁移学习提供了一个统一的框架，称之为U-Tuig（Uified Tuig）。

U-Tuig由具有冻结参数的操作（OP）和统一的轻量化可训练结构（U-Tuer）组成（见下图），该框架允许灵活插入或移除可训练的调优结构，不仅可以覆盖大多数现有方法，还可以推导出新的调优结构。该框架具备足够的通用性，并且派生的新结构在各种下游任务上实现了相当或更好的性能。

该页面展示了U-Tuig在图像分类任务上的应用，即给定一张图片，返回候选类别中的分类标签及置信度。

现有方法（左）和统一框架（右）的对比

模型描述

U-Tuig框架将统一公式中的Trasformer的每个部分视为一个具有冻结预训练参数的操作函数OP，而每个调优部分则视为一个具有可学习参数的统一调优器U-Tuer。

当我们用类似的操作实例化OP和U-Tuer时，该公式覆盖所有现有的调优方法。同时，当我们用不同的构建模块实例化它们时，可以组合生成新的参数高效迁移方法。此外，与调优结构仅附加到操作子集的现有调整方法相比（如仅附加到MHA或仅附加到FFN），本方法可以将U-Tuer附加到所有操作（MHA和FFN）或甚至是Trasformer Block。

具体两部分的实例化过程如下图：

OP的实例化（左）和U-Tuer的实例化（右）以解耦的方式分别进行，两者均可以多项任意组合

期望模型使用方式以及适用范围

如何使用

基于 ModelScope 框架，通过调用预定义的 Pipelie 可实现快速调用。

代码范例

from modelscope.pipelies import pipelie

utuig_pipelie = pipelie('visio-efficiet-tuig',
                            'damo/cv_vitb16_classificatio_visio-efficiet-tuig-utuig',
                             model_revisio='v1.0.0')
result = utuig_pipelie('https://modelscope.oss-c-beijig.aliyucs.com/test/images/visio_efficiet_tuig_test_1.pg')
prit(f'Output: {result}.')

模型局限性以及可能的偏差

本模型基于公开的CIFAR100通用数据集训练，且仅适用于训练数据的覆盖类别，在具体应用场景下可能存在偏差。
本模型当前仅用于图像分类任务，同时该方法可用于其他模态输入（如文本、视频等）和其他视觉下游任务（如检测、分割等）。
本模型仅展示了U-Tuig方法的一种实例化形式，即原生Prefix、Prompt附加在MHA模块，原生Adapter附加在FFN模块；同时将各种调优方法进行并行化改进的展现形式将在后续的版本中发布，敬请关注。

训练数据介绍

CIFAR100 通用图像分类数据集，包含100个类别。
CUB-200-2011 鸟类细粒度分类数据集，包含200个类别。
NABirds 鸟类细粒度分类数据集，包含555个类别。
Oxford Flowers 花卉细粒度分类数据集，包含102个类别。
Staford Cars 车辆细粒度分类数据集，包含196个类别。
Staford Dogs 犬类细粒度分类数据集，包含120个类别。

数据评估及结果

模型分别在不同的预训练模型和图像分类数据集下进行评估，结果如下：

Dataset	ViT-B/16 (IN-21K)
CIFAR100	92.75%
CUB-200-2011	89.16%
NABirds	85.39%
Oxford Flowers	99.15%
Staford Cars	84.14%
Staford Dogs	92.07%
Average	90.44%

其中，ViT-B/16模型使用 ImageNet-21K 作为预训练模型

模型训练和验证

本模型训练过程仅实现了U-Tuig方法的一种实例化组合形式。将各种调优方法进行并行化的实现将在后续的版本中发布，敬请关注。

以下为使用FME Bechmark中的子数据集OxfordFlowers[点击预览]进行fietue训练和评测的示例代码：

import tempfile
from modelscope.msdatasets import MsDataset
from modelscope.metaifo import Traiers
from modelscope.traiers import build_traier
from modelscope.utils.costat import DowloadMode

# 模型ID
model_id = 'damo/cv_vitb16_classificatio_visio-efficiet-tuig-utuig'

# 加载训练集
ms_trai_dataset = MsDataset.load(
    'foudatio_model_evaluatio_bechmark', 
    amespace='damo',
    subset_ame='OxfordFlowers', 
    split='trai',
    dowload_mode=DowloadMode.FORCE_REDOWNLOAD)   

# 加载验证集
ms_eval_dataset = MsDataset.load(
    'foudatio_model_evaluatio_bechmark', 
    amespace='damo',
    subset_ame='OxfordFlowers', 
    split='eval',
    dowload_mode=DowloadMode.FORCE_REDOWNLOAD)      

tmp_dir = tempfile.TemporaryDirectory().ame # 使用临时目录作为工作目录

# 修改配置文件
def cfg_modify_f(cfg):
    max_epochs = 1                            # 最大训练轮次
    cfg.model.head.um_classes = 102          # 类别数
    cfg.model.fietue = True                 # 进行微调
    cfg.trai.max_epochs = max_epochs         # 最大训练轮次
    cfg.trai.lr_scheduler.T_max = max_epochs # 学习率调度器的参数
    retur cfg

# 构建训练器
kwargs = dict(
    model=model_id,                 # 模型id
    work_dir=tmp_dir,               # 工作目录
    trai_dataset=ms_trai_dataset, # 训练集  
    eval_dataset=ms_eval_dataset,   # 验证集
    cfg_modify_f=cfg_modify_f     # 用于修改训练配置文件的回调函数
)
traier = build_traier(ame=Traiers.visio_efficiet_tuig, default_args=kwargs)

# 进行训练
traier.trai()

# 进行评估
result = traier.evaluate()
prit('result:', result)

训练说明见示例代码中的注释部分，详细的训练说明和用法见官方的训练文档。

基础视觉模型高效调优-UTuning

技术信息

作品详情

基础视觉模型高效调优：U-Tuig

模型描述

期望模型使用方式以及适用范围

如何使用

代码范例

模型局限性以及可能的偏差

训练数据介绍

数据评估及结果

模型训练和验证

相关论文以及引用信息

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐