#
智能选址大师SiteMaster模型介绍
智能选址大师SiteMaster是利用城市范围内的POI数据和地铁站点数据,基于InternLM2-Chat-7b模型搭建的,针对于空间中某类设施进行智能选址的大模型。
训练数据介绍
1. 基础数据获取与清洗
基于高德地图和大众点评获取上海市范围内的POI数据及地铁站点数据。高德地图POI数据包含设施名称、设施类型、设施地址等信息,将信息与大众点评餐饮数据连接,获取每家店的点评活跃度、人均消费等信息;地铁站点数据包含地铁站名称、地铁站经纬度等信息。根据这两组数据,使用ArcGIS的空间分析工具,统计每个交通点周围一定服务范围内各POI数量,作为上海市范围内选址合理性评估的基础数据。
我们将上海市范围内的POI数据划分为14个大类:餐饮美食、公司企业、购物消费、交通设施、金融机构、酒店住宿、科教文化、旅游景点、汽车相关、商务住宅、生活服务、休闲娱乐、医疗保健、运动健身。每一个大类中可细分为数个小类。例如:餐饮美食包括家常菜馆、火锅和川菜、海鲜店、奶茶店、小吃店(烧烤店)、湘菜馆、素菜馆、家常菜馆等。
2. 对话语料构建
⭐选址推荐
a. 闵行区哪个地方开川菜馆比较好?(限定商业类型和区域范围)
b. 哪里可以开百货商场?(限定商业类型)
⭐类型推荐
a. 剑川路适合开什么类型的饭馆呢?(限定地点)
b. 我想在静安寺开店,开什么比较合适?
⭐选址分析
a. 我想在南京西路开小吃店,可以吗?(限定商业类型和地点)
b. 周边已经有十几家火锅店了,我还能再开吗?(设定情境)
⭐选址对比
a. 静安寺和后滩,哪里更合适开素菜馆?(限定对比选址和商业类型)
模型微调
1. 环境配置
创建虚拟环境,安装XTuner,下载InternLM2-Chat-7b模型文件。
2. XTuner微调
拷贝配置文件:
xtuner list-cfg
xtuner copy-cfg internlm_7b_qlora_json_e3 ${SAVE_PATH}
根据本地情况修改配置文件,包括预训练模型存放的位置、微调数据的存放位置等。使用命令行将选址数据集放入InternLM2-Chat-7b训练:
xtuner train /root/internlm_7b_qlora_json_e3_copy.py --deepspeed deepspeed_zero2
3. 参数转换与合并
使用XTuner将训练后的.pth格式参数转Hugging Face格式:
xtuner convert pth_to_hf $CONFIG_NAME_OR_PATH $PTH $SAVE_PATH
将参数与原始模型合并,保存得到完整模型:
xtuner convert merge $NAME_OR_PATH_TO_LLM $NAME_OR_PATH_TO_ADAPTER $SAVE_PATH --max-shard-size 2GB
完整模型开源在ModelScope平台:模型地址
评论