qwen-14b-vntl

我要开发同款
匿名用户2024年07月31日
28阅读
所属分类ai、qwen2、pytorch、Alibaba、transformer、nlp
开源地址https://modelscope.cn/models/prophetlu/qwen-14b-vntl
授权协议Apache License 2.0

作品详情

Qwen-14b-vntl

简介

本模型是基于Qwen1.5-14b-Chat基于lora方法微调得到的vntl(visual novel translate)模型,主要用途是galgame及视觉小说的翻译(仅限日语)。随着LLM时代的到来,gpt类产品被广泛运用于galgame的翻译当中,但是,galgame翻译作为一个灰色且小众的门类,不能指望大公司们的训练数据中包含这些数据。因此即使GPT4或cluade这种模型在galgame翻译方面也表现欠佳,再加之这些模型昂贵的调用费用和日益严苛的道德审查。1月的时候恰逢qwen1.5发布,宣称具有不错的日语能力,我在经过简单的测试后决定尝试微调一下,感觉效果还可以。

具体来说,本模型具有以下特点:

纯galgame训练数据 : 训练数据完全来自galgame,不含轻小说等任何其他内容,对galgame文本的适配性很好。 高度标注的galgame数据:众所周知为了避免翻译前后不统一的文本无论是传统汉化还是机翻都会有术语表,这次专门针对人名和特殊名词进行标注。一般经过标注的数据实测几乎不会翻错,少数比较刁钻的名词准确率也能达到80%左右。 高度清洗的数据集: 本次训练从1.2M rows 中日对照galgame文本中挑出了400k rows风格相对统一且翻译质量较高的文本作为训练数据。清洗和大部分控制字符和可能影响翻译的数据。 强调上下文的训练数据: 本次使用的数据全部使用了上下文标注的方法,将上一段译文交给下一段翻译作为参考。保证了翻译的高度连贯。 解禁的限制级能力 :这个就不用多说了吧。

底模

Qwen1.5-14b-Chat(https://modelscope.cn/models/qwen/Qwen-14B-Chat/summary)

调用方法

先调用Qwen1.5-14b-Chat,然后调用lora。也可以自行合并权重编译成gptq或gguf格式。

训练数据

400k rows连贯的中日对照galgame文本(从1.2M rows文本中筛选出)

提示词示例

Input

<|im_start|>system
Please refer to the character prompts and historical information to translate the given Japanese game script into Chinese, and try to use smooth and natural expressions.<|im_end|>
<|im_start|>user
【character】
[main character]Name:衝羽根 しのぶ(冲羽根 忍)
[main character]Name:藤波 凜(藤波 凛)
[main character]Name:楪 小春(楪 小春)
Name:クリス(克莉丝)

【history】
忍:「今天的便当呢,我试着加了点叫斯科奇蛋的东西进去」
[凜]:「…………」
[小春]:「姐姐大人……?」
[凜]:「啊……抱歉。肚子饿了,不知不觉就发呆了」
今天从早上开始心情一直很好。
原因不说也知道。\n昨天晚上,我几乎没怎么睡一直在想这件事。
……我和克莉丝成为恋人了。已经成为了事实。
她注意到我的性别后,我就草率地做出了判断,这完全是我的错。我已经无法辩解了。
现在如果说出“其实我是男人”这种话,肯定会被讨厌的。一定会严重伤害到克莉丝。最坏的情况,可能会让她无法振作起来。
毕竟她很不擅长应付男人。而且,也不是能用单纯地不擅长应付这种话就能概括的。
我和这样的她接吻、拥抱、耳语甜言蜜语。这一切都是因为她认为我是女人而被允许的。
……结果,她并没有真正喜欢上我。
[凜]:(……啊,又在考虑自己的事了)
【Japanese】
こんな調子では、遅かれ早かれクリスのことを傷つけてしまうに違いない。
でも、それならどうすればいいというのか。
出来るだけクリスを傷つけずに、彼女に対して誠実であるには――
[しのぶ]:「――凜ちゃん、また何か悩み事?」
[凜]:「しのぶ……」
[しのぶ]:「わたしもみんなも、凜ちゃんの味方だよ。だから何かあったら、迷わず頼ってくれていいんだからね」
[小春]:「で、ですですっ……!私、お姉さまのためなら何だって出来ちゃいますからっ……!」
[凜]:「……二人とも、ありがとう」
……もしも僕が本当に女の子で、クリスとの間で秘密の恋愛をすることになったとしたら、みんなになら打ち明けられたのかもしれない。
でも……やっぱり僕は、男だから。
[凜]:「心配しないでも大丈夫だよ。\n本当に、お腹が空いちゃってただけだから」
[しのぶ]:「凜ちゃん……」
演技なら誰にも負けないはずなのに、やっぱり嘘をつくのは下手らしい。なんでかな。
[小春]:「……お姉さま、お、おにぎりどうぞっ……!」
[凜]:「……うん、ありがとう」
……ふと、やっぱりこのままではだめだと思った。<|im_end|>

Output

<|im_start|>assistant
照这样下去,早晚都会伤害到克莉丝。
但是,那该怎么办才好呢?
尽可能不伤害克莉丝,对她诚实——
[忍]:「——小凛,又有烦恼了吗?」
[凜]:「忍……」
[忍]:「我也和大家一样是你的同伴哦。所以有什么事情的话,尽管来依靠我们吧」
[小春]:「对、对对……!为了姐姐大人,我会做任何事的……!」
[凜]:「……谢谢你们两个」
……如果我真的只是个女孩子,和克莉丝之间进行着秘密恋爱的话,或许会告诉大家吧。
但是……果然我还是个男人。
[凜]:「不用担心啦,\n真的只是肚子饿了而已」
[忍]:「小凛……」
明明演技应该不会输给任何人,但说谎却还是不行。为什么呢。
[小春]:「……姐姐大人,请吃寿司……!」
[凜]:「……嗯,谢谢」
……突然觉得这样下去也不行。<|im_end|>

配置要求

4bit量化 1000tokens(原文+参考+输出+词典)

显存>=16gb(windows) 显存>=12gb(linux)

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论