Jigsaw是微软推出的一种可以提高大型语言模型性能(如GPT-3、Codex等)的新工具。
Jigsaw部署了理解程序语法和语义的后处理技术,然后利用用户反馈来提高未来的性能;该工具旨在使用多模式输入为PythonPandasAPI合成代码。Pandas是数据科学中广泛使用的API,具有数百个用于manipulatingdataframes或具有行和列的表的函数。
目标是使部分审查自动化,以提高使用Codex等大型语言模型进行代码合成的开发人员的生产力。
Jigsaw获取英语查询并使用适当的上下文对其进行预处理,以构建可以馈送到大型语言模型的输入。该模型被视为一个黑盒子,并且Jigsaw已使用GPT-3和Codex进行了评估。这种设计的优势在于它支持即插即用最新和最好的可用型号。微软在实验中发现,Jigsaw可以在30%的时间内创建正确的输出。如果代码失败,那么修复过程在后处理阶段开始。
在后处理过程中,Jigsaw应用了三种变换来修复代码。这些转变中的每一个都是由他们在GPT-3和Codex中观察到的故障模式所激发的。而GPT-3和Codex失败的方式都类似,因此Jigsaw解决这些失败模式的后处理对两者都很有用。
微软在各种数据集上评估了Codex和Jigsaw(withCodex),并测量了准确率。Codex给出了约30%的开箱即用的准确性,Jigsaw则将准确率提高到60%以上;通过用户反馈,准确率可提高到80%以上。
评论