GPT-J是一个基于GPT-3,由60亿个参数组成的自然语言处理AI模型。该模型在一个800GB的开源文本数据集上进行训练,并且能够与类似规模的GPT-3模型相媲美。
该模型通过利用GoogleCloud的v3-256TPU以及EleutherAI的ThePile数据集进行训练的,历时大约五周时间。
性能对比:ModelWeightsTrainingFLOPsLAMBADAPPL↓LAMBADAAcc↑Winogrande↑Hellaswag↑PIQA↑DatasetSize(GB)Chance✔0~alot~0%50%25%25%0GPT-3-Ada‡✘-----9.9551.6%52.9%43.4%70.5%-----GPT-2-1.5B✔-----10.6351.21%59.4%50.9%70.8%40GPTNeo-1.3B‡✔3.0e217.5057.2%55.0%48.9%71.1%825Megatron-2.5B*✘2.4e21-----61.7%---------------174GPTNeo-2.7B‡✔6.8e215.6362.2%56.5%55.8%73.0%825GPT-3-1.3B*‡✘2.4e215.4463.6%58.7%54.7%75.1%~800GPT-3-Babbage‡✘-----5.5862.4%59.0%54.5%75.5%-----Megatron-8.3B*✘7.8e21-----66.5%---------------174GPT-3-2.7B*‡✘4.8e214.6067.1%62.3%62.8%75.6%~800Megatron-11B†✔1.0e22-------------------------161GPT-J-6B‡✔1.5e223.9969.7%65.3%66.1%76.5%825GPT-3-6.7B*‡✘1.2e224.0070.3%64.5%67.4%78.0%~800GPT-3-Curie‡✘-----4.0069.3%65.6%68.5%77.9%-----GPT-3-13B*‡✘2.3e223.5672.5%67.9%70.9%78.5%~800GPT-3-175B*‡✘3.1e233.0076.2%70.2%78.9%81.0%~800GPT-3-Davinci‡✘-----3.075%72%78%80%-----
评论