A Survey on Language...

AMiner学术头条
2024-12-01 19:00:28

A Survey on Language Models for Code. 网页链接
本文是一篇关于代码处理中语言模型的系统综述。文章回顾了近期在代码处理方面语言模型的进展，涵盖了50多个模型、30多个评估任务、170多个数据集以及700多个相关研究。作者将代码处理模型分为通用语言模型（以GPT家族为代表）和特定于代码的模型（通常带有定制的目标）。文章讨论了这些模型之间的关系和差异，并突出了代码建模从统计模型和RNN到预训练Transformers和LLMs的历史转变，这一转变与NLP的发展路径完全相同。文章还讨论了代码特定的特征，如AST、CFG和单元测试，以及它们在训练代码语言模型中的应用，并识别了该领域的主要挑战和潜在未来方向。本文的综述版将在GitHub上持续更新，地址为代码处理 AI