FEA-Bench:首个仓库级新功能实现基准,让大模型更懂软件开发
mhr18 2025-07-09 15:25 3 浏览 0 评论
当前,大语言模型在代码生成领域已展现出惊人的能力,但能否胜任真实软件开发中的“新增功能实现”任务,仍是一个关键未解的问题。对此,微软亚洲研究院与北京大学联合发布了首个专注于仓库级新功能实现的基准测试 FEA-Bench,填补了评估体系中的重要空白。该测试集构建于真实开源项目的 pull request (合并请求),覆盖1400多个高质量任务,系统评估了主流大模型在复杂工程任务中的表现。FEA-Bench 不仅为推动代码生成系统迈向真实世界的新功能实现任务提供了坚实支撑,也为相关研究拓展了更广阔的探索空间。
随着人工智能的快速发展,大语言模型在代码生成领域展现出越来越多的可能性,从函数级别的补全到复杂问题的修复,AI 已逐渐渗透至开发者的工作流程。然而,在真实的软件工程场景中,大语言模型是否具备实现新功能的能力,仍是一个亟待验证的重要课题。与此同时,现有的基准测试多聚焦于大模型的独立编程问题或修复任务,缺乏对“新功能实现”这一核心能力的系统性评估。
对此,来自微软亚洲研究院与北京大学的研究团队联合推出了首个面向仓库级新功能实现的基准测试 FEA-Bench,填补了当前代码生成评估体系中的关键一环。该基准测试通过1401个高质量任务实例,全面评估了大语言模型在新增功能时所需的代码生成与编辑能力,揭示了当前模型在复杂软件工程任务中的局限性,为未来的研究提供了重要方向。
论文链接:
https://arxiv.org/abs/2503.06680
GitHub 项目页面:
https://github.com/microsoft/FEA-Bench
Hugging Face 数据集地址:
https://huggingface.co/datasets/microsoft/FEA-Bench
FEA-Bench推动大语言模型走向真正的软件工程自动化
尽管当前的大语言模型如 GPT-4、DeepSeek-Coder 和 Qwen2.5-Coder 等在代码补全、函数级生成乃至修复 GitHub 议题(issue)等任务中表现出色,但在实际的软件开发中,为代码仓库增添新功能是一个更重要且难度更大的需求。开发者往往需要在已有代码库中添加新组件(如函数、类),并相应修改其他相关代码以确保整体的一致性。这种仓库级增量开发能力是衡量大语言模型能否胜任真实软件工程任务的核心指标。而且,目前尚无专门针对该能力设计的评估基准。
FEA-Bench 的出现填补了这一空白。该数据集基于83个开源 Python 项目的真实 pull request (合并请求)数据构建而成,包含1401个新增功能的任务实例,并配套完整的单元测试验证机制,从而保证生成结果的可执行性与准确性。每个任务实例均要求模型不仅要生成新的代码组件,还需理解整个仓库结构并在必要时进行联动修改,从而实现端到端的功能实现。
不同于以往主要关注 bug 修复(如 SWE-bench)或独立编程(如 HumanEval)任务的基准测试,FEA-Bench 将目标聚焦于新功能的实现。其任务实例全部来自真实的 GitHub pull request,涵盖多个行业场景,具有较高的代表性和实用价值。这样的设计不仅使数据集更贴近真实的软件开发情境,也为大模型在工业场景中的落地提供了指导意义。
为了确保任务设置的真实性与挑战性,FEA-Bench 构建了一套多维度的难度控制与质量保障机制。在数据筛选阶段,系统会结合规则过滤与意图识别技术,精准甄别出确实涉及新功能开发的 pull request。每个任务实例均配备详尽的功能请求描述、新增组件定义(包括函数签名、类结构等)、环境配置信息及单元测试用例,并标注黄金补丁(gold patch)作为参考实现。所有实例在发布前均通过自动单元测试验证,确保数据集具有良好的可验证性和可复现性,为评估模型性能提供了稳定可靠的基础。
此外,FEA-Bench 还提供了一个轻量版本 FEA-Bench Lite,用于适配不同实验条件下的计算资源需求。该子集在保留代表性的前提下,筛选出了复杂度相对较低的任务实例,方便科研人员在资源受限的环境中进行模型的快速迭代与评估。
研究团队使用 FEA-Bench 系统地评估了 GPT-4、DeepSeek-R1、Qwen2.5-Coder 等目前主流的大语言模型。结果显示,在不使用代理(agent)框架的情况下,当前最优模型 DeepSeek-R1 在 Oracle 设置中(给定需要编辑的代码文件作为上下文输入)的解决率仅为9.92%。相比之下,SWE-bench 中模型的 bug 修复成功率普遍在30%以上。这一差距充分说明,“新增功能”任务在逻辑复杂度、跨文件一致性维护与逻辑整合等方面,都对大语言模型提出了更高的要求。
开启新阶段:助力AI真正理解软件工程
FEA-Bench 的发布为代码生成研究打开了一个全新的维度。在为学术界提供全新的测试平台的同时,FEA-Bench 也为工业界评估 AI 辅助开发软件新功能提供依据标准。研究团队希望通过 FEA-Bench,可以让更多人关注 AI 在面对自由度较高的新功能实现中的表现,激发更多科研人员探索如何让 AI 真正理解并深度参与现代软件工程的核心。
未来,研究团队将持续拓展任务的覆盖范围、优化检索机制、提升生成格式的兼容性,进一步推动大语言模型向自主软件开发迈进。
相关推荐
- mysql一 基本操作(mysql基础操作命令)
-
先讲数据库--mysql、redis、MongoDB爬虫今天的内容:mysql一基本操作注意事项:1.安装:自己安装,有问题可以问老师、可以自己找办法解决2.上课:先讲知识点再回答问题3....
- 香港DM德馬景泰藍文科集團20250702期《生命的收獲》LIN JING DE
-
香港DM德馬景泰藍文科集團20250702期《生命的收獲》DMSIXSEVEN/LINJINGDE/1973主編供圖:香港DM德馬數字甲骨文集團Hongkong-basedDMDelm...
- 01.Java发展历史(java发展简史)
-
1.Java发展历史Java由SunMicrosystems公司(现为Oracle公司)的JamesGosling及其团队在1991年开发,最初命名为"Oak",后改名为"...
- 月薪最高12000!看看这些宝山岗位有没有你心仪的~
-
招聘目录信息1猎上网络科技(上海)有限公司职位分析师职位分析师助理2上海祥腾金属材料有限公司商务车驾驶员3上海赋拓物联网技术有限公司软件测试工程师4上海集优标五高强度紧固件有限公司...
- 69岁的Java之父终于退休了,他竟然也经历过职场PUA
-
有些程序员不到35岁就要担心被优化,但有的程序员干到了69岁的高龄,才准备退休。就前几天,Java之父詹姆斯·高斯林,自个儿在领英上宣布以后要美美享受退休生活了。这一下子,就炸出了不少...
- ocm认证年薪多少?(ocm认证好考吗)
-
从业数据库方面的工程师待遇都很好,年薪30万都是比较平常的事。OCM认证的价值可以归纳成以下几点:1、可以全面掌握Oracle知识,专业知识完善;2、证书对于公司招投标有巨大作用,甚至可以不上班就拿钱...
- 自学java开发攻略,想做程序员的必备攻略?
-
背景现阶段,随着互联网的快速发展,程序员这个行业越来月吃香,不仅仅是因为科技先进,说出去很牛逼,让别人产生崇拜,主要原因是程序员行业薪资待遇好,相比国内其他行业,程序员的薪资待遇是羡慕了很多人呢!于是...
- SpringBoot WebFlux整合R2DBC实现数据库反应式编程
-
环境:Springboot2.4.12R2DBC简介SpringdataR2DBC是更大的Springdata系列的一部分,它使得实现基于R2DBC的存储库变得容易。R2DBC代表反应式关系数...
- AI编码工具未能代替码农:大模型的局限性揭秘
-
随着ChatGPT和GithubCopilot等AI编码工具的兴起,StackOverflow近日因流量减少宣布裁员近三分之一。这引发了一个争议的问题:ChatGPT这类AI编码工具,真的要颠覆整...
- 大模型无法替代码农!GPT-4解决GitHub编程问题成功率为0
-
编辑:编辑部【新智元导读】ChatGPT之类的AI编码工具来势汹汹,StackOverflow又裁员了!不过,普林斯顿和芝大竟发现,面对真实世界GitHub问题,GPT-4的解决率竟是0%。Stac...
- 机器人动作领域突破!UniVLA模型实现跨模态AI机器人动作统一
-
还记得《星际穿越》中那台能在无重力、尘暴甚至巨浪中切换形态、随时理解库珀指令的TARS多功能机器人吗?在银幕里,我们羡慕TARS能听懂人话、看懂环境、马上给出最合适的动作;而在现实世界的实验室里,“让...
- FEA-Bench:首个仓库级新功能实现基准,让大模型更懂软件开发
-
当前,大语言模型在代码生成领域已展现出惊人的能力,但能否胜任真实软件开发中的“新增功能实现”任务,仍是一个关键未解的问题。对此,微软亚洲研究院与北京大学联合发布了首个专注于仓库级新功能实现的基准测试...
- 基于Java的软件版本信息管理系统-2025计算机毕业设计
-
基于Java的软件版本信息管理系统-2025计算机毕业设计前言随着移动互联网的快速发展,APP已成为人们日常生活中不可或缺的一部分。为了高效地管理这些APP的信息,如版本更新、用户反馈、下载量统计等,...
- 马斯克在干嘛?抱着它现身推特 简介改为“推特老板”
-
马斯克收购推特的交易真是“没完没了”。据彭博社报道,当地时间26日,美国亿万富翁埃隆·马斯克抱着水槽走进了推特公司的旧金山总部,他还将自己在推特账号的公开自我介绍改为“推特老板”(ChiefTw...
- 福布斯公布7月全球十大富豪:马斯克成6月最大“输家”,身家缩水160亿美元
-
7月日,福布斯今日公布了2025年7月全球十大富豪榜,其中第二名迎来新面孔。软件巨头甲骨文(Oracle)联合创始人兼董事长拉里埃里森(LarryEllison)凭借公司股价飙升成功上位。由...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (74)
- oracle批量插入数据 (65)
- oracle事务隔离级别 (59)
- oracle 空为0 (51)
- oracle主从同步 (56)
- oracle 乐观锁 (53)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)