行情中心 沪深A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

昆仑万维正式发布并开源Skywork-SWE-32B,揭示LLM软件工程能力的数据缩放定律

证券时报网 06-20 13:34

6月20日,昆仑万维发布软件工程(Software Engineering, SWE)自主代码智能体基座模型Skywork-SWE,在开源32B模型规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过构建超过1万个可验证的GitHub仓库任务实例,打造出目前最大规模的可验证GitHub仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。

Skywork-SWE-32B模型在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32B以下的开源模型,也显著效缩小了与闭源模型之间的性能差距。

过去半年多时间,昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列SOTA级别模型,如今又在Agent(SWE任务)方向再下一城。继5月天工超级智能体(Skywork Super Agents)面向全球发布后,今天昆仑万维又发布并开源了自主代码智能体模型Skywork-SWE-32B模型,这不仅是公司坚定开源策略的重要实践,更代表了昆仑万维对Agent在办公任务、SWE任务场景中的重要探索。

通过Skywork-SWE数据集的构建,以及自主代码智能体模型Skywork-SWE-32B模型的发布,昆仑万维研究表明高质量且可执行验证的数据是提升代码智能体模型性能的关键瓶颈,系统化的数据扩展策略将在推动开源模型性能突破中发挥关键作用。

“基于此,我们期望Skywork-SWE-32B的开源,能够助力社区在大语言模型驱动的软件工程研究中持续演进。”昆仑万维表示,未来,Skywork-SWE-32B模型将进一步拓展多编程语言支持以覆盖更广泛的开发场景,并探索融合运行时测试反馈的强化学习机制,为构建真正具备智能软件开发能力的大语言模型奠定坚实基础。同时,昆仑万维也将积极探索更多Agent任务场景。

免责声明:用户发布的内容仅代表其个人观点,与九方智投无关,不作为投资建议,据此操作风险自担。请勿相信任何免费荐股、代客理财等内容,请勿添加发布内容用户的任何联系方式,谨防上当受骗。

举报

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈