编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

代码大模型/中文代码助手测评:Cursor89分领跑全球,国内2款超80

wxchong 2024-10-23 15:42:57 开源技术 11 ℃ 0 评论

榜单地址:www.superclueai.com

0 简介

SuperCLUE-Coder是中文原生代码助手产品测评基准,旨在为中文领域提供一个代码助手产品多维度能力评估参考。

1 基准测评体系

基准包括4个一级维度11个二级维度,以开放式问题形式对代码助手产品进行评估。

测评方法:参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

2. 测评产品列表与测评基准总榜

为综合衡量当前国内外代码助手产品发展水平,本次测评选取了2个海外产品和5个国内代表性产品。

一级维度榜单 测评结果总表

产品象限与能力分布图

3、分析与结论

测评要点1:Cursor处于领先地位

Cursor在本次代码助手测评中取得89.87分,处于领先地位。并在代码生成与改写、代码优化与修复、跨函数与跨文件三个维度上有绝对优势。在代码理解与分析能力上还有提升空间。

测评要点2:国内代码助手表现不俗

从测评结果看,文心快码、通义灵码两产品分别达到87.55、87.36的综合得分,在国内代码助手产品中大幅领先其他产品,仅稍微落后于Cursor,并且在代码理解与分析领域稍占上风。

测评要点3:国内外代码助手能力区分性较大

在本次代码助手测评中第一档的产品,如Cursor、文心快码Baidu Comate、通义灵码表现突出,与第二档产品有较大分差。在整体能力和各项代码任务上均有较大区分性。

测评要点4:代码助手交互体验方面略有差异

在测评中发现,不同的代码助手在交互体验上有不同侧重。在结合已有代码的交互方式、推理速度等方面表现不同,这也是影响AI代码助手使用的重要影响因素。

1.Cursor在综合代码能力上处于领先地位

Cursor在本次代码助手测评中取得89.87分,处于领先地位。并在代码生成与改写、代码优化与修复、跨函数与跨文件三个维度上有绝对优势。在代码理解与分析能力上还有提升空间。

2.国内外代码助手产品在不同维度下的差距有所不同

国内产品在代码理解与分析、代码生成与改写两方面的能力与业界领先水平差距相对较小,特别是代码注释与代码转换两方面,整体表现尚可;而在代码优化与修复、跨函数与跨文件编程方面则落后稍多,特别是函数调用能力还有所差距;除通义灵码、文心快码两款产品外,其他参评国内模型的性能优化与跨文件编程能力与业界领先水平还有一定差距。

3.文心快码、通义灵码在代码理解与分析能力优于Cursor

文心快码、通义灵码两款产品在代码理解与分析维度上的表现出众,击败了综合评价第一的Cursor,而在二级场景中,文心快码在文档生成方面稍有优势,代码理解表现惊艳,取得96.23分的高分;通义灵码则在代码理解、测试用例生成方面较Cursor略占上风。

3.各个产品的用户体验侧重点不同

各代码助手产品的用户体验差异较大,主要体现在以下几点:

1)在结合已有代码进行作答的方式上,有的产品会自动检测IDE代码窗口中的内容(如通义灵码),有的可以按快捷键或从右键菜单调用(如文心快码),亦有结合两种方式的产品(如豆包MarsCode)。个别产品结合已有代码作答的过程更繁琐,甚至会出现失效的情况,如Codeium需要以追问的形式要求其结合语境作答,但在函数调用、多文件编程任务上又容易失灵,无法结合语境,只能给出宽泛的答案,这也影响了最终的评价结果。

2)在推理速度方面,从直观感受上来看,星火飞码、Codeium与通义灵码较快,CodeArts Snap、豆包MarsCode和Cursor适中,文心快码则需更多时间进行推理,这可能与各厂家设计的推理策略和联网搜索的能力有关。

参考文献:

https://mp.weixin.qq.com/s/suNH2T0uA45LmVO8zbiOmA

《完》

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表