
Cursor生态代码训练数据「超级扩容包」(≥10TB / 10,000+GB)|辅助第一版|大模型增强|LLM训练语料
HK$1.00 - HK$199,000.00
产品介绍
Cursor 生态代码训练数据「超级扩容包」(≥10TB / 10,000+GB)
专为能“写出可运行软件”的类 Cursor 模型(代码补全/生成/修复/Agent)持续训练而打造的大规模高质量语料。
我们已与相关数据提供方达成授权,新增大体量可调用数据源,现已上架并支持自助下单。
价格
标准版 1500G:HKD 99,000(9.9W)(第一版,非本链接产品)
超级扩容包 ≥10TB:HKD 199,000(19.9W)(本链接产品于第一版不重复,但辅助第一版)
核心价值
生态级覆盖:不止源码,涵盖 API/SDK 使用、依赖管理、配置与部署要点。
可执行导向:面向“能跑通”组织与标注,提升编译/运行通过率与 API 成功率。
高质量清洗:去重、脱敏、许可扫描与结构化标识,可直接用于预训练/SFT。
专为代码模型:更适配 Code LLM、Agent、IDE Copilot、RAG+执行等场景。
数据内容构成(示例维度)
代码与依赖:多语言源码(Python/JS/TS/Go/Java/C# 等)、构建与依赖文件(requirements.txt、package.json、go.mod、Dockerfile、CI 配置)、环境与连接模板(已脱敏)。
第三方服务知识:API/SDK 要点 ↔ 代码示例对齐;常见生态(如支付/消息/存储/搜索/AI/云平台)的调用范式与错误处理;OpenAPI/GraphQL 结构与客户端样例。
工程化与质量:任务/提交信息 ↔ 变更 diff;常见错误日志 ↔ 修复补丁;单测样例与覆盖率(抽样)。
训练友好映射:需求/指令 → 代码片段/补丁 的成对样本;工具/CLI 调用与脚手架生成轨迹。
Cursor 生态代码训练数据「超级扩容包」(≥10TB / 10,000+GB)
专为能“写出可运行软件”的类 Cursor 模型(代码补全/生成/修复/Agent)打造。
在 1500G 标准版基础上,新增 ≥10TB(10,000+GB)超级扩容包,已完成授权接入,支持自助下单与企业定制。
价格
标准版 1500G:HKD 99,000(一次性授权,含交付支持)(9月发布的第一个数据包,非本链接产品)
超级扩容包 ≥10TB:HKD 199,000(10月最新发布的第二部数据包,本链接产品)
一、产品概述
本数据不止“单仓源码”,而是围绕真实开发全流程,覆盖第三方服务调用、依赖与构建、错误修复、文档—实现对齐等生态知识,更贴近 IDE/Agent 的可执行场景。适合打造类似 Cursor 的“可落地”软件模型与智能开发代理。
数据规模:≥10TB(扩容包)
官网下单:Neuronicx.com
支持:企业定制扩容 / 行业专用包(电商、内容、客服、SaaS 等)
二、核心价值
生态级覆盖:不止源码,涵盖 API/SDK 使用、依赖管理、配置与部署要点。
可执行导向:面向“能跑通”组织与标注,提升编译/运行通过率与 API 成功率。
高质量清洗:去重、脱敏、许可扫描与结构化标识,可直接用于预训练/SFT。
专为代码模型:更适配 Code LLM、Agent、IDE Copilot、RAG+执行等场景。
三、数据内容构成(示例维度)
代码与依赖:多语言源码(Python/JS/TS/Go/Java/C# 等)、构建与依赖文件(
requirements.txt
、package.json
、go.mod
、Dockerfile、CI 配置)、环境与连接模板(已脱敏)。第三方服务知识:API/SDK 要点 ↔ 代码示例对齐;常见生态(如支付/消息/存储/搜索/AI/云平台)的调用范式与错误处理;OpenAPI/GraphQL 结构与客户端样例。
工程化与质量:任务/提交信息 ↔ 变更 diff;常见错误日志 ↔ 修复补丁;单测样例与覆盖率(抽样)。
训练友好映射:需求/指令 → 代码片段/补丁 的成对样本;工具/CLI 调用与脚手架生成轨迹。
四、标注与清洗流程(关键环节)
结构化标签(语言/领域/功能/第三方服务/复杂度/可执行性)→ 语义与 AST 双重去重 → 许可识别与全量脱敏 → 编译/运行抽测 → 毒性与不当内容过滤。
五、交付与集成
交付:S3/OSS 直链、专线或加密硬盘寄送
格式:JSONL/Parquet(样本与标注)、
tar.gz
/Git bundle(代码与资源)配套:示例解析脚本、训练/微调参考配置、数据字典
兼容:主流训练框架与检索系统;支持与你现有语料做去重对齐。
六、版本与定价
标准版 1500G:HKD 99,000(一次性授权,含交付支持)(9月发布的第一个数据包,非本链接产品)
超级扩容包 ≥10TB:HKD 199,000(本链接产品)
适合继续预训练(CPT)与大规模 SFT,增强长上下文与多技术栈覆盖
可选行业专包/生态增强(新增特定第三方调用样例)
提供更强的“需求→代码→测试/部署”成对数据
定制版按范围报价,签署 NDA 与《数据使用与合规协议》后启动。
七、购买流程
官网下单(或联系企业销售) → 2) 签署《数据使用与合规协议》 → 3) 开通下载/传输并交付数据说明书 → 4) 技术对接与交付确认(含校验与补传保障)。
八、合规与许可
来源包含开源/自研/授权数据,严格脱敏与许可识别;不含敏感个人信息与密钥。仅限合法合规用途,禁止用于恶意软件生成、入侵/攻击。许可为不可转售的商业授权;如需转授权/联营分发,请洽谈企业条款。
常见问题(精要)
能否先评估效果? 可申请小样本试用片段(签 NDA 后提供)。
与通用代码语料区别? 强调“生态 + 可执行性”:第三方服务调用范式、依赖/构建、错误—修复模式、文档—实现对齐。
是否含私有代码? 不含;附许可识别元数据便于企业内审;支持按月/季度增量更新服务。