
LLM训练数据包|Cursor软件生态代码数据 1500G|给类似Cursor软件大模型训练专用|全新AI大模型训练数据包|支持企业定制合作
HK$1.00 - HK$99,999.00
Cursor AI 软件生态代码数据(1500G)是为“会写完整可用软件”的 LLM/代码助手打造的训练数据包。不同于只收集单仓源码的通用语料,本数据围绕真实开发全流程,补齐第三方服务调用、依赖管理、错误修复、文档—实现对齐等生态知识,适合打造类似 Cursor 这类“可落地”的软件模型与智能开发代理(Agent)。
数据规模:≈1500G
价格:HKD 99,000(9.9W)
上线时间:9 月 21 日(现已开售)
支持:企业定制扩容 / 行业专用包
数据包特点
生态级覆盖:不止源码,涵盖第三方 API/SDK 使用知识、依赖与构建、配置与部署要点。
可执行导向:围绕“能跑通”的目标组织与标注,有助于提升编译/运行通过率与 API 调用成功率。
高质量清洗:去重、脱敏、许可扫描与结构化标识,便于直接用于预训练/指令微调。
专为代码模型:更适配 Code LLM、Agent、IDE Copilot、RAG+执行 等场景。
一、产品概述
Neuronicx 软件生态代码数据(1500G)是为“会写完整可用软件”的 LLM/代码助手打造的训练数据包。不同于只收集单仓源码的通用语料,本数据围绕真实开发全流程,补齐第三方服务调用、依赖管理、错误修复、文档—实现对齐等生态知识,适合打造类似 Cursor 这类“可落地”的软件模型与智能开发代理(Agent)。
数据规模:≈1500G
价格:HKD 99,000(9.9W)
上线时间:9 月 21 日(现已开售)
官网下单:Neuronicx.com
支持:企业定制扩容 / 行业专用包
二、核心价值
生态级覆盖:不止源码,涵盖第三方 API/SDK 使用知识、依赖与构建、配置与部署要点。
可执行导向:围绕“能跑通”的目标组织与标注,有助于提升编译/运行通过率与 API 调用成功率。
高质量清洗:去重、脱敏、许可扫描与结构化标识,便于直接用于预训练/指令微调。
专为代码模型:更适配 Code LLM、Agent、IDE Copilot、RAG+执行 等场景。
三、数据内容构成(示例维度)
代码与依赖
多语言源码:Python / JS/TS / Go / Rust / Java / C# / Bash 等
依赖与构建:
requirements.txt
、package.json
、go.mod
、Dockerfile、CI 配置等配置与环境:常见服务的连接配置模板与最佳实践(已脱敏)
第三方服务知识
API/SDK 文档要点 ↔ 代码调用示例对齐
常用生态:支付/消息/存储/搜索/AI推理/云平台(如 Stripe、Telegram Bot、OpenAI、AWS 等)的调用范式与错误处理模式
OpenAPI/GraphQL 等接口结构与客户端调用样例
工程化与质量
任务/提交信息 ↔ 代码变更(commit/PR 摘要与 diff 对)
常见错误日志 ↔ 修复补丁(error→fix patterns)
单测样例与覆盖率标记(抽样维度)
指令到代码的映射(训练友好)
需求/指令 → 代码片段/补丁 的成对样本(便于 SFT)
工具/CLI 调用与脚手架生成轨迹(便于 Agent 规划—执行)
说明:具体第三方品牌仅作为“生态范式”示例,所有数据源遵循合规采集与脱敏处理。
四、标注与清洗流程(关键环节)
结构化标注:语言、领域/场景、功能(鉴权、支付、存储、消息等)、第三方服务、复杂度、可执行性标签
去重与归并:语义与 AST 双重去重,去镜像、去垃圾文件
合规审查:SPDX 许可识别;密钥/账号/PII 全量脱敏
质量抽测:编译/运行抽样验证,错误与修复模式对齐标注
毒性与不当内容过滤:符合企业安全与合规要求
五、适用场景
打造类似 Cursor 的 IDE 智能体 / 代码助手
代码 LLM 预训练/指令微调(SFT)、RAG+执行、Agent 规划-调用-调试链路学习
企业内部“应用生成器”、低门槛自动化开发工具
行业专用软件模型(电商、内容、客服、数据工具等)
六、交付与集成
交付方式:S3/OSS 直链、专线传输或加密硬盘寄送
文件格式:JSONL / Parquet(样本与标注)、
tar.gz
/Git bundle(代码与资源)配套资料:样例解析脚本、训练/微调参考配置、数据字典
兼容性:可用于多数主流训练框架与向量/检索系统;支持与你现有语料做去重对齐
七、版本与定价
标准版 1500G:HKD 99,000(一次性授权,含交付支持)
企业定制版(选配):
体量扩展与行业专包(如支付、电商、社交、SaaS)
新增特定第三方生态与调用样例
提供“需求→代码→测试/部署”的更强成对数据
注:定制版按范围报价,签署 NDA 与数据使用协议后启动。
八、购买流程
官网下单(或联系企业销售)
签署《数据使用与合规协议》
开通下载/传输通道并交付数据说明书
技术对接与交付确认(含校验与补传保障)
九、合规与使用许可
数据来源包含:开源/自研/授权数据,严格脱敏与许可识别;不含敏感个人信息与密钥。
仅限合法合规用途;禁止用于恶意软件生成、入侵/攻击场景。
许可为不可转售的商业使用授权;如需转授权或联营分发,请洽谈企业合作条款。
十、常见问题(FAQ)
Q1:能否先评估效果?
A:可申请小样本试用片段(签署 NDA 后提供),用于验证训练/微调流程与指标口径。
Q2:和通用代码语料有何不同?
A:本包强调**“生态与可执行性”**:第三方服务调用范式、依赖/构建、错误—修复模式与文档—实现对齐,这些是“能写成可用软件”的关键补全。
Q3:是否包含专有/私有代码?
A:不包含。来源合规且已脱敏;同时提供许可识别元数据以便企业内审。
Q4:是否支持定期更新?
A:可选购增量更新(月/季),持续补充新生态与修复模式。