返回
LLM大模型训练数据(香港社会综合类900G)
HK$39,999.00
产品名称:
香港社会综合数据包(1850–2024)
概述:
该数据集是精心整理的集合,涵盖了香港社会的多个领域,包括本地新闻、行业人物、法律制度、学术、人文学科以及金融数据,时间跨度长达两个世纪(1850–2024)。它为大型语言模型(LLM)及AI算法的训练提供了丰富的资源,适用于文本生成、情感分析和知识检索等任务。
数据格式:
文本文件: 结构化和非结构化文本,格式包括 .txt、.csv 和 .json,便于集成到LLM训练框架中。
元数据: 包含元数据如发布日期、作者信息和来源详细信息,格式为 .csv 和 .json。
注释: 预先注释的数据集,用于自然语言处理任务,包括实体识别和主题分类(.json 或 .xml 格式)。
含少量图像、视频、音频文件。
交付流程:
购买: 用户可在平台上选择该数据集。
支付: 通过安全支付流程完成交易。
交付: 支付确认后,用户将收到下载链接或数据传输说明,交付方式将根据用户存储设备进行定制。
发布日期:2024年9月19号
香港社会综合数据包(1850–2024)
概述:
该数据集是精心整理的集合,涵盖了香港社会的多个领域,包括本地新闻、行业人物、法律制度、学术、人文学科以及金融数据,时间跨度长达两个世纪(1850–2024)。它为大型语言模型(LLM)及AI算法的训练提供了丰富的资源,适用于文本生成、情感分析和知识检索等任务。
数据格式:
文本文件: 结构化和非结构化文本,格式包括 .txt、.csv 和 .json,便于集成到LLM训练框架中。
元数据: 包含元数据如发布日期、作者信息和来源详细信息,格式为 .csv 和 .json。
注释: 预先注释的数据集,用于自然语言处理任务,包括实体识别和主题分类(.json 或 .xml 格式)。
含少量图像、视频、音频文件。
交付流程:
购买: 用户可在平台上选择该数据集。
支付: 通过安全支付流程完成交易。
交付: 支付确认后,用户将收到下载链接或数据传输说明,交付方式将根据用户存储设备进行定制。
发布日期:2024年9月19号
数量
加入购物车
更多详情
产品名称:
香港社会综合数据集(1850–2024)
概述:
该数据集是精心整理的集合,涵盖了香港社会的多个领域,包括本地新闻、行业人物、法律制度、学术、人文学科以及金融数据,时间跨度长达两个世纪(1850–2024)。它为大型语言模型(LLM)及AI算法的训练提供了丰富的资源,适用于文本生成、情感分析和知识检索等任务。
数据格式:
- 文本文件: 结构化和非结构化文本,格式包括 .txt、.csv 和 .json,便于集成到LLM训练框架中。
- 元数据: 包含元数据如发布日期、作者信息和来源详细信息,格式为 .csv 和 .json。
- 注释: 预先注释的数据集,用于自然语言处理任务,包括实体识别和主题分类(.json 或 .xml 格式)。
数据采集和来源:
该数据集从权威来源收集,包括:
- 新闻档案: 本地报纸和媒体,涵盖了从1850年到2024年的政治、社会和经济事件。
- 行业人物: 香港各行业的关键人物传记数据,包括商业、金融和政治领域。
- 法律文件: 最新的香港法律、法规和政府公告,提供法律和社会背景信息。
- 学术收藏: 来自香港大学和智库的学术文章和研究报告。
- 人文与文化数据: 反映香港文化发展的人文文本、艺术评论和社会趋势。
- 金融数据: 来自香港金融中心的历史和实时数据,包括股票市场指数和经济报告。
数据预处理和训练方法:
- 预处理: 数据经过严格的清理、规范化和标记化处理,确保过滤敏感信息并遵守隐私法规。
- 训练方法: 针对transformer、GPT等最新LLM架构进行优化,数据集包含特定用例的微调说明,如聊天机器人开发、摘要生成或情感分析。
- 增强技术: 为提高数据的鲁棒性,数据集还包括扩充技术,如释义、同义词替换和句子重排。
最新情况:
- 2024年更新: 数据集包含2024年的最新数据,确保通过该数据集训练的模型能够反映香港最新的法律、经济和社会环境。
- 持续更新支持: 提供定期更新,确保数据集与香港不断发展的社会格局保持同步,购买者可以通过订阅或直接下载获得更新。
交付流程:
- 购买: 用户可在平台上选择该数据集。
- 支付: 通过安全支付流程完成交易。
- 交付: 支付确认后,用户将收到下载链接或数据传输说明,交付方式将根据用户存储设备进行定制。
发布日期:
2024年9月19日
更新包:
- 版本控制: 数据集采用版本控制发布,并提供新数据的更新包。
- 更新频率: 更新包将每半年发布一次,或根据高级订阅用户的请求进行更新。