来源: https://github.com/SophonPlus/ChineseNlpCorpus
这是一个高质量的中文NLP数据集合,包含多个情感分析数据集。
| 数据集 | 规模 | 领域 | 下载 |
|---|---|---|---|
| 外卖评论 | 1.2万 | 餐饮 | ✅ 自动 |
| 在线购物 | 6.2万 | 电商 | ✅ 自动 |
| 大众点评 | 70万+ | 综合 | |
| 微博情感 | 11万 | 社交 |
# 下载数据集
python scripts/download_waimai.py
# 处理数据
python scripts/process_real_data.py
# 训练模型
cd model && python train_pretrained.py规模: 12,000 条 标注: 正面/负面 格式: CSV (label, review)
下载方式:
python scripts/download_waimai.py手动下载:
- 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/waimai_10k
- 下载
waimai_10k.csv - 放到
data/raw/waimai_10k.csv
数据示例:
label,review
1,菜品很新鲜,味道很好,送餐速度快
0,菜品不新鲜,味道一般,送餐太慢
规模: 62,774 条 类别: 10个商品类别 标注: 正面/负面
下载方式:
python scripts/download_waimai.py手动下载:
- 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/online_shopping_10_cats
- 下载
online_shopping_10_cats.csv - 放到
data/raw/online_shopping_10_cats.csv
商品类别:
- 书籍
- 平板电脑
- 手机
- 水果
- 洗发水
- 热水器
- 蒙牛
- 衣服
- 计算机
- 酒店
规模: 700,000+ 条 领域: 餐饮、酒店、购物 标注: 1-5星评分
手动下载:
- 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/dmsc_v2
- 下载所有 CSV 文件
- 放到
data/raw/dmsc/
数据文件:
DMSC_food.csv- 餐饮评论DMSC_hotel.csv- 酒店评论DMSC_shopping.csv- 购物评论
处理方式:
- 1-2星 → 负面 (0)
- 4-5星 → 正面 (1)
- 3星 → 跳过(中性)
规模: 119,988 条 标注: 4种情感(喜悦、愤怒、厌恶、低落)
下载:
- 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/simplifyweibo_4_moods
- 下载
simplifyweibo_4_moods.csv
转换为二分类:
- 喜悦 → 正面 (1)
- 愤怒、厌恶、低落 → 负面 (0)
虽然有些数据集脚本被禁用,但可以通过其他方式获取:
# 方式1: 直接加载(如果可用)
from datasets import load_dataset
dataset = load_dataset("dataset_name")
# 方式2: 从 Hub 下载
from huggingface_hub import hf_hub_download
file = hf_hub_download(repo_id="dataset_name", filename="data.csv")搜索关键词: "chinese sentiment analysis"
- 外卖评论 (1.2万)
- 词表: 5,000-8,000 词
- 训练时间: 30分钟
- 外卖评论 (1.2万) + 在线购物 (6.2万)
- 总计: 7.4万条
- 词表: 15,000-25,000 词
- 训练时间: 2-3小时
- 大众点评 (70万)
- 词表: 40,000-60,000 词
- 训练时间: 6-8小时
- 预期准确率: 88-93%
# 自动下载(外卖 + 在线购物)
python scripts/download_waimai.py
# 或手动下载大众点评数据集
# 放到 data/raw/ 目录# 转换为超图格式
python scripts/process_real_data.py输出:
data/large_dataset/train_hypergraph.jsonldata/large_dataset/test_hypergraph.jsonldata/large_dataset/vocab.json
cd model
python train_pretrained.py# 后端
cd system/backend
python app.py
# 前端
cd system/frontend
npm run dev- 数据质量: ChineseNlpCorpus 的数据质量很高,已经过清洗
- 编码问题: 确保使用 UTF-8 编码读取
- 标签格式: 不同数据集的标签格式可能不同,需要统一
- 数据平衡: 检查正负样本比例,必要时进行平衡
| 数据规模 | 词表大小 | 训练时间 | 准确率 |
|---|---|---|---|
| 1.2万 | 8,000 | 30分钟 | 82-85% |
| 7.4万 | 25,000 | 2-3小时 | 85-88% |
| 70万 | 50,000 | 6-8小时 | 88-93% |
- ChineseNlpCorpus: https://github.com/SophonPlus/ChineseNlpCorpus
- HuggingFace Datasets: https://huggingface.co/datasets
- 中文NLP资源: https://github.com/crownpku/Awesome-Chinese-NLP