真实大规模中文情感数据集

🎯 推荐数据源

1. ChineseNlpCorpus（推荐）⭐⭐⭐

来源: https://github.com/SophonPlus/ChineseNlpCorpus

这是一个高质量的中文NLP数据集合，包含多个情感分析数据集。

数据集列表

数据集	规模	领域	下载
外卖评论	1.2万	餐饮	✅ 自动
在线购物	6.2万	电商	✅ 自动
大众点评	70万+	综合	⚠️ 手动
微博情感	11万	社交	⚠️ 手动

快速开始

# 下载数据集
python scripts/download_waimai.py

# 处理数据
python scripts/process_real_data.py

# 训练模型
cd model && python train_pretrained.py

2. 外卖评论数据集（waimai_10k）

规模: 12,000 条标注: 正面/负面格式: CSV (label, review)

下载方式:

python scripts/download_waimai.py

手动下载:

访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/waimai_10k
下载 waimai_10k.csv
放到 data/raw/waimai_10k.csv

数据示例:

label,review
1,菜品很新鲜，味道很好，送餐速度快
0,菜品不新鲜，味道一般，送餐太慢

3. 在线购物评论（online_shopping_10_cats）

规模: 62,774 条类别: 10个商品类别标注: 正面/负面

下载方式:

python scripts/download_waimai.py

手动下载:

访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/online_shopping_10_cats
下载 online_shopping_10_cats.csv
放到 data/raw/online_shopping_10_cats.csv

商品类别:

书籍
平板电脑
手机
水果
洗发水
热水器
蒙牛
衣服
计算机
酒店

4. 大众点评数据集（dmsc_v2）⭐

规模: 700,000+ 条领域: 餐饮、酒店、购物标注: 1-5星评分

手动下载:

访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/dmsc_v2
下载所有 CSV 文件
放到 data/raw/dmsc/

数据文件:

DMSC_food.csv - 餐饮评论
DMSC_hotel.csv - 酒店评论
DMSC_shopping.csv - 购物评论

处理方式:

1-2星 → 负面 (0)
4-5星 → 正面 (1)
3星 → 跳过（中性）

5. 微博情感分析数据集

规模: 119,988 条标注: 4种情感（喜悦、愤怒、厌恶、低落）

下载:

访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/simplifyweibo_4_moods
下载 simplifyweibo_4_moods.csv

转换为二分类:

喜悦 → 正面 (1)
愤怒、厌恶、低落 → 负面 (0)

📦 其他数据源

HuggingFace Datasets

虽然有些数据集脚本被禁用，但可以通过其他方式获取：

# 方式1: 直接加载（如果可用）
from datasets import load_dataset
dataset = load_dataset("dataset_name")

# 方式2: 从 Hub 下载
from huggingface_hub import hf_hub_download
file = hf_hub_download(repo_id="dataset_name", filename="data.csv")

Kaggle 数据集

搜索关键词: "chinese sentiment analysis"

🚀 推荐组合

组合 1: 快速验证（1-2小时）

外卖评论 (1.2万)
词表: 5,000-8,000 词
训练时间: 30分钟

组合 2: 中等规模（3-4小时）

外卖评论 (1.2万) + 在线购物 (6.2万)
总计: 7.4万条
词表: 15,000-25,000 词
训练时间: 2-3小时

组合 3: 大规模（6-8小时）⭐

大众点评 (70万)
词表: 40,000-60,000 词
训练时间: 6-8小时
预期准确率: 88-93%

📝 使用流程

步骤 1: 下载数据

# 自动下载（外卖 + 在线购物）
python scripts/download_waimai.py

# 或手动下载大众点评数据集
# 放到 data/raw/ 目录

步骤 2: 处理数据

# 转换为超图格式
python scripts/process_real_data.py

输出:

data/large_dataset/train_hypergraph.jsonl
data/large_dataset/test_hypergraph.jsonl
data/large_dataset/vocab.json

步骤 3: 训练模型

cd model
python train_pretrained.py

步骤 4: 部署

# 后端
cd system/backend
python app.py

# 前端
cd system/frontend
npm run dev

⚠️ 注意事项

数据质量: ChineseNlpCorpus 的数据质量很高，已经过清洗
编码问题: 确保使用 UTF-8 编码读取
标签格式: 不同数据集的标签格式可能不同，需要统一
数据平衡: 检查正负样本比例，必要时进行平衡

📊 预期效果

数据规模	词表大小	训练时间	准确率
1.2万	8,000	30分钟	82-85%
7.4万	25,000	2-3小时	85-88%
70万	50,000	6-8小时	88-93%

🔗 相关链接

ChineseNlpCorpus: https://github.com/SophonPlus/ChineseNlpCorpus
HuggingFace Datasets: https://huggingface.co/datasets
中文NLP资源: https://github.com/crownpku/Awesome-Chinese-NLP

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

真实大规模中文情感数据集

🎯 推荐数据源

1. ChineseNlpCorpus（推荐）⭐⭐⭐

数据集列表

快速开始

2. 外卖评论数据集（waimai_10k）

3. 在线购物评论（online_shopping_10_cats）

4. 大众点评数据集（dmsc_v2）⭐

5. 微博情感分析数据集

📦 其他数据源

HuggingFace Datasets

Kaggle 数据集

🚀 推荐组合

组合 1: 快速验证（1-2小时）

组合 2: 中等规模（3-4小时）

组合 3: 大规模（6-8小时）⭐

📝 使用流程

步骤 1: 下载数据

步骤 2: 处理数据

步骤 3: 训练模型

步骤 4: 部署

⚠️ 注意事项

📊 预期效果

🔗 相关链接

FilesExpand file tree

DATA_SOURCES.md

Latest commit

History

DATA_SOURCES.md

File metadata and controls

真实大规模中文情感数据集

🎯 推荐数据源

1. ChineseNlpCorpus（推荐）⭐⭐⭐

数据集列表

快速开始

2. 外卖评论数据集（waimai_10k）

3. 在线购物评论（online_shopping_10_cats）

4. 大众点评数据集（dmsc_v2）⭐

5. 微博情感分析数据集

📦 其他数据源

HuggingFace Datasets

Kaggle 数据集

🚀 推荐组合

组合 1: 快速验证（1-2小时）

组合 2: 中等规模（3-4小时）

组合 3: 大规模（6-8小时）⭐

📝 使用流程

步骤 1: 下载数据

步骤 2: 处理数据

步骤 3: 训练模型

步骤 4: 部署

⚠️ 注意事项

📊 预期效果

🔗 相关链接