Skip to content

Latest commit

 

History

History
239 lines (171 loc) · 4.9 KB

File metadata and controls

239 lines (171 loc) · 4.9 KB

真实大规模中文情感数据集

🎯 推荐数据源

1. ChineseNlpCorpus(推荐)⭐⭐⭐

来源: https://github.com/SophonPlus/ChineseNlpCorpus

这是一个高质量的中文NLP数据集合,包含多个情感分析数据集。

数据集列表

数据集 规模 领域 下载
外卖评论 1.2万 餐饮 ✅ 自动
在线购物 6.2万 电商 ✅ 自动
大众点评 70万+ 综合 ⚠️ 手动
微博情感 11万 社交 ⚠️ 手动

快速开始

# 下载数据集
python scripts/download_waimai.py

# 处理数据
python scripts/process_real_data.py

# 训练模型
cd model && python train_pretrained.py

2. 外卖评论数据集(waimai_10k)

规模: 12,000 条 标注: 正面/负面 格式: CSV (label, review)

下载方式:

python scripts/download_waimai.py

手动下载:

  1. 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/waimai_10k
  2. 下载 waimai_10k.csv
  3. 放到 data/raw/waimai_10k.csv

数据示例:

label,review
1,菜品很新鲜,味道很好,送餐速度快
0,菜品不新鲜,味道一般,送餐太慢

3. 在线购物评论(online_shopping_10_cats)

规模: 62,774 条 类别: 10个商品类别 标注: 正面/负面

下载方式:

python scripts/download_waimai.py

手动下载:

  1. 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/online_shopping_10_cats
  2. 下载 online_shopping_10_cats.csv
  3. 放到 data/raw/online_shopping_10_cats.csv

商品类别:

  • 书籍
  • 平板电脑
  • 手机
  • 水果
  • 洗发水
  • 热水器
  • 蒙牛
  • 衣服
  • 计算机
  • 酒店

4. 大众点评数据集(dmsc_v2)⭐

规模: 700,000+ 条 领域: 餐饮、酒店、购物 标注: 1-5星评分

手动下载:

  1. 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/dmsc_v2
  2. 下载所有 CSV 文件
  3. 放到 data/raw/dmsc/

数据文件:

  • DMSC_food.csv - 餐饮评论
  • DMSC_hotel.csv - 酒店评论
  • DMSC_shopping.csv - 购物评论

处理方式:

  • 1-2星 → 负面 (0)
  • 4-5星 → 正面 (1)
  • 3星 → 跳过(中性)

5. 微博情感分析数据集

规模: 119,988 条 标注: 4种情感(喜悦、愤怒、厌恶、低落)

下载:

  1. 访问: https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets/simplifyweibo_4_moods
  2. 下载 simplifyweibo_4_moods.csv

转换为二分类:

  • 喜悦 → 正面 (1)
  • 愤怒、厌恶、低落 → 负面 (0)

📦 其他数据源

HuggingFace Datasets

虽然有些数据集脚本被禁用,但可以通过其他方式获取:

# 方式1: 直接加载(如果可用)
from datasets import load_dataset
dataset = load_dataset("dataset_name")

# 方式2: 从 Hub 下载
from huggingface_hub import hf_hub_download
file = hf_hub_download(repo_id="dataset_name", filename="data.csv")

Kaggle 数据集

搜索关键词: "chinese sentiment analysis"


🚀 推荐组合

组合 1: 快速验证(1-2小时)

  • 外卖评论 (1.2万)
  • 词表: 5,000-8,000 词
  • 训练时间: 30分钟

组合 2: 中等规模(3-4小时)

  • 外卖评论 (1.2万) + 在线购物 (6.2万)
  • 总计: 7.4万条
  • 词表: 15,000-25,000 词
  • 训练时间: 2-3小时

组合 3: 大规模(6-8小时)⭐

  • 大众点评 (70万)
  • 词表: 40,000-60,000 词
  • 训练时间: 6-8小时
  • 预期准确率: 88-93%

📝 使用流程

步骤 1: 下载数据

# 自动下载(外卖 + 在线购物)
python scripts/download_waimai.py

# 或手动下载大众点评数据集
# 放到 data/raw/ 目录

步骤 2: 处理数据

# 转换为超图格式
python scripts/process_real_data.py

输出:

  • data/large_dataset/train_hypergraph.jsonl
  • data/large_dataset/test_hypergraph.jsonl
  • data/large_dataset/vocab.json

步骤 3: 训练模型

cd model
python train_pretrained.py

步骤 4: 部署

# 后端
cd system/backend
python app.py

# 前端
cd system/frontend
npm run dev

⚠️ 注意事项

  1. 数据质量: ChineseNlpCorpus 的数据质量很高,已经过清洗
  2. 编码问题: 确保使用 UTF-8 编码读取
  3. 标签格式: 不同数据集的标签格式可能不同,需要统一
  4. 数据平衡: 检查正负样本比例,必要时进行平衡

📊 预期效果

数据规模 词表大小 训练时间 准确率
1.2万 8,000 30分钟 82-85%
7.4万 25,000 2-3小时 85-88%
70万 50,000 6-8小时 88-93%

🔗 相关链接