Skip to content

Commit ae7fb1d

Browse files
committed
add
1 parent 250f278 commit ae7fb1d

2 files changed

Lines changed: 800 additions & 0 deletions

File tree

Lines changed: 99 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,99 @@
1+
20260313去重评估
2+
## 标题可用性、指标、打分标准
3+
4+
处理流程
5+
抓取api的所有榜单,共计26个榜单,榜单从抓取榜单信号梳理中得到
6+
1. 每个榜单的更新频率不同,这里统一为整10分钟一次
7+
2. 不同榜单的数量不同,如小红书榜单获取到只有20个,知乎30个,百度50个,其他大部分都在20-50之间,这里默认全部取50上限(不足50的按照实际数量)已经是尽可能的取最多了。
8+
9+
其中然后进行整合到一个榜单,然后按照之前的流程:
10+
1. 首先进行标题合并,进行初步字符串标题去重,保留热度最高的唯一标题,得到结果示例为:2026年安排国防支出1.94万亿元(hot:37181401)\n地球或将迎“超级厄尔尼诺”现象(hot:33643123)\n
11+
2. 然后用大模型节点进行标题抽取、合并相近新闻标题、并对合并后的新闻标题进行分类匹配到多类中,包括财经、军事、国际、时政、历史、娱乐、科技、社会、体育、其他
12+
3. 然后用大模型进行去重,去重规则为:
13+
1. 分类内保留基本相同标题中最详细的
14+
2. 分类内语义高度一致,保留最详细的
15+
3. 分类内围绕同一个话题的标题不超过三个,一个分类可以有多个话题
16+
17+
18+
其中大模型处理方法暂时沿用之前两个处理节点的方式热点抓取策略 for 视频脚本2.0
19+
竞品观察室API
20+
百度热榜、微博热榜、头条热榜、哔哩哔哩热榜、抖音热榜、抖音娱乐榜、小红书热榜、快手热榜、快手文娱榜、腾讯热榜、UC热榜、QQ浏览器热榜、知乎热榜、网易热榜、新浪热榜、凤凰热榜、微博文娱榜、富途牛牛热榜、华尔街见闻热榜、每日经济新闻热榜、澎湃新闻热榜、财联社热榜、封面新闻热榜、抖音社会榜、微博要闻榜、虎扑热榜、搜狗热榜
21+
22+
目前使用的有
23+
["baidu","weibo", "toutiao", "bilibili", "douyin", "douyin-redianbang", "douyin-yulebang", "xiaohongshu", "kuaishou", "tencent", "UC", "tnews", "zhihu", "wangyinews", "sinanews", "fenghuangnews", "weibo-wenyu", "futuniuniu", "huaerjiejianwen", "meirijingji", "pengpai", "cailianshe", "fengmiannew", "douyin-shehuibang", "weibo-yaowen", "hupu"]
24+
25+
26+
PM要求
27+
标题重复评估标准与上线期望:
28+
1. P0:字面重复——不可用,不能出现
29+
30+
不能有完全相同,或者就差两三个字就完全相同的标题
31+
2. P0:同义去重——不可用,不能出现
32+
33+
删除语义高度一致,只是措辞不同的标题
34+
示例:“某某去世” / “某某逝世”;“A公司裁员” / “A公司启动人员优化”
35+
3. P1:主题去重——可接受,同一主题重复的条数不得多于3条
36+
37+
描述同一核心事件 / 同一主体 / 同一趋势的多条标题,但角度、立场、修辞略有不同
38+
示例:金价大幅跳水后反弹;黄金跳水可以上车了吗,虽然讲的都是金价又涨了,但是一个知识描述现象,一个是有引导用户操作的倾向,整体也算重复,但对用户影响会弱一些。
39+
40+
具体打分类别为PM和运营评估时效性和重复性
41+
42+
结果分析
43+
1. 现在对于重复的问题做了3项:1. 代码去重完全一致,保留热度最高的。2. 大模型一整体去重。3. 大模型二分类内去重,可以初步看到几乎完全一致的没有。那么是否有必要添加代码级别处理,字符串匹配比如整体去重复,所有类别相差2个字以内的只保留热度最高的这种,如果做的话是在整体做还是类别内做,如果做的话是否存在不相关的话题但是句式一致导致被去掉。现有逻辑是否够处理重复问题,是否需要调整去重策略。
44+
2. 现有效果大部分看起来没有明显超过3个重复的 ,但是对于语义相差较大的难以处理,比如:
45+
46+
{
47+
"title": "OpenClaw实测体验"
48+
},
49+
{
50+
"title": "工信部对龙虾AI发布风险预警"
51+
},
52+
{
53+
"title": "院士谈AI龙虾爆火"
54+
},
55+
{
56+
"title": "“养龙虾”热潮下的冷思考"
57+
都是科技类别下,四个是一个事情,但是AI并不知道OpenClaw和AI龙虾、养龙虾这个是不是一回事,因此对于一个事情虽然是多个角度,但是出现了4个,这种情况算不算有问题。
58+
此外,热点往往是短时间内大量一个事件的相关新闻,比如军事相关都是伊朗有关的话题,这种如果要求同一个事件三个角度可能不容易,但是关于同一个点相关的话题有很多,这种应该允许,需要PM和运营进行确认是否满足要求。
59+
3. 如何验证重复性问题完全解决了,评估判断多个时间点的结果,只单个结果不一定能说明重复问题解决了。
60+
4. 现在每个分类下能否保证财经、时政、军事这几类任何时候都可以满足30条?
61+
1. 之前只使用一个榜单,数量大概率满足不了,现在使用26个榜单是否就一定能解决
62+
2. 对于之前的旧榜单合并策略,只在不够N=30的时候启用,可以保留作为兜底,但是在极端情况下,新闻去重后单个类别不足30的情况下仍可能使用旧榜单,因为很多时候新闻热点没有那么多的情况下,去重后有效新闻就有限了。
63+
64+
5. 现在的策略是在得到工作流最终结果之后删除字数超过20字的新闻,这一步过于靠后,而且中间采取的策略是:只保留最详细的那个新闻标题。这一策略可能导致前面相似的新闻保留了最长的新闻,而保留的这个新闻又在最后被删除,导致新闻热点遗漏,是否需要将这一步前置。
65+
66+
67+
68+
69+
70+
71+
72+
20260319热榜评估结果分析
73+
74+
# 背景信息
75+
新策略在原策略的基础上主要针对时效性存在严重问题,存在多个月之前的信息解决,在原千帆api抓取百度热榜的基础上修改为竞品实验室的26个热榜,因此时效性大概率可以解决,但是可能存在多样性重复的问题,需要通过评估判断能否在时效性得到解决的前提下,多样性基本持平,不出现明显重复性问题。
76+
77+
# 数据情况
78+
数据选取3.16日晚上20:00的作为第一次评估基准时间,评估数据包括三个部分的来源:
79+
80+
1. 3.16 20:00 线上热榜结果的时效性和多样性评估结果
81+
2. 3.16 20:00 使用新策略模拟线上环境结果的时效性和多样性,还额外评估了生成摘要和角度的内容准确性。
82+
3. 3.17 19:00,使用新策略模拟线上环境,在3.16 20:00的基础上更新多个时刻(中间跳过了很多时间),评估时效性和多样性。
83+
84+
85+
86+
87+
# 实验结果
88+
其中线上一共154个样本,后两个都为150个样本
89+
90+
| 维度 | 分值 | 3.16线上热点 | 3.16新策略单时刻更新热点 | 3.17新策略多时刻更新热点 |
91+
|---|---:|---:|---:|---:|
92+
| 时效性 | 0 | 19.4% | 9.2% | 7.5% |
93+
| 时效性 | 1 | 15.3% | 20.8% | 7.5% |
94+
| 时效性 | 2 | 65.3% | 70% | 85% |
95+
| 多样性 | 0 | 1.3% | 4.0% | 0 |
96+
| 多样性 | 1 | 6.5% | 7.3% | 14% |
97+
| 多样性 | 2 | 92.2% | 88.7% | 86% |
98+
99+
已达可上线标准(时效性可用率92.5%,多样性可用率为100%,其中部分热点时效性不可用的原因主要为该热点为线上已有热点)

0 commit comments

Comments
 (0)