Skip to content

Commit ca2dac6

Browse files
committed
Add study notes for 2025-08-17
1 parent c90d0a8 commit ca2dac6

1 file changed

Lines changed: 82 additions & 0 deletions

File tree

CodingGeoff.md

Lines changed: 82 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -15,6 +15,88 @@ timezone: UTC+8
1515
## Notes
1616

1717
<!-- Content_START -->
18+
# 2025-08-17
19+
20+
## 今日学习了 Web3 如何参与开源项目、如何评估数据集价值,以及如何获取高质量数据
21+
22+
23+
### 一、参与开源项目的建议
24+
1. **项目选择**
25+
不建议优先选择知名或高知名度项目(此类项目竞争激烈),可选择偏门、易实现、竞争较小的项目。核心目标是完整体验开源流程(如提交代码、评审等),而非急于实现高难度技术。
26+
27+
2. **参与流程**
28+
参与时不宜急于编写代码,应优先制定解决方案并与导师充分沟通调整,避免因方向不符或过度优化导致项目难以在规定时间内完成。具体流程可参考:先提交issue,清晰描述问题与想法,待方案确定后再编写PR,以减少返工。
29+
30+
3. **沟通要点**
31+
- 与导师沟通时,需携带对项目的理解、初步方案等有效信息,提升沟通效率;
32+
- 应主动解决部分问题(如查阅文档、借助AI等),避免过度依赖导师,减少对其工作的干扰;
33+
- 善用AI辅助学习,但不可过度依赖,需结合自身理解明确项目中的问题及改进方向,同时注重阅读源码。
34+
35+
36+
### 二、数据集价值评估框架
37+
数据集价值评估基于六大核心原则,适用于新兴数据公开交易市场:
38+
39+
1. **稀缺性(Scarcity)**
40+
稀缺性是数据价值的基础,供不应求的数据更具价值。公共数据因可通过计算技术高效获取(如网络爬虫)已逐渐商品化;私有数据或平台封闭数据因难以获取,价值更高。
41+
- 信号提示:平台限制API访问(如Reddit、Twitter、Spotify近年举措),通常表明其数据具有高价值,平台正通过限制供应维持稀缺性。
42+
- 突破路径:多数国家法律赋予用户索回个人数据的权利,可通过集体协作整合个人数据,突破平台的稀缺性壁垒。
43+
44+
2. **深度(Depth)**
45+
指单个数据点包含的信息量(如一行数据中的字段丰富度),包括聊天记录、点击行为、位置信息、设备数据、时间序列日志等。
46+
- 价值体现:数据深度越高,越能支持多变量建模、个性化训练及精准分析。例如,仅获取单条Facebook消息的价值有限,但若整合用户的全部消息、位置、设备信息等,可构建更全面的用户模型。
47+
- 关键问题:需评估数据集的schema(结构)是否丰富,单个数据点包含的字段数量及类型是否多元。
48+
49+
3. **广度(Breadth)**
50+
指数据的规模、多样性及可推广性,即样本覆盖的人群数量、群体多样性,以及能否代表目标应用场景。
51+
- 核心要求:若数据用于服务广泛群体(如面向全社会的AI模型),需确保样本多样性(如地域、种族、特征等);若针对特定场景(如零售店铺数据),则允许一定的样本偏向。
52+
- 实用技巧:可通过动态定价的代币机制激励稀缺群体贡献数据(如为具有独特特征的用户提供更多代币),提升样本多样性。
53+
54+
4. **结构(Structure)**
55+
指数据的格式规范性,包括schema定义、数据类型一致性(如二进制、布尔值、文本、数值等)及噪声水平。
56+
- 价值影响:结构清晰、格式规范、噪声少的数据更易被AI模型使用;反之,非结构化数据(如杂乱的文本JSON文件)或数据类型错位(如用布尔值表示数值)会大幅降低价值。
57+
- 关键问题:需确保数据字段无大量空值,且数据类型与信息属性匹配(如用数值表示金额,而非文本)。
58+
59+
5. **时效性(Timeliness)**
60+
指数据的时效性与更新频率,需根据应用场景判断数据的有效周期。
61+
- 差异案例:女性非生殖健康数据因人体特征变化缓慢,可长期有效;而Twitter情绪数据或实时通胀数据需高频更新(如每小时),否则价值会快速衰减。
62+
- 激励机制:通过代币设计鼓励持续数据更新(如仅首次贡献数据奖励少,定期更新奖励多),避免数据陈旧。
63+
64+
6. **战略实用性(Strategic Utility)**
65+
是数据价值的核心,指数据能否解决实际问题、提升模型性能或解锁新洞察。
66+
- 关键标准:需清晰阐述数据的应用场景,例如“人类运动数据可优化类人机器人的动作控制”。若无法说明数据的实用价值,其商业潜力有限。
67+
- 建议:若不确定数据的实用性,可与Banner团队协作打磨应用场景。
68+
69+
70+
### 三、数据获取三大实用技巧
71+
1. **从有限的公开数据集推断**
72+
- 参考AWS Exchange、Snowflake、Hugging Face等数据源,观察热门或高价数据集(如2023年创作者数据集售价10万美元,可推测2025年同类数据的价值)。
73+
- 关注平台隐私政策或API限制的变化(如近一年50%的平台修订条款),此类限制通常暗示数据具有高价值。
74+
- 注册Appen、Scale AI、LXT等数据经纪平台,了解其收购的数据类型(这些平台为大型科技公司提供数据,可反映市场需求)。
75+
- 设置Google提醒跟踪“数据销售”“数据许可”等关键词,提前捕捉潜在数据交易机会。
76+
77+
2. **与AI构建者交流**
78+
参与本地AI黑客马拉松或加入AI社区(如亚太地区最大的AI构建者社区Build Club),了解AI开发者的数据源痛点(多数开发者依赖开源数据,对高质量私有数据需求强烈)。
79+
80+
3. **利用行业直觉**
81+
聚焦自身熟悉的行业,识别AI应用的短板(如某行业AI模型表现不佳,通常因数据不足),针对性收集数据。例如,若熟悉医疗行业,可关注AI在疾病诊断中的局限性,收集相关临床数据。
82+
83+
84+
### 四、数据收集相关问题
85+
1. **伦理与补偿**
86+
- 现状:当前数据交易中,数据创造者(用户)常被排除在交易之外,补偿远低于数据实际价值。
87+
- 解决方案:建立公开市场,让用户参与数据经济,确保公平补偿。
88+
89+
2. **平台数据获取**
90+
- 法规进展:多国正推动用户数据的便捷访问,如美国《犹他州数字选择法案》要求平台提供程序化数据访问,欧盟GDPR改革也在推进即时数据获取权。
91+
- 实操建议:尝试通过“GDPR导出”功能获取个人数据(如Google Takeout),部分平台(如WhatsApp、ChatGPT)已支持快速导出,需关注法规更新。
92+
93+
3. **数据代币经济学**
94+
核心是代币设计需与数据收集目标匹配。例如,若需多样化样本,应弱化“推荐奖励”(避免用户仅推荐同类人群);若数据敏感(如医疗数据),可采用“联合曲线 (Bonding Curve)”机制,奖励早期贡献者以建立信任。
95+
96+
4. **具体数据集案例**
97+
- **信用卡数据**:现有市场由信用卡公司垄断,效率低下。可通过收集收据信息(如商品尺寸、颜色),丰富交易数据的粒度,提升价值。
98+
- **健康数据**:受严格监管(如美国HIPAA),需专业经纪商参与。但通过用户授权及合规处理(如去标识化),仍有巨大潜力,例如女性健康数据可推动医疗研究。
99+
18100
# 2025-08-16
19101

20102
### 了解 Web3 数据分析和职业发展机会

0 commit comments

Comments
 (0)