@@ -15,6 +15,88 @@ timezone: UTC+8
1515## Notes
1616
1717<!-- Content_START -->
18+ # 2025-08-17
19+
20+ ## 今日学习了 Web3 如何参与开源项目、如何评估数据集价值,以及如何获取高质量数据
21+
22+
23+ ### 一、参与开源项目的建议
24+ 1 . ** 项目选择**
25+ 不建议优先选择知名或高知名度项目(此类项目竞争激烈),可选择偏门、易实现、竞争较小的项目。核心目标是完整体验开源流程(如提交代码、评审等),而非急于实现高难度技术。
26+
27+ 2 . ** 参与流程**
28+ 参与时不宜急于编写代码,应优先制定解决方案并与导师充分沟通调整,避免因方向不符或过度优化导致项目难以在规定时间内完成。具体流程可参考:先提交issue,清晰描述问题与想法,待方案确定后再编写PR,以减少返工。
29+
30+ 3 . ** 沟通要点**
31+ - 与导师沟通时,需携带对项目的理解、初步方案等有效信息,提升沟通效率;
32+ - 应主动解决部分问题(如查阅文档、借助AI等),避免过度依赖导师,减少对其工作的干扰;
33+ - 善用AI辅助学习,但不可过度依赖,需结合自身理解明确项目中的问题及改进方向,同时注重阅读源码。
34+
35+
36+ ### 二、数据集价值评估框架
37+ 数据集价值评估基于六大核心原则,适用于新兴数据公开交易市场:
38+
39+ 1 . ** 稀缺性(Scarcity)**
40+ 稀缺性是数据价值的基础,供不应求的数据更具价值。公共数据因可通过计算技术高效获取(如网络爬虫)已逐渐商品化;私有数据或平台封闭数据因难以获取,价值更高。
41+ - 信号提示:平台限制API访问(如Reddit、Twitter、Spotify近年举措),通常表明其数据具有高价值,平台正通过限制供应维持稀缺性。
42+ - 突破路径:多数国家法律赋予用户索回个人数据的权利,可通过集体协作整合个人数据,突破平台的稀缺性壁垒。
43+
44+ 2 . ** 深度(Depth)**
45+ 指单个数据点包含的信息量(如一行数据中的字段丰富度),包括聊天记录、点击行为、位置信息、设备数据、时间序列日志等。
46+ - 价值体现:数据深度越高,越能支持多变量建模、个性化训练及精准分析。例如,仅获取单条Facebook消息的价值有限,但若整合用户的全部消息、位置、设备信息等,可构建更全面的用户模型。
47+ - 关键问题:需评估数据集的schema(结构)是否丰富,单个数据点包含的字段数量及类型是否多元。
48+
49+ 3 . ** 广度(Breadth)**
50+ 指数据的规模、多样性及可推广性,即样本覆盖的人群数量、群体多样性,以及能否代表目标应用场景。
51+ - 核心要求:若数据用于服务广泛群体(如面向全社会的AI模型),需确保样本多样性(如地域、种族、特征等);若针对特定场景(如零售店铺数据),则允许一定的样本偏向。
52+ - 实用技巧:可通过动态定价的代币机制激励稀缺群体贡献数据(如为具有独特特征的用户提供更多代币),提升样本多样性。
53+
54+ 4 . ** 结构(Structure)**
55+ 指数据的格式规范性,包括schema定义、数据类型一致性(如二进制、布尔值、文本、数值等)及噪声水平。
56+ - 价值影响:结构清晰、格式规范、噪声少的数据更易被AI模型使用;反之,非结构化数据(如杂乱的文本JSON文件)或数据类型错位(如用布尔值表示数值)会大幅降低价值。
57+ - 关键问题:需确保数据字段无大量空值,且数据类型与信息属性匹配(如用数值表示金额,而非文本)。
58+
59+ 5 . ** 时效性(Timeliness)**
60+ 指数据的时效性与更新频率,需根据应用场景判断数据的有效周期。
61+ - 差异案例:女性非生殖健康数据因人体特征变化缓慢,可长期有效;而Twitter情绪数据或实时通胀数据需高频更新(如每小时),否则价值会快速衰减。
62+ - 激励机制:通过代币设计鼓励持续数据更新(如仅首次贡献数据奖励少,定期更新奖励多),避免数据陈旧。
63+
64+ 6 . ** 战略实用性(Strategic Utility)**
65+ 是数据价值的核心,指数据能否解决实际问题、提升模型性能或解锁新洞察。
66+ - 关键标准:需清晰阐述数据的应用场景,例如“人类运动数据可优化类人机器人的动作控制”。若无法说明数据的实用价值,其商业潜力有限。
67+ - 建议:若不确定数据的实用性,可与Banner团队协作打磨应用场景。
68+
69+
70+ ### 三、数据获取三大实用技巧
71+ 1 . ** 从有限的公开数据集推断**
72+ - 参考AWS Exchange、Snowflake、Hugging Face等数据源,观察热门或高价数据集(如2023年创作者数据集售价10万美元,可推测2025年同类数据的价值)。
73+ - 关注平台隐私政策或API限制的变化(如近一年50%的平台修订条款),此类限制通常暗示数据具有高价值。
74+ - 注册Appen、Scale AI、LXT等数据经纪平台,了解其收购的数据类型(这些平台为大型科技公司提供数据,可反映市场需求)。
75+ - 设置Google提醒跟踪“数据销售”“数据许可”等关键词,提前捕捉潜在数据交易机会。
76+
77+ 2 . ** 与AI构建者交流**
78+ 参与本地AI黑客马拉松或加入AI社区(如亚太地区最大的AI构建者社区Build Club),了解AI开发者的数据源痛点(多数开发者依赖开源数据,对高质量私有数据需求强烈)。
79+
80+ 3 . ** 利用行业直觉**
81+ 聚焦自身熟悉的行业,识别AI应用的短板(如某行业AI模型表现不佳,通常因数据不足),针对性收集数据。例如,若熟悉医疗行业,可关注AI在疾病诊断中的局限性,收集相关临床数据。
82+
83+
84+ ### 四、数据收集相关问题
85+ 1 . ** 伦理与补偿**
86+ - 现状:当前数据交易中,数据创造者(用户)常被排除在交易之外,补偿远低于数据实际价值。
87+ - 解决方案:建立公开市场,让用户参与数据经济,确保公平补偿。
88+
89+ 2 . ** 平台数据获取**
90+ - 法规进展:多国正推动用户数据的便捷访问,如美国《犹他州数字选择法案》要求平台提供程序化数据访问,欧盟GDPR改革也在推进即时数据获取权。
91+ - 实操建议:尝试通过“GDPR导出”功能获取个人数据(如Google Takeout),部分平台(如WhatsApp、ChatGPT)已支持快速导出,需关注法规更新。
92+
93+ 3 . ** 数据代币经济学**
94+ 核心是代币设计需与数据收集目标匹配。例如,若需多样化样本,应弱化“推荐奖励”(避免用户仅推荐同类人群);若数据敏感(如医疗数据),可采用“联合曲线 (Bonding Curve)”机制,奖励早期贡献者以建立信任。
95+
96+ 4 . ** 具体数据集案例**
97+ - ** 信用卡数据** :现有市场由信用卡公司垄断,效率低下。可通过收集收据信息(如商品尺寸、颜色),丰富交易数据的粒度,提升价值。
98+ - ** 健康数据** :受严格监管(如美国HIPAA),需专业经纪商参与。但通过用户授权及合规处理(如去标识化),仍有巨大潜力,例如女性健康数据可推动医疗研究。
99+
18100# 2025-08-16
19101
20102### 了解 Web3 数据分析和职业发展机会
0 commit comments