Skip to content

Latest commit

 

History

History
248 lines (168 loc) · 20.1 KB

File metadata and controls

248 lines (168 loc) · 20.1 KB

Awesome Data Quality Awesome

データ品質に関する様々なデータタイプにわたる素晴らしいリソース、ツール、論文、プロジェクトの厳選リスト。このリポジトリは、異なる領域でデータ品質に取り組む研究者や実務者のための包括的なリファレンスを目指しています。

目次

はじめに

データ品質は、あらゆるデータ駆動型アプリケーションや研究の重要な側面です。このリポジトリは、従来データ、大規模言語モデルデータ(事前訓練とファインチューニングの両方)、マルチモーダルデータなど、異なるデータタイプにわたるデータ品質に関するリソースを収集しています。

従来データ

このセクションは、従来の構造化・非構造化データのデータ品質をカバーします。

論文

ツール・プロジェクト

  • Great Expectations - データの検証、文書化、プロファイリングのためのPythonフレームワーク。(2018)
  • Deequ - Apache Spark上に構築された「データのユニットテスト」を定義するためのライブラリ。(2018)
  • OpenRefine - 乱雑なデータを扱い、クリーニングし、変換するための強力なツール。(2010)
  • Pandas Profiling - pandas DataFrameからプロファイルレポートを生成。(2016)
  • DataProfiler - 自動データプロファイリングのためのPythonライブラリ。(2021)
  • PyDeequ - Deequ のPython API、「データのユニットテスト」を可能に。(2020)
  • Evidently - データドリフト検出のためのオープンソースML監視フレームワーク。(2021)
  • TensorFlow Data Validation (TFDV) - 大規模でMLデータを探索・検証するライブラリ。(2018)
  • Deepchecks - MLモデルとデータを検証するPythonパッケージ。(2021)

データ準備度評価

このサブセクションは、AIアプリケーションのデータ準備度を評価する方法とツールをカバーします。

論文

ツール・プロジェクト

大規模言語モデルデータ

事前訓練データ

このセクションは、大規模言語モデル事前訓練データのデータ品質をカバーします。

論文

ツール・プロジェクト

  • Dolma - 大規模言語モデル事前訓練データのキュレーションと文書化のためのフレームワーク。(2023)
  • Text Data Cleaner - 言語モデル事前訓練用テキストデータクリーニングツール。(2022)
  • CCNet - CommonCrawlデータのダウンロードとフィルタリングツール。(2020)
  • Dingo - 複数のデータソース、タイプ、モダリティをサポートする包括的データ品質評価ツール。(2024)

ファインチューニングデータ

このセクションは、大規模言語モデルファインチューニングデータのデータ品質をカバーします。

論文

ツール・プロジェクト

LLMデータ管理

このセクションは、データ処理、ストレージ、サービングを含むLLMの包括的データ管理アプローチをカバーします。

論文

ツール・プロジェクト

  • awesome-data-llm - 「LLM × データ」調査論文の公式リポジトリ、キュレートリソース付き。(2025)
  • CommonCrawl - 多様な言語とドメインをカバーする大規模ウェブクロールデータセット。(2008)
  • RedPajama - LLaMA訓練データセットのオープンソース再現。(2023)
  • FineWeb - 言語モデル訓練のための大規模高品質ウェブデータセット。(2024)

認知工学・テスト時スケーリング

このセクションは、強化された推論と思考プロセスを通じてデータ品質を改善する認知工学とテスト時スケーリング手法に焦点を当てます。

サーベイ

データエンジニアリング2.0

  • O1ジャーニー--パート1 - 長い思考連鎖を持つ数学推論データセット。(2024)
  • Marco-o1 - Qwen2-7B-Instructから合成された推論データセット。(2024)
  • STILL-2 - 数学、コード、科学、パズル領域の長形式思考データ。(2024)
  • OpenThoughts-114k - DeepSeek R1から抽出された大規模推論軌跡データセット。(2024)

訓練データ品質

マルチモーダルデータ

このセクションは、画像-テキストペア、ビデオ、オーディオを含むマルチモーダルデータのデータ品質をカバーします。

論文

ツール・プロジェクト

  • CLIP-Benchmark - CLIPモデル評価ベンチマーク。(2021)
  • img2dataset - 画像-テキストデータセットの効率的ダウンロード・処理ツール。(2021)

表形式データ

このセクションは、表形式データのデータ品質をカバーします。

論文

ツール・プロジェクト

  • Pandas Profiling - pandas DataFrameからプロファイルレポートを生成するツール。(2016)
  • DataProfiler - データプロファイリングとデータ品質検証のためのPythonライブラリ。(2021)

時系列データ

このセクションは、時系列データのデータ品質をカバーします。

論文

ツール・プロジェクト

  • Darts - 時系列予測と異常検出のためのPythonライブラリ。(2020)
  • tslearn - 時系列データ専用機械学習ツールキット。(2017)

グラフデータ

このセクションは、グラフデータのデータ品質をカバーします。

論文

ツール・プロジェクト

  • DGL - グラフ深層学習のためのPythonパッケージ。(2018)
  • NetworkX - 複雑ネットワークの作成、操作、研究のためのPythonパッケージ。(2008)

データ中心AI

このセクションは、データ中心AIパラダイムに従って機械学習モデルのデータ品質管理に焦点を当てます。データ評価、データ選択、MLパイプラインにおけるデータ品質評価ベンチマークに関連する論文とリソースを含みます。

サーベイ

データ評価

データ選択

ベンチマーク

貢献ガイド

貢献を歓迎します!まず貢献ガイドをお読みください。