加工
加工(データ処理)とは?
加工(データ処理)とは、プロジェクトにおいて、データを目的のフォーマットに変換し、分析の準備をする段階を指します。データ処理には、新しく収集されたデータを、標準化された手順に従ってフォーマット変換し、品質チェック、前処理を行うワークフローが含まれます。データ処理の主な目的は以下の通りです。
- データを読み取り可能なフォーマットに変換し、下流の分析に必要な体裁にする。
- 対象外のデータを破棄し、信頼性の高い結果を得るためのクリーンで高品質なデータセットを作成する。
既存のデータを利用する場合、分析に適したデータにするためには、手動で作業する場合があります。これには以下のようなものが含まれます。
国立情報学研究所オープンサイエンス基盤研究センター. “Research Data Management Kit-jp“. 2022.
- 異なるデータセットが統合できるように、データフォーマットを変更する。
- データの書き方やメタデータを登録するための語彙を共通化させる。
- プロジェクトに関係するデータのみを抽出する。
詳細については「加工|RDMkit-jp」をご覧ください。
加工フェーズで想定される研究者のタスク(外部リンク)
加工フェーズにおける参考情報
Amnesia Anonymization Tool
研究データから識別情報を削除する無料の匿名化ツールです。