統計調査士 のデータチェック
と
内容が
統計実務基礎知識の 記載まとめ
以下、
データチェックとは
- 電子計算機を
利用して 集計する 場合、 調査票に 基づく 個別データが 磁気テープに 記録される。 - 磁気テープに
記録された 段階では 誤りが 完全に 除去されていないため、 電子計算機に よる 最終的な 審査を 行う 必要が ある。 - この最終的な
審査を データチェックと いう。 データチェックの
2つの 機能 データチェックには
大きく 以下 2 つの 機能が ある。 * 誤りを 検出する 機能
* 訂正(補完)する機能 チェック・リスト審査
データチェックで
検出された 疑義の ある データを すべて 電子計算機で 機械的に 処理するのは 難しい。
この場合、 電子計算機から 疑義の ある データを リスト(チェック・リスト)と して 打ち出す。
このリスト(チェック・リスト)に 基づき、 再度、 調査票に 戻って 審査し、 訂正する 作業を 「チェック・リスト審査」と いう。 チェック・リスト審査 の
構成 以下、
3構成を とる
1. 誤りの検出
* データチェック要領の作成
2. チェック・リストのプリント * チェック・リスト様式の 作成
3. 訂正 (作業)
* チェック・リスト審査要領の作成 データチェック要領
- フォーマット
「チェックの 種類」、 「チェック項目」、 「誤りの 指摘」 及び 「誤りの 処置」の 4点が 記載された 表形式の ドキュメント。
システム開発的には、
- プログラムの
テスト
擬似データによる テスト、 実際の データを 使った 「ファイナルテスト」を 経て 完成される。
システム開発的には
チェックの
種類
この項目が
オフコード・チェック (個別審査)
調査項目に定められた 規定コード (符号又は マーク)以外の ものを 除去する。 クロスチェック(関連審査)
各調査事項間の関連性に 着目し、 その 記入内容の 矛盾や 不合理を 除去する。 シーケンス・チェック
番号の昇順又は 降順、 欠番の チェック。 レンジ・チェック
上限、下限の チェック。
訂正の
方法
誤りを
Pandas の--fix
オプションを
- ダンプして
審査する。
疑義のある データを プリントし、 これに 基づいて 調査票に 戻って 再審査する。 - 一定の
符号を 代入する。 - 頻度の
高い ものを 代入する。 - 特定の
符号を 交互に 与える。 - 確率比例配分する。
- 便宜的に
符号を 与えて、 後で 正しい 符号に 訂正する。 - 集計から
除外する。
最も適切な 処置は、 ダンプして<wbr>審査する。<wbr>
参考
Web 担当者 Forum の
リサーチの 記事一覧
リサーチ/データのリテラシー入門——調査統計の 基礎知識 コーナーの 記事一覧 | Web担当者Forum データチェックの
重要性
調査方法に潜む罠と チェックの 重要性――調査・リサーチ・統計の 基礎その4 | リサーチ/データの リテラシー入門——調査統計の 基礎知識 | Web担当者Forum 調査票の
誤り 混入を 防ぐための チェック項目
調査票チェック項目 - NTTコム リサーチファイナル・テスト
ファイナル・テストとは- コトバンク Pandas の
欠損値補完
Python pandas 欠損値/外れ値/離散化の 処理 - StatsFragments
以上です。
2018年11月の
試験を 受験予定です。 ↩
コメント