今回は、Excelを用いたデータクレンジングの実践テクニックについて紹介します。
データクレンジング(データの正規化・前処理)とは、表記揺れや誤入力、不要な空白などが含まれた乱雑なデータを、分析や集計に適したきれいな状態に整える作業のことです。
企業には日々大量のデータが蓄積されますが、そのままでは正しい分析ができず、業務システムへの取り込み時にエラーが発生する原因にもなります。
Excelの機能や関数を実践的に活用して、効率よくデータを整えるためのアプローチを解説していきます。
データクレンジングが重要視される理由
システムからエクスポートしたデータや、複数人が手入力で作成したリストには、多くの場合「汚れ」が含まれています。
例えば、株式会社と(株)の混在、全角と半角のばらつき、余分なスペースの混入などです。
そのまま集計することのリスク
これらを放置したままピボットテーブルなどで集計すると、本来は同じ企業であるはずのデータが別々の項目としてカウントされてしまい、正確な売上分析や顧客管理ができなくなります。
また、VLOOKUP関数やXLOOKUP関数でデータを検索する際にも、文字列が完全に一致しないため、エラーが頻発する原因になります。
データクレンジングを適切に行うことで、分析の精度が向上し、後続の業務プロセスをスムーズに進めることが可能になります。
不要な空白(スペース)を削除する実践テクニック
データ入力時に無意識に入ってしまったスペースは、見た目では気付きにくいため、エラーの温床になりやすい要素です。
TRIM関数で見えない空白を除去する
文字列の先頭や末尾にある不要なスペース、または文字同士の間にある余分な複数のスペースを削除するには、TRIM関数が役立ちます。
例えば、=TRIM(A2)と入力するだけで、文字列の両端の空白が消え、単語間のスペースは1つだけ残るようにきれいに整えられます。
全角スペースも半角スペースも同様に処理されるため、他のシステムから取り込んだデータを扱う際の下準備として、最初に行うべき基本のテクニックといえます。
置換機能で特定の空白を完全に消す
文字の間にあるスペースも含めて、すべての空白を完全に削除したい場合は、Excelの検索と置換機能を使用します。
Ctrl + Hキーで置換ダイアログを開き、検索する文字列にスペースを入力し、置換後の文字列を空欄のまま「すべて置換」を実行します。
これにより、データ内のスペースが一掃され、製品型番や電話番号などの文字列を統一する際に有効です。
全角と半角の混在を統一するアプローチ
英数字やカタカナの全角・半角が混在していると、見た目が不格好なだけでなく、システム間でのデータ連携時に文字化けや取り込みエラーを引き起こすことがあります。
JIS関数とASC関数の活用
Excelには、全角と半角を相互に変換するための専用の関数が用意されています。
- ASC関数:全角の英数カナ文字を、半角文字に変換します。(例:
=ASC(A2)) - JIS関数:半角の英数カナ文字を、全角文字に変換します。(例:
=JIS(A2))
例えば、住所録の番地や電話番号を半角に統一したい場合はASC関数を、氏名のフリガナを全角カタカナに統一したい場合はJIS関数を使用します。
データ全体のフォーマットを統一できるため、手作業で修正する手間を省き、入力ルールを標準化するのに役立ちます。
表記揺れを修正し、データを標準化する
企業名や商品名などの表記揺れは、データクレンジングにおいて最も厄介な問題の一つです。
「株式会社」と「(株)」、「引越」と「引っ越し」など、同じ意味でも入力者によって表記が異なるケースが多々あります。
置換リストを作成して一括処理
特定のパターンの表記揺れが多数存在する場合、一つひとつ手作業で直すのは現実的ではありません。
このようなときは、別シートに「誤った表記」と「正しい表記」の対応リストを作成し、VLOOKUP関数やXLOOKUP関数を組み合わせて、正しい表記に一括で置き換える仕組みを作ると効率的です。
また、Excelの置換機能を複数回実行して、「(株)」を「株式会社」に統一するなどのルールを適用していくのも実践的な方法です。
Power Queryを活用した自動化
より高度で継続的なデータクレンジングを行う場合は、Excelに標準搭載されているPower
Query(パワークエリ)機能の活用をおすすめします。
Power Queryを使用すると、不要な列の削除、空白の除去、文字の置換といった一連のクレンジング手順を「クエリ」として記録・保存できます。
次回以降は、新しいデータを取り込んで「更新」ボタンを押すだけで、記録した手順が自動的に適用されるため、毎月発生する定型業務の負担を減らすことができます。
データの分割と結合で扱いやすい形式に整える
1つのセルに複数の情報が詰め込まれているデータは、そのままでは集計や並べ替えに不向きです。
区切り位置指定ウィザードでデータを分割する
例えば、「姓」と「名」が1つのセルに入っている氏名データや、「都道府県」と「市区町村」が繋がっている住所データなどは、セルを分割することで活用しやすくなります。
データタブにある区切り位置機能を使うと、スペースやカンマなどの特定の文字を基準にしたり、指定した文字数で区切ったりして、データを複数の列に分割できます。
これにより、姓だけで五十音順に並べ替えたり、特定の都道府県のデータだけを抽出したりすることが容易になります。
フラッシュフィルで法則性を読み取らせる
Excel 2013以降に搭載されたフラッシュフィル機能も、データの分割や抽出に大いに役立ちます。
隣の列に、抽出したい理想のデータ(例えば、メールアドレスからドメイン部分だけを取り出した文字列など)を1つか2つ手入力し、Ctrl
+ Eキーを押します。
すると、Excelが入力の法則性を自動的にAI的に学習し、下の行にも同じパターンのデータを自動入力してくれます。
複雑な関数を組まなくても直感的にデータを抽出できるため、実践的なクレンジング作業において頼りになる機能です。
重複データの確認と削除による精度向上
顧客リストや商品マスターなどに同じデータが重複して登録されていると、DMの二重送付によるクレームや、在庫数の計算ミスなど、深刻なトラブルにつながる可能性があります。
条件付き書式で重複を可視化する
いきなり重複データを削除するのに抵抗がある場合は、まず条件付き書式を使って重複している箇所を視覚的にハイライトするのが安全なアプローチです。
対象の列を選択し、ホームタブの条件付き書式からセルの強調表示ルール、そして重複する値を選択します。
重複しているデータに色がつくため、目視で内容を確認しながら、本当に削除してよいデータかどうかを慎重に判断することができます。
重複の削除機能でリストをクリーンアップ
不要な重複データであることが確認できたら、データタブの重複の削除機能を使って一括で処理します。
この機能では、特定の列だけを基準に重複を判定するか、複数列の組み合わせで完全に一致する行だけを削除するかを細かく設定できます。
名寄せ作業などの仕上げとして行うことで、データの正確性を担保し、信頼性の高いデータベースを構築することができます。
まとめ
Excelを使ったデータクレンジングは、関数や機能をうまく組み合わせることで、手作業の負担を減らしながら正確なデータを構築できる実践的なスキルです。
TRIM関数やASC関数による基本の文字列整形から、フラッシュフィルやPower
Queryを活用した高度な自動化まで、状況に合わせて最適な手法を選択することが重要になります。
データがきれいになれば、その後の分析や集計の精度が向上するだけでなく、業務全体のスピードアップにも繋がります。
日々の業務で扱うデータに「汚れ」を感じた際は、これらのクレンジングテクニックを実践し、価値のあるデータへと磨き上げてみてください。