今回は、Excelで膨大なリストから不要な重複データを素早く見つけて削除する方法を紹介します。
重複データがもたらす問題点と整理の必要性
日々の業務で蓄積された顧客名簿や商品リスト、アンケート結果など、Excelで扱うデータ量が増えると、同じ内容のデータが複数混入してしまうことが少なくありません。たとえば、別のシステムからインポートした際に同一の顧客情報が二重に登録されていたり、複数の担当者が別々のファイルに入力したデータを結合した際に重複が発生したりといったケースです。
このような重複データが残ったまま集計や分析を進めると、数値の信頼性が損なわれるだけでなく、ダイレクトメールの二重送信などのトラブルを招くおそれがあります。そのため、正確なデータに基づいて作業を進めるためには、重複を確実に見つけ出し、不要な行を整理するプロセスが欠かせません。手作業で目視しながら削除していくのは現実的ではないため、Excelに備わっている便利な機能を使って効率よく処理する手順を知っておくことが大切です。
重複をチェックする前の準備と注意
データ整理を始める前に、必ず元のデータをバックアップとして別シートや別ファイルにコピーしておくことをおすすめします。一度削除してしまったデータは、上書き保存してしまうと元に戻せなくなるため、万が一必要なデータまで消してしまった場合に備えるための保険となります。
また、データ内に空白行や空白セルが含まれていると、重複の判定が正しく行われないことがあります。事前にデータの範囲を選択し、空白行がないか確認して整えておくと、より正確な処理が可能になります。
条件付き書式で重複データを目立たせる方法
いきなりデータを削除するのではなく、まずはどこに重複があるのかを視覚的に確認したい場合に役立つのが、「条件付き書式」機能です。この機能を使えば、重複しているセルの背景色や文字色を自動的に変更し、ひと目で把握できるようになります。
重複する値に色を付ける手順
特定の列(たとえば顧客IDやメールアドレスなど、一意であるべき項目)の中で、重複しているデータを見つける手順は以下の通りです。
- 重複をチェックしたい列(例:A列)のセル範囲を選択します。
- 「ホーム」タブにある「スタイル」グループの中から「条件付き書式」をクリックします。
- 表示されたメニューから「セルの強調表示ルール」を選び、さらに「重複する値」をクリックします。
- 「重複する値」ダイアログボックスが表示されるので、左側のプルダウンが「重複」になっていることを確認します。
- 右側のプルダウンで、重複データに適用したい書式(「濃い赤の文字、明るい赤の背景」など)を選び、「OK」をクリックします。
これで、選択した範囲内で複数回出現する値を含むセルに色が付きます。色が塗られた箇所を目安に、データの入力ミスや登録状況を確認することができます。この方法はデータの削除を行わないため、安全に現状把握を行いたい場合に最適です。
「重複の削除」機能で一括整理する手順
目視での確認が終わった後、あるいは最初から重複データを一掃したい場合は、「データ」タブにある「重複の削除」機能を使用します。この機能を使うと、指定した列の条件に合致する重複行を探し出し、2件目以降のデータを自動的に削除して1件だけを残すことができます。
単一の列を基準にして削除する
たとえば、「社員番号」という列を基準にして、同じ社員番号が複数回登場する場合、2行目以降の不要なデータ行全体を削除したい場合の手順です。
- データが入力されている表の中の任意のセルを1つクリックします。
- 「データ」タブの「データツール」グループにある「重複の削除」ボタンをクリックします。
- 「重複の削除」ダイアログボックスが表示され、自動的に表全体が選択範囲として認識されます。
- ダイアログボックス内の「列」の一覧で、基準としたい「社員番号」の列のみにチェックを入れ、他の列のチェックを外します。
- 「OK」ボタンをクリックすると、重複行が削除され、何件の重複データが見つかり削除されたか、一意の値が何件残ったかを示すメッセージが表示されます。
複数の列の組み合わせで重複を判定する
氏名だけでは同姓同名の別人が重複とみなされてしまう可能性がある場合など、複数の項目の組み合わせが完全に一致したときのみ重複と判定したいケースもあります。たとえば、「氏名」と「電話番号」の両方が同じ場合にのみ削除する手順です。
- 先ほどと同様に表内のセルを選択し、「重複の削除」ボタンをクリックします。
- 「列」の一覧で、「氏名」と「電話番号」の両方の列にチェックを入れます。
- 「OK」ボタンをクリックします。
このように複数の条件を組み合わせることで、より精度の高いデータクレンジングが可能になり、必要なデータまで誤って消してしまうリスクを減らすことができます。
関数を活用してユニークなデータリストを抽出する
元のリストには手を加えず、重複のない新しいリストを別の場所に作成したい場合には、「UNIQUE関数」を使うと便利です(※UNIQUE関数はExcel
2021以降、またはMicrosoft 365で利用可能です)。
UNIQUE関数の基本的な使い方
UNIQUE関数は、指定した範囲から重複を除いた一意の値(ユニークな値)だけを取り出して、別のセル範囲に自動的に展開(スピル)してくれる関数です。
=UNIQUE(範囲)
たとえば、A2からA100までの範囲に顧客名が入力されており、C2セルに重複のない顧客名リストを作成したい場合は、C2セルに以下のように入力します。
=UNIQUE(A2:A100)
これだけで、C列に重複のない顧客名のリストが即座に生成されます。元のデータ(A列)に変更が加わると、UNIQUE関数の結果もリアルタイムで更新されるため、常に最新のユニークリストを維持したい場合に非常に有効な手段です。
まとめ
Excelで重複データを処理する方法には、状況に応じて使い分けることができる複数のアプローチが用意されています。
まずは「条件付き書式」を使って、どこに重複があるのかを視覚的に確認し、データの状態を把握することが重要です。その上で、不要なデータを一括で消去したい場合は「重複の削除」機能を活用し、基準となる列を正しく選択することで効率よく名簿やリストを整理できます。また、元のデータを残しつつ新しいリストを作成したい場合は、UNIQUE関数を用いることで柔軟に対応可能です。
データの重複は集計ミスの原因となるため、定期的にこれらの機能を使ってデータをクリーンな状態に保つ習慣をつけることが、正確な業務遂行につながるヒントとなります。