DataMagic 技術コラム Vol.12

〈文字列置き換え編〉

はじめに

企業の業務システムにおいては、様々なシステムが個別に作られていることも多く、多種多様なデータが存在します。同じ意味を持つデータであっても異なる表現になると、システム上では全く別のデータと判断されてしまう場合があります。例えば、得意先マスタにて、同一の得意先にも関わらず、得意先名称がマスター上で重複しているケースなどです。「株式会社エービーシー」(仮称)という得意先は、「(株)エービーシー」、「株式会社エー・ビー・シー」、「株式会社ABC」、「エービーシー丸の内支店」などの異なる表現で重複してマスター上に登録されているかもしれません。このように重複したデータは、個々のシステム上には問題なく登録されますが、データの重複が進むと、重要なデータが「使えないデータ」となってしまい、それらを「使えるデータ」に整備し直すことが必要となります。

DataMagicであれば、このような重複したデータのクレンジングを簡単に行うことができるので、法人名だけではなく、電話番号や住所などが異なる表現で重複しているような得意先データを一つのデータに置き換えることが可能です。

本TIPSでは、名前および住所情報に関して、スペースの削除、「1丁目2番地3号」を「1-2-3」へ書式変更、「NULL」などの値の補完を行う例を紹介します。なお、本TIPSを利用するには、DataMagicがコンピュータにインストールされていることが条件となります。DataMagicの入手先やインストール方法などについては、別稿の「DataMagicをインストールする」を参照してください。

操作方法

手順1 - 変換元データを用意する

まずは、変換元データとなるCSVデータを用意します。データが用意出来たら、DataMagicが導入されているPCの下記のフォルダに保存します。
C:\work\SAMPLE12\(“in”というファイル名で保存)

変換元データ 氏名:苗字と名前の間にスペースがあったりなかったりする、住所:「x丁目x番地x号」や「xxx」と表記方法が異なる。また数字が全角と半角両方での記載になっている、マンション名:値がない部分は補間したい

» 変換元データのダウンロード(注:サンプルファイルはzip形式となります。解凍してからご利用ください。)

手順2 - DataMagicのスクリプトファイルをダウンロードし設定する

下記のスクリプトファイルをダウンロードして、DataMagicがインストールされているフォルダに保存します。
C:\work\SAMPLE12\(“sample12.igen”というファイル名で保存)

DataMagic の管理画面を起動し、ダウンロードしたスクリプトファイルをDataMagicに取り込みます。取り込みはスタート画面の[ツール]にある[管理情報インポート]アイコンをクリックします。管理情報インポート画面においてダウンロードしたファイルを指定し、インポートボタンをクリックします。すると、データ加工情報一覧画面にSAMPLE12というIDが登録されます。

» スクリプトファイルのダウンロード (注:サンプルファイルはzip形式となります。解凍してからご利用ください。)

手順3 - DataMagicを実行する

手順2において登録したSAMPLE12というデータ加工情報IDをダブルクリックし、入力設定および出力設定のファイル名が正しく設定されていることを確認します。画面から、SAMPLE12のデータ加工情報IDを開き、画面上部にある「実行」ボタンから行います。

手順4 - 実行結果を確認する

手順3において実行が完了すると、出力設定において指定されたC:\work\SAMPLE12\に“out”というファイルが出来ているのでメモ帳等のエディタで確認して下さい。

実行結果データ 氏名:苗字ち名前の間のスペース削除、住所「x-x-x」に統一・数字は半角に統一、マンション名:値がない部分は「NULL」文字列を設定

最後に

今回は「スペース削除」、「丁目・番地・号」を「X-X-X」、「値の補完」という例でご紹介しましたが、利用したREPLACE_REGという関数は、その置き換え文字の検索に正規表現を利用できます。そのため、非常に細かな置換条件を設定できるため、多種多様な文字列の検索及び置換の実現を可能とします。ぜひ、DataMagic評価版をダウンロードして、技術コラムの解説をお試しください。

  • 評価版は無償で60日間ご利用いただけます。
  • 評価版のお申し込み後、90日間の技術サポートを無償でご利用いただけます。

DataMagic コラム一覧

関連コンテンツ

コラム一覧に戻る