Rで行うハッシュ化【実行コード付き】
【記事作成者】 酒井 裕麻 (株式会社Bistro 代表取締役社長)
個人情報を含むデータの取り扱い時の注意点
社外にCRMデータ(顧客情報)や決済ログなどを送信する際、データの中に顧客の個人情報がそのまま含まれていると、個人情報保護法違反にあたる可能性があります。
(※参考 : 個人情報保護法等のガイドライン)
そのため、外部にデータを送信する前に、外部の人が個人を特定できないように暗号化処理を行う必要があります。
この暗号化処理のことを一般的に「ハッシュ化(HASH化)」と呼びます。
(※参考 : ハッシュ化 – Microsoft Help)
ハッシュ化とは
ハッシュ化を行うことで、例えばメールアドレスのような個人情報を一意性を保ったまま匿名化できます。
これにより、外部の分析環境でも「同一人物」を識別しながらも、実際の個人を特定することはできません。
つまり、安全性を確保しつつ、個人単位での集計や分析が可能になります。
(※参考 : 一意性とは)
代表的なハッシュ化方式「SHA-256」
ハッシュ化には「a → u9dw」のように文字列を変換する変換ロジックがあり、さまざまな方式が存在します。
その中でも、最も広く利用されている標準的な方式が「SHA-256」です。
(※参考 : SHA-256 – Wikipedia)
本記事の内容
この記事では、R言語を用いて手元のCSVファイルに含まれる個人情報をSHA-256でハッシュ化する方法を、実際のコード付きで紹介します。
ハッシュ化処理を活用し、安全かつ個人情報に配慮したデータの受け渡しを実現しましょう。

参考記事
RとR Studioのインストール方法 【誰でもできる画像解説付き】
R studioでCSVを読み込む方法【初心者向けガイド – 実行コード付き】


