生成AIで実現するデータ分析の民主化

Shinnosuke Yamamoto

読み終わるまで5分

現代のビジネス環境においてデータ分析は欠かせないものとなっています。しかし、データ分析によってデータから新たな示唆を導き、そこから価値を生み出していくには、データに対する理解や分析のためのスキルが必要不可欠です。
本コラムでは、生成AIを活用し、ビジネスサイドを含む誰もがデータから価値を引き出すことができる手法についてご紹介します。

生成AI データ活用データ連携

インサイトの発掘の在り方は二極化

データ分析の最終的な目的はビジネス価値の向上にあります。ビジネス価値の向上とは、例えば売上増加やコスト削減、顧客満足度や従業員満足度の向上、リスク管理の強化など様々に考えられます。それでは、データからビジネス価値の向上につなげていくには何が必要でしょうか。データから導かれる新たな発見、つまりインサイトです。データからインサイトを発掘することにより、これまでとは異なる新たなアクションを取ることができます。

昨今、インサイトの発掘の主体者は二分化しています。一つは、データアナリストです。これは2010年代にビッグデータという言葉が流行り出してから今に続く傾向であり、従来型のデータ分析の在り方であるとも言えます。高度な専門知識を持つデータアナリストは、経営層や業務部門の要望に基づいてデータを収集・加工・分析することでインサイトを発掘し、発掘されたインサイトを経営層や業務部門に提供します。

一方で新たな主体者として、データアナリストではなく、インサイトの利用者にあたる経営層や業務部門といったいわゆるユーザー側が登場するようになりました。DXやデータドリブン経営といったワードを皮切りにデータ分析に対する要望が増加すると、データアナリストの業務負荷が高まり、ユーザーが求めるスピード感に追従することが難しくなります。経営層や業務部門はすぐにインサイトが欲しいのに、インサイトが出てくるまでに2週間、1か月待ってもらうといった事態が起こります。ここで「データの民主化」に向けた動きが始まります。この動きは、民主化とあるように、IT層/非IT層を問わず誰もがデータにアクセスして分析できるようにします。

▼ベクトルデータベースについてもっと詳しく知りたい
⇒ ベクトルデータベース（Vector database）｜用語集

TOPへ

データの民主化を阻むハードル

データの民主化を実現するためには、まず誰もが簡単に利用できるデータプラットフォームが必要です。これには、様々なデータを溜める場所である「データレイク」や、データの情報を整理する「データカタログ」、データをグラフ等で表現する「BI（ビジネスインテリジェンス）」ツールなどが含まれます。

しかし、これらのデータプラットフォームを整備してユーザーに提供しても、特に非IT層にあたる現場のユーザー（例えば営業担当者や人事担当者など）がそれを十分に活用するにはいくつかのハードルがあります。ツールの使い方を覚えるだけでなく、どのようにデータを分析し解釈すれば良いのかを理解するスキルも必要です。昨今様々なノーコードツールが登場しており、比較的使いやすくなってきてはいるものの、一人で様々なツールを使いこなしていくには心理的にも技術的にもハードルがあります。これらのツールやサービスの利用ハードルをクリアすることが、組織レベルでのデータの民主化における大きな課題となっています。

TOPへ

生成AIによるデータ分析

このハードルを取り払う一つの鍵となるのが生成AIです。生成AIは、自然言語、すなわち人間の言葉を解釈し、テキストや画像といったコンテンツを生成することができます。この生成能力をデータ分析のプロセスに投影することにより、誰もが言葉でデータからインサイトを得られるというデータの民主化を実現することができると考えています。

それでは、どのようにして生成AIでデータ分析を実現していくのでしょうか。まずはデータ分析をプロセスごとに分解して考えることが重要です。一例として、以下のようにプロセスを分解することができます。

①検索：見たいデータがどこにあるのか調べる
②抽出：見たいデータを必要な分だけ取り出す
③予測：過去のデータから未来の傾向を予測する
④可視化：過去と未来の動向を視覚的に理解する
⑤洞察：未来を見据えて今後の施策を洞察する

①検索：生成AIでテキストをベクトルに変換してベクトル検索する

プロンプト例：残業時間に関するデータはどれか？
アウトプット例：勤怠システムの「勤怠日報」の「超過時間」です。

②抽出：データベースからの抽出に必要なSQLを生成する

プロンプト例：残業時間を算出するSQLを書いて。
アウトプット例：SELECT “社員名”, “超過時間” FROM “勤怠日報” WHERE…

③予測：データをもとに予測するためのコードを生成して実行する

プロンプト例：1年分のデータを元に今月分の残業時間を予測して。
アウトプット例：予測の結果、山田さんは24時間、田中さんは13時間です。

④可視化：データをもとにグラフを画像データとして生成する

プロンプト例：残業の実績と予測結果をグラフで表示して。
アウトプット例：（社員別の労働時間の推移を折れ線グラフで画像化）

⑤洞察：データをもとにどのような傾向や仮説が考えられるか言語化する

プロンプト例：データから分かる傾向や仮説を教えて。
アウトプット例：製造1部で平均40時間超の残業が常態化しており、その原因として…

まず検索プロセスでは、ベクトル検索によって人間の言葉である自然言語のままどのデータが最も利用データとして相応しいかを判断することができます。言葉は人によって微妙に表現やニュアンスが異なったり表記揺れが起こるものですが、ベクトル検索は意味検索と呼ばれるように数値的に近しい意味合いを持つものを検索する仕組みですので、こうした人による揺らぎを補完することができます。生成AIにはEmbeddingsモデルという言葉をベクトル表現に変換するモデルがあります。

次いで抽出プロセスでは、データベースからデータを取得するために必要なSQLを生成しています。データプラットフォームのよくある例として、データウェアハウスにデータを蓄積する場合があります。データウェアハウスに蓄積する場合、データを取得するためにはデータウェアハウスに対してSQL文を書いてクエリする必要があります。しかしSQLは非IT層にとっては手軽に書くことのできるものではありません。特に細かい条件や計算式がある場合にはなおさら困難です。生成AIは言葉での指示により柔軟に複雑なSQL文を記述することができます。

予測プロセスと可視化プロセスでは、生成AIがコードを記述して、データに対してそのコードを実行するということをしています。予測プロセスであれば、過去のデータから未来どうなるかを予測する推定値を算出します。可視化プロセスであればデータをもとにどのようなグラフ表現が適切かを判断し、棒グラフや折れ線グラフ、円グラフといった様々なグラフ表現で画像を生成することができます。

洞察プロセスでは、冒頭の主題であったインサイトの生成を行います。抽出したデータにどのような傾向があるのか、どのような仮説が考えられるのか、どのようなネクストアクションを取るべきなのかを言語化します。従来のこのプロセスは人間がデータを見て、業務知識や経験に基づいて仮説を考えてアクションを決定していました。しかしながら、このような洞察と意思決定は知識と経験が求められ誰にでも簡単に行うことができるものではありません。生成AIによるデータの解釈と言語化は、こうしたスキルの壁を補完します。

▼生成AIについてもっと詳しく知りたい
⇒ 生成AI（Generative AI）｜用語集

▼ベクトルについてもっと詳しく知りたい
⇒ ベクトル化 / エンベディング（Embedding）｜用語集｜用語集

TOPへ

インサイトを支えるデータパイプライン

生成AIを使うことで誰もがデータを言葉で分析してインサイトを得られる姿をイメージしていただけましたでしょうか。これまで人の知識や経験に依存してきたデータ分析に関わる様々なスキルを生成AIの生成能力が補完することにより、データ活用のハードルは抑えられ、現場でのデータ活用のスピードが促進されることが期待されます。

最後に、この生成AIによるデータ分析を実現するうえでの重要な要素をご紹介します。その要素とは、あらゆるシステムと生成AIをつなぐ「データパイプライン」です。生成AIさえあればデータ分析が実現できるのかと言うと、実際には様々な課題が発生します。データ分析における各プロセスでは、様々な生成AIモデルやシステム（ベクトル検索の仕組みや、データが蓄積されているデータベースなど）が登場します。生成AIモデルやシステムへの接続をどのように行うのか、各プロセスの実行順序をどのように制御するのかを考える必要があります。

先に紹介した生成AIによるデータ分析では、生成AIモデルや各システムが適切に協調することによって一連の処理を実現しています。データパイプラインは、それぞれの仕組みに接続して適切に指示とデータを受け渡し、プロセス間でのデータのやり取りを通じて適切なタスクの実行順序を制御するというオーケストレーター（指揮者）としての役割を担います。

セゾンテクノロジーが提供するiPaaS「HULFT Square」は、まさにこのデータパイプラインの役割を担うことができます。多様なコネクターにより様々な社内外のシステムにアクセスし、多様な生成AIモデルに接続して、必要に応じたデータの連携・データ加工を行い、データ分析における各プロセスをオーケストレーションすることが可能です。

iPaaS型データ連携基盤 HULFT Square（ハルフトスクエア）

HULFT Squareは、「データ活用するためのデータ準備」や「業務システムをつなぐデータ連携」を支援する日本発のiPaaS（クラウド型データ連携プラットフォーム）です。各種クラウドサービス、オンプレミスなど、多種多様なシステム間のスムーズなデータ連携を実現します。

TOPへ

さいごに

いかがでしたでしょうか。今回は、データの民主化を推進するうえでの生成AIを活用したデータ分析の手法をご紹介しました。生成AIとデータパイプラインの活用によって、IT層/非IT層問わず誰もがデータからインサイトを引き出して、データに基づいた意思決定をしていくことができるようになります。

セゾンテクノロジーでは、このような生成AIによるデータ活用やデータプラットフォームの整備について、これまで数々の企業様で開発・構築のご支援してまいりました。業務現場でのデータによるビジネスの意思決定の推進や、生成AIでのクイックな課題・インサイトの発掘に関心があれば、ぜひセゾンテクノロジーまでご相談ください。

TOPへ

記事を書いた人

所属：データインテグレーションコンサルティング部 Data & AI エバンジェリスト

山本進之介

入社後、データエンジニアとして大手製造業のお客様を中心にデータ基盤の設計・開発に従事。その後、データ連携の標準化や生成AI環境の導入に関する事業企画に携わる。2023年4月からはプリセールスとして、データ基盤に関わる提案およびサービス企画を行いながら、セミナーでの講演など、「データ×生成AI」領域のエバンジェリストとして活動。趣味は離島旅行と露天風呂巡り。
（所属は掲載時のものです）

生成AIで実現するデータ分析の民主化

インサイトの発掘の在り方は二極化

データの民主化を阻むハードル

生成AIによるデータ分析

インサイトを支えるデータパイプライン

さいごに

おすすめコンテンツ

生成AI時代のデータ活用基盤のあり方とは？

データ活用を支えるデータ基盤の重要性│データパイプライン選定の9つの基準

データ分析とは？初心者向けに基本から活用法までわかりやすく解説

記事を書いた人

山本進之介

関連コンテンツ

データ分析はBIからAIの時代へ―データの民主化を加速する3つの理由

生成AIで商品マスターを自動分類：分析に「新たな視点」を与える方法

社内に眠る「暗黙知」を「AIのナレッジ」に変えて活用するには？

インサイトの発掘の在り方は二極化

データの民主化を阻むハードル

生成AIによるデータ分析

インサイトを支えるデータパイプライン

さいごに

おすすめコンテンツ

生成AI時代のデータ活用基盤のあり方とは？

データ活用を支えるデータ基盤の重要性│データパイプライン選定の9つの基準

データ分析とは？初心者向けに基本から活用法までわかりやすく解説

記事を書いた人

山本 進之介

関連コンテンツ

データ分析はBIからAIの時代へ―データの民主化を加速する3つの理由

生成AIで商品マスターを自動分類：分析に「新たな視点」を与える方法

社内に眠る「暗黙知」を「AIのナレッジ」に変えて活用するには？

山本進之介