生成AIは数字が苦手?アンケート分析で見えた実態と現場で使える対策
- TADA Masayuki
- 6月9日
- 読了時間: 7分
※ご注意※
この検証は2025年6月時点での結果です。各生成AIサービスは頻繁にアップデートされているため、最新の性能は異なる可能性があります。
またあくまで個人的な所見+所感ですので、参考事例としてご覧ください。
こんにちは、合同会社多田EC支援事務所の多田優之です。
「生成AIでアンケート分析ができる」「売上データもグラフ化してくれる」そんな話を聞いて試してみたところ、驚きの結果が待っていました。100人分のアンケートが「75人」や「300人」と表示され、地域別の回答者数もバラバラ。これでは分析結果を信用できません。

※Soraで制作
しかし詳しく検証した結果、使い方次第で大幅に改善することが判明。特にAIエージェント型のツールは、想像以上に正確でした。
※AIエージェント:複数のツールや機能を組み合わせて自動的にタスクを実行するAI
「AIは数字に弱い」と諦める前に知っておきたい、8つのAIツールの実力と現場で使える対策をお伝えします。
検証したAIツールと結果概要
今回検証したのは以下8つのAIツールです:
8つのAIツール実力テスト結果
実際に100人分のアンケート集計を各AIツールで処理した結果:
◎ 高精度(AIエージェント型)
ChatGPT(o3) - 比較的安定。Pythonで処理させた場合はほぼ正確
Skywork - 独自の補助エージェントで正確。指示が曖昧でなければ信頼できる
Manus - マルチエージェントによる包括分析で高精度
GenSpark - 初回は多少のミスがあるが対話で修正可能
△ 要注意(LLM単体型)
Claude - 数値の合計に誤差。100人が75人と出力・・・
Gemini - 100人を300人と誤認識したみたい・・・
Perplexity - 表形式の読み込みや集計が不安定・・・
Felo - 同上
※LLM(大規模言語モデル): 大量のテキストから学習した文章生成AI
重要な発見:生成AIは「完璧な電卓」ではない
これを前提に使うことが大切です。

※Soraで制作
なぜ生成AIは数字が苦手なのか?分かりやすく解説
生成AI(ChatGPTやClaudeなど)は人間のように論理的に計算しているわけではありません。過去に学習した大量のテキストをもとに、「次に来る言葉は何か」を予測して文章を作る仕組みです。
3つの根本的な問題
1. 「それっぽい答え」を推測している
数字も実際に計算せず、「こんな答えがありそう」と予測。掛け算や合計、割合の処理でミスが頻発します。
2. 数字の認識方法に問題
「381」という数字が「3」と「81」に分かれて認識されることがあり、正しく1つの数値として捉えるのが苦手です。
3. 文脈に引っ張られる
「9.11」を歴史的事件と結びつけて「9.9より9.11の方が小さい」と間違えるケースも。数字以外の知識が邪魔をします。

※Soraで制作
だからこそ注目される「AIエージェント」
従来のLLMと違い、ChatGPTのPython機能やGenspark、Manusなどは内部で実際の計算処理を行います。これが精度向上の決定的な違いです。

※Gensparkで制作
実際の検証で分かった:プロンプトと前処理で劇的改善
検証結果1:CSVとExcelの前処理が重要
改善前
100人のアンケートが「75人」「300人」と表示
地域別回答者数もバラバラ
アンケート全体の信頼性が疑問に
改善後
・住所データを整理・統一してから送信
・「Pythonを使って数値を正確に認識してください」をプロンプトに追加
・アンケートの前提条件を明示
結果:ほぼ正確な数値が出力されるように

※ダミーデータ(多田/o3作成)
検証結果2:AIエージェント vs LLM単体の差
AIエージェント型(ChatGPT、Skywork、Genspark、Manus)
→ 計算処理が内部で自動化されており、初回から高精度
LLM単体型(Claude、Geminiなど)
→ プロンプト改善で精度向上するが、根本的な限界あり
GenSparkの事例 (AIエージェントでも間違いはある)
初回は計算ミスがあったものの、「計算過程を確認してください」と対話したところ、すぐに正確な値に修正されました。
AIツール別の特徴と使い分け
最新のChatGPTは大幅改善。でも使い方がカギ
ChatGPTには「Advanced Data Analysis」(旧Code Interpreter)という機能があり、これを使えば精度が向上します。
従来の対話だけ(❌)
アンケート100人→「75人の回答傾向は...」
地域別集計もバラバラ
「Pythonで計算して」と指示(⭕)
正確な人数集計
地域別回答者数も正確
グラフ化まで自動対応
改善プロンプト例:
「以下のアンケートデータをPythonを使って正確に分析してください。
・回答者総数の確認
・地域別回答者数の集計
・各質問項目の選択肢別集計
合計が100人になることを必ず確認してください。」
Excel/CSVファイルをアップロードすれば、表の読み間違いはほとんど起きず、売上推移のグラフも自動作成。実質的にAIが「プログラムを書いて計算」するため、ミスの確率がぐっと減ります。
ビジネス特化:GenSpark・Skywork・Manus
GenSparkは自動レポート作成、Skyworkは数学推論強化、Manusは包括的分析が得意。いずれも内部でコード実行するため計算精度が高めです。

※Skyworkで制作
要約専門:Claude
100人分のコメントを一度に読み込める大容量が強み。ただし数値集計は要注意。
使い分けの一例
数値集計 → ChatGPT
コメント要約 → Claude
最終チェック → 人間
Pythonが使えない場合の5つの対策
コード実行機能がないAIでも、工夫次第で精度を上げられます。
1. 手順の細分化
❌「この100人分のデータを分析して」
⭕「まずデータの行数を数えてください。次に男女別の人数を教えてください」など
2. 集計方法の明示
❌「各カテゴリーの人数を教えて」
⭕「カテゴリーA、B、Cそれぞれ何人ずついるか数えて、最後に合計が100人になることを確認してください」など
3. データの番号付け
1. はい
2. いいえ
3. はい
...
各行に番号を振ると、AIが順序を認識しやすくなります。
4. 検算の指示
「本当に合計100になりますか?計算過程を説明してください」と追加質問で矛盾をチェック。
5. タスクの分解
複雑な分析は小さな単位に分けて、最後に人間が統合する方が安全です。
実務で使えるプロンプト設計例
アンケート集計用プロンプト
これから100人分のアンケート結果を貼り付けます。
各質問項目について選択肢ごとの回答者数と百分率を集計し、
表形式で結果を示してください。
なお回答者合計は100人になるはずです。
出力形式:
1. 質問ごとの集計表
2. 重要な傾向(3点まで)
3. 計算の検算結果
売上推移分析用プロンプト
2019年〜2023年の四半期売上データを分析し、
以下の形式で出力してください:
1. 年次推移の折れ線グラフ(テキスト表現)
2. 各年の総売上と前年比成長率の一覧表
3. 売上傾向から読み取れる点(3つ)
グラフは簡易なもので構いません。
実務担当者への3つの重要なメッセージ
1. 「AIでデータ分析」には2種類ある
❌LLM任せの分析(Claude、Gemini単体など)→ 間違った数値で判断してしまうリスク
⭕計算機能付きAI(ChatGPT+Python、AIエージェント型)→ 実用レベルの精度を実現
2. プロンプト改善だけでも大幅向上
「ソート(並び替え)して送る」「前提条件を明示」だけで、LLM単体でも精度が大幅改善しました。
3. 最終チェックは必須
どんなに優秀なAIでも、ビジネスの重要な数値は人間が最終確認することが鉄則です。
まとめ:「AIは数字に弱い」と思い込まず、使い方を工夫しよう
今回の検証で分かったことは:
❌「AIは数字がダメ」で諦める
⭕「どう使えば間違いが減るか」を意識する
AIツールの使い分け指針(あくまで一例)
高精度が必要な分析 → ChatGPT(Python機能)、Skywork、Genspark、Manus
文章要約や傾向把握→ Claude、Gemini(数値は別途確認)
調査・検索 → Perplexity、Felo
実務で成功する3つのポイント
✅ ツールの特性理解(LLM vs AIエージェント)
✅ 適切なプロンプト設計(段階的指示、条件明示)
✅ 人間による最終チェック(重要数値は必ず検証)
生成AIは「完璧な電卓」ではありませんが、使い方を理解すれば十分に実務で使える頼れる存在になります。
「売上につながるEC販路開拓」の実務支援では、正確なデータ分析が成功の鍵。AIの特性を理解して賢く活用し、より良い意思決定につなげていきましょう。
お問い合わせ
ご質問やご相談は[お問い合わせフォーム]からお願いします。
※Googleフォームに移動します
Comments