データの取得・集計手法

ギジログが、どの情報源から・どのように国会の会議録データを取得し、各ページの「データ分析」をどのような基準で集計しているかを説明します。 掲載している集計は、公的データを機械的に整理・集計した独自の指標であり、発言原文の単純な再掲ではありません。

最終更新: 2026-06-25

1. データの出典

会議録データは、国立国会図書館が運用する 国会会議録検索システム の公開APIを情報源としています。本会議・各委員会等の会議録に含まれる発言を、発言者・会派・役職・院・会議名・日付とともに取得しています。

  • 対象期間: 2023年1月以降の会議録(順次拡充)
  • 規模(概数・更新により変動): 発言 約37万件 / 発言者 延べ4,000名以上 / 会議体 88種

データの利用にあたっては、情報源である国立国会図書館の利用条件に従っています。最新かつ正確な情報は、上記の一次情報源をご確認ください。

2. 取得と更新の流れ

  1. APIから新規に公開された会議録を取得する。
  2. 発言者・会派・役職・院・会議名・日付などの項目に正規化して構造化する。
  3. データベースに反映し、各ページの検索・集計に利用する。

更新は週次を目安に行っています(取得スクリプトを実行して反映する運用のため、国会会議録側の公開状況により前後することがあります)。 このため、最新の発言が反映されるまでに時間差が生じる場合があります。

3. 集計・分析の方法

各ページの「データ分析」欄は、そのページに含まれる発言を対象に、次の指標を機械的に集計したものです。

  • 発言の多い議員: 発言件数の多い順に上位を表示します。
  • 会派別・会議別の発言量: 所属会派や会議名ごとの発言件数を集計します。
  • 月別・年別の推移: 発言件数の時系列の傾向を表示します(議員ページなど在任が複数年にわたる場合は年別の粒度)。

集計の単位は一貫して「発言の件数」です。件数は発言のを示すものであり、発言の重要度・質・賛否を表すものではありません。 表記ゆれや同名異人などにより集計に誤差が生じる場合があるため、解釈にあたっては元データの確認を推奨します。

4. テーマ分類の方法

発言テーマ別の分析では、人手で整備したテーマ辞書を用いて発言を分類しています。 各テーマには代表的なキーワード・同義語を登録し、発言本文にそれらを含むかどうかで分類します。

  • 1つの発言が複数テーマに該当することがあります。
  • 「経済」「地域」など意味の広い語は、該当件数が大きくなる傾向があります。
  • 辞書の内容(テーマと分類キーワード)は /topics で公開し、週次のデータ更新時に再集計します。

テーマ分類はキーワードの一致に基づく機械的な手法のため、文脈によっては過不足が生じます。辞書は継続的に見直しています。

5. 関連ページ