データの取得・集計手法
ギジログが、どの情報源から・どのように国会の会議録データを取得し、各ページの「データ分析」をどのような基準で集計しているかを説明します。 掲載している集計は、公的データを機械的に整理・集計した独自の指標であり、発言原文の単純な再掲ではありません。
最終更新: 2026-06-25
1. データの出典
会議録データは、国立国会図書館が運用する 国会会議録検索システム の公開APIを情報源としています。本会議・各委員会等の会議録に含まれる発言を、発言者・会派・役職・院・会議名・日付とともに取得しています。
- 対象期間: 2023年1月以降の会議録(順次拡充)
- 規模(概数・更新により変動): 発言 約37万件 / 発言者 延べ4,000名以上 / 会議体 88種
データの利用にあたっては、情報源である国立国会図書館の利用条件に従っています。最新かつ正確な情報は、上記の一次情報源をご確認ください。
2. 取得と更新の流れ
- APIから新規に公開された会議録を取得する。
- 発言者・会派・役職・院・会議名・日付などの項目に正規化して構造化する。
- データベースに反映し、各ページの検索・集計に利用する。
更新は週次を目安に行っています(取得スクリプトを実行して反映する運用のため、国会会議録側の公開状況により前後することがあります)。 このため、最新の発言が反映されるまでに時間差が生じる場合があります。
3. 集計・分析の方法
各ページの「データ分析」欄は、そのページに含まれる発言を対象に、次の指標を機械的に集計したものです。
- 発言の多い議員: 発言件数の多い順に上位を表示します。
- 会派別・会議別の発言量: 所属会派や会議名ごとの発言件数を集計します。
- 月別・年別の推移: 発言件数の時系列の傾向を表示します(議員ページなど在任が複数年にわたる場合は年別の粒度)。
集計の単位は一貫して「発言の件数」です。件数は発言の量を示すものであり、発言の重要度・質・賛否を表すものではありません。 表記ゆれや同名異人などにより集計に誤差が生じる場合があるため、解釈にあたっては元データの確認を推奨します。
4. テーマ分類の方法
5. 関連ページ
- 編集方針 — 自動集計と人手監修の役割分担、訂正方針
- 国会のしくみ・用語ガイド — 委員会・会派などの解説(出典つき)
- このサイトについて — サイトの概要と運営者
- 発言テーマ別の分析 — テーマ辞書と集計結果