株式会社邑計画事務所(いわてDX大賞2024応募事例)
画像認識AIを用いたアンケートの自動集計
取組概要
全国の自治体では民意を行政に反映させるため実に多くのアンケート調査が行われている。これらの市民意識アンケート調査は多世代にわたって実施されるために、多くのケースでWEB方式などと併用して従来型の紙媒体による非マークシート式のアンケートが採用されている。マークシート方式も正しく塗りつぶされないと集計できないなどの問題から、特に高齢世代へ向けたアンケートでは避けられる傾向があり、自治体等が行う市民意識アンケート調査では、今なお選択肢の記号を「○」を囲む非マークシート式の紙媒体アンケートが広く採用されている。このため、現状では入力・集計作業は目視に頼らざるを得ず、多くの自治体にとって職員の業務負担や委託人件費の増加が課題である。そこで、近年発展が目覚ましいAIの画像処理技術を用いて、手書きの「○」の位置を自動認識させるツールを開発し、入力に係る作業時間の短縮及び費用軽減の実現を目指した。
取組の成果
疑似的なアンケート調査票の画像の上に、多様な記号を多様な手書きの「○」で囲んだ画像をランダムに複数貼り付けた学習用画像を10,000枚作成し、物体検出のAIモデルが作成が可能なYOLO(You Only Look Once)を用いてファインチューニングした結果、学習用画像から分割したテスト用データ(1,000枚)に対し、適合率(Precision)=0.996、再現率(Recall)=0.991、mAP@50=0.995、mAP@50-95=0.803という高い評価値の推論モデルが得られた。
この推論モデルを用い、実際のアンケート調査票100枚(手書きの○の数はそれぞれ複数ある)について実装検証した結果、
TP(真陽性:○があるところを正しく認識している数)=671
FP(偽陽性:○がないのに○と認識している数)=111
FN(偽陰性:○があるのに正しく認識していない数)=115
となった。
ただし、FPについては、枠外の丸みを帯びた文字などを○と認識しているケースや、選択肢全体を囲む大きな○を2つの○として認識しているケースもあり、これらのケースは座標計算による距離フィルターで削除可能なことから、補正後のFPは11となった。
この結果、適合率(Precision)=TP/(TP+FP)=0.984>0.9、再現率(Recall)=TP/(TP+FN)=0.854>0.8となり、目標とした実用レベルに達した。
深層学習には数十時間を要したが、得られた推論モデルを用いた100枚分の実装は数分で推論が完了した。目視による手入力では10~15分以上かかる作業で人件費が生じる。AIを使った集計でも手入力集計でもダブルチェックのための作業は同様に生じるため、この部分のコスト削減はできないが、最初の入力に対しては、調査票の枚数が増える程、省力化が見込める結果となった。