AI開発のボトルネック「データ収集」を全国のユーザー網で突破。日本語OCR精度を飛躍させた、多様性のある画像データ活用

AI活用を阻む「データ収集の壁」——御社が取り組まれている事業内容について教えていただけますか。弊社では、OCRソリューション「YomiToku」を通じて、紙の帳票やドキュメントを正確にデータ化し、企業のデータ活用を効率化する取り組みを行っています。特に日本語のドキュメントを構造化して抽出するという点に注力しています。——今回、弊社（ONE）で画像収集を行う前は、どのような課題を感じられていたのでしょうか。実は、AI開発において「データを収集する」という工程は、非常に難易度が高いんです。インターネット上で収集できるデータはごく一部で、どうしても内容に偏りが出てしまいます。そのため「多様性のあるデータ」をネットだけで集めるのには限界がありました。 ——自社や企業間での収集も、一筋縄ではいかないと伺いました。おっしゃる通りです。企業間でデータをやり取りするのは、法規やコンプライアンスのリスクが非常に高く、業務の延長線上でデータを集めることはほぼ不可能です。個人情報や機密情報の取り扱いを含め、権利周りをクリアにした状態で、いかに効率よく収集できるかという手法を探していました。全国のユーザー網がもたらす「データの多様性」—— 数あるサービスの中で、なぜ「ONE」を選んでいただけたのでしょうか。もともと御社（WED社）が「YomiToku」を利用していたことがきっかけではありますが、何より「ONE」が抱える圧倒的なユーザー数と、その多様性に魅力を感じていました。いかに母数を集め、全国の多種多様な人からコレクションできるか。その規模の大きさが魅力でした。—— 実際にプロジェクトを動かしてみて、率直なご感想はいかがでしたか？収集のスピード感と量に関しては、特に不満もなく、非常にスムーズでした。当初想定していたよりも膨大な量を、予算を抑えながら集めることができたと感じています。撮影環境に起因する解像度の不足などもありましたが、そこも柔軟に調整いただけたので、最終的には納得のいくデータが得られました。識別率は一気に90%超へ。日本語特化型OCRの機械学習を加速—— 実際に「ONE」で収集したデータを使ったことで、OCRの精度にはどのような変化がありましたか。非常に大きな効果がありました。対象ドキュメントに対しては十分な学習データがなく、弊社が保有している学習データの分布外であり、性能に課題がある状態からのスタートだったんです。そこからYomiTokuの汎用モデルの学習を重ね、今では識別率が90数パーセントという実用レベルまで到達しました。ゼロから一気にここまで持ってこられたのは、間違いなく今回のデータ収集の成果です。—— 最後に、今後の展望や「ONE」への期待をお聞かせください。私たちは現在、画像と自然言語処理を組み合わせた「ドキュメントVLM（Vision Language Model）」の開発に挑戦しています。グローバル水準の技術と競争できるレベルを目指して技術をさらに進化させていきたいと考えています。AI開発においてデータ収集は常に最大の課題ですが、全国のユーザーから有益なデータを一気に、かつ柔軟に集められる「ONE」というプラットフォームは、その課題を解決するための非常に有効な手段の一つだと捉えています。