WEBサービス開発の発注の基礎を解説!
WEBサービス開発に関する発注・見積もり・相場に関するポイントをまとめた記事コンテンツです。
初めて発注業務を行う方、どのように会社に依頼をしたらよいかお悩みの方はぜひご覧ください!

教育
5,000,000円~10,000,000円

社内システム向けの自動字幕生成AIの構築
クライアント: 大手量販店様
業界: 小売(量販店)
費用目安: 500万円 〜 1,000万円
【課題】
10年以上利用してきた膨大なE-Learning動画への字幕付けという課題を抱えていました。手作業ではコストと時間的に非現実的なため、自動化が求められていました。
さらに、字幕データを活用した要約生成や、将来的なナレッジ検索基盤の構築も視野に入れていました。
【解決策】
【解決アプローチとシステム構成】
長年利用されている既存システムへの影響を最小限に抑えるため、字幕生成専用のシステムを「外付け」で新たに構築するアプローチを採用しました。この構成により、既存システムの改修を必要とせず、安定稼働を維持したままAI機能を追加できます。
既存システムから簡単にAI機能を呼び出せるAPIを用意することで、社内システムとAI字幕生成システムとのシームレスな連携を実現。これにより、「既存の全動画への一括字幕生成」と「今後追加・更新される動画への自動字幕生成」の両方に対応する柔軟な仕組みを構築しました。
【品質を支える技術】
動画の字幕生成は、元となる動画の音質に大きく影響されるため、単純な文字起こしでは十分な精度が出ません。本システムでは、以下の多段階処理を組み合わせることで、字幕の品質を飛躍的に向上させています。
音声データのノイズキャンセリング
人間音声のみの抽出
映像データに基づく画像分析
生成した文字起こしデータのLLMによる校正
さらに、人間が手動で修正した履歴をLLMが学習情報として取り込み、継続的に字幕の品質が改善されていく自己学習の仕組みも構築しています。
【利用技術】
オープンソースのモジュールを積極的に活用し、外部APIへの依存を最小限に抑えることで、ほとんどの処理を自社サーバー内で実行できる構成としました。これにより、セキュリティとコストの両立を実現しています。
動画文字起こしAI: Whisper
動画解析: ffmpeg、LLM
音声抽出: Demucs
文字起こし校正: LLM
また、将来的に独自のLLMへ差し替えが可能となるよう、拡張性を考慮した設計となっています。
WEBサービス開発に関する発注・見積もり・相場に関するポイントをまとめた記事コンテンツです。
初めて発注業務を行う方、どのように会社に依頼をしたらよいかお悩みの方はぜひご覧ください!