詳細ページ準備中 — このプロジェクトの詳細ドキュメントは現在執筆中です。近日公開予定。
概要
卒業研究の一環として開発した唇読み(Lip Reading)システム。
動画から話者の唇領域を検出・クロップし、CNNとLSTMを組み合わせたアーキテクチャで時系列の唇動作を分析することで、
音声なしで発話内容を推定する。
主な技術・手法
- フレーム抽出:OpenCVで動画を逐次フレームに変換、顔検出(dlib / MediaPipe)で唇領域をクロップ
- 特徴抽出:CNN(ResNet系バックボーン)で各フレームの空間特徴量を抽出
- 時系列モデリング:LSTM / BiLSTMでフレーム系列から文字・単語を予測
- 学習データ:GRID Corpus / LRS2等の公開データセットを使用
- 実装:Python / PyTorch / OpenCV
ステータス
大学の卒業研究として実施。詳細な評価指標・アーキテクチャ図・コードリポジトリへのリンクは近日このページに掲載予定。