Works一覧へ

2024 ML / CV Python PyTorch CNN LSTM

Lip Reading CNN

深層学習を用いた唇動作認識システム。話者の唇の動きを動画フレームから解析し、無音状態でも発話内容を識別するコンピュータビジョンプロジェクト。

詳細ページ準備中 — このプロジェクトの詳細ドキュメントは現在執筆中です。近日公開予定。

概要

卒業研究の一環として開発した唇読み（Lip Reading）システム。動画から話者の唇領域を検出・クロップし、CNNとLSTMを組み合わせたアーキテクチャで時系列の唇動作を分析することで、音声なしで発話内容を推定する。

主な技術・手法

フレーム抽出：OpenCVで動画を逐次フレームに変換、顔検出（dlib / MediaPipe）で唇領域をクロップ
特徴抽出：CNN（ResNet系バックボーン）で各フレームの空間特徴量を抽出
時系列モデリング：LSTM / BiLSTMでフレーム系列から文字・単語を予測
学習データ：GRID Corpus / LRS2等の公開データセットを使用
実装：Python / PyTorch / OpenCV

ステータス

大学の卒業研究として実施。詳細な評価指標・アーキテクチャ図・コードリポジトリへのリンクは近日このページに掲載予定。