Works一覧へ
2024 ML / CV Python PyTorch CNN LSTM

Lip Reading CNN

深層学習を用いた唇動作認識システム。話者の唇の動きを動画フレームから解析し、無音状態でも発話内容を識別するコンピュータビジョンプロジェクト。

詳細ページ準備中 — このプロジェクトの詳細ドキュメントは現在執筆中です。近日公開予定。

概要

卒業研究の一環として開発した唇読み(Lip Reading)システム。 動画から話者の唇領域を検出・クロップし、CNNとLSTMを組み合わせたアーキテクチャで時系列の唇動作を分析することで、 音声なしで発話内容を推定する。

主な技術・手法

ステータス

大学の卒業研究として実施。詳細な評価指標・アーキテクチャ図・コードリポジトリへのリンクは近日このページに掲載予定。