ビデオ映像から唇の動きを読むAIが中国とアメリカの企業、そして大学の研究者によって開発された事例を紹介します。
Lip by Speech

中国の阿里巴巴集団、浙江大学、スティーブンス工科大学によって開発されました。
このシステムはより高精度なものにするため、音声認識装置から抽出した特徴を補完的な手がかりとして利用するそうです。
例えばシーケンス、コンテキスト、フレームなどを含む複数のスケールで、人間が話しているビデオから有用な情報を抽出します。そしてこのデータを識別しフィルタリング技術を活用することで抽出した情報を更に洗練します。
また、このシステムはBBCの45,000以上の話し言葉と、中国ネットワークテレビのウェブサイト(漢字3,000字、定型分2万句以上)から10万以上の自然な文を含んだ入手可能な最大の中国語リップリーディングコーパスであるCMLRで学習させたそうです。
今後の展望
過去にも他社で動画の音声認識システムが開発されており、46.8%という正確さで話している文章を読み解いていたそうです。
しかし、この新しいシステムの文字エラー率は7.66%〜2.75%程度であり認識の正確さが向上しています。
この正確さの向上によりこのシステムは聴覚に障害のある人が、字幕のない映像を見る時の助けになるのではないかと考えているそうです。
【考察】様々な場面で
今は家や会社や街中、至るところで映像を活用したり楽しんでおり、特に動画の配信は企業のみならず一般の人でも多く活用しています。
その中には娯楽的なものや、実用的なもの様々ありますが、字幕がついており更に正確なものというものはなかなか少ないですよね。
聴覚に障害がある方はそういったコンテンツを利用できないとなると、不便に思うことがあると思います。そんな人の助けになるシステムとして広まっていくことに期待をしています。
参考:Researchers develop AI that reads lips from video footage