Blog
人工知能・AIブログ

2019年12月5日

AI(人工知能)事例集 vol.135 映像から唇の動きを読むAI、中国とアメリカの研究者によって開発

ビデオ映像から唇の動きを読むAIが中国とアメリカの企業、そして大学の研究者によって開発された事例を紹介します。

Lip by Speech

中国の阿里巴巴集団、浙江大学、スティーブンス工科大学によって開発されました。
このシステムはより高精度なものにするため、音声認識装置から抽出した特徴を補完的な手がかりとして利用するそうです。
例えばシーケンス、コンテキスト、フレームなどを含む複数のスケールで、人間が話しているビデオから有用な情報を抽出します。そしてこのデータを識別しフィルタリング技術を活用することで抽出した情報を更に洗練します。
また、このシステムはBBCの45,000以上の話し言葉と、中国ネットワークテレビのウェブサイト(漢字3,000字、定型分2万句以上)から10万以上の自然な文を含んだ入手可能な最大の中国語リップリーディングコーパスであるCMLRで学習させたそうです。

今後の展望

過去にも他社で動画の音声認識システムが開発されており、46.8%という正確さで話している文章を読み解いていたそうです。
しかし、この新しいシステムの文字エラー率は7.66%〜2.75%程度であり認識の正確さが向上しています。
この正確さの向上によりこのシステムは聴覚に障害のある人が、字幕のない映像を見る時の助けになるのではないかと考えているそうです。

【考察】様々な場面で

今は家や会社や街中、至るところで映像を活用したり楽しんでおり、特に動画の配信は企業のみならず一般の人でも多く活用しています。
その中には娯楽的なものや、実用的なもの様々ありますが、字幕がついており更に正確なものというものはなかなか少ないですよね。
聴覚に障害がある方はそういったコンテンツを利用できないとなると、不便に思うことがあると思います。そんな人の助けになるシステムとして広まっていくことに期待をしています。

参考:Researchers develop AI that reads lips from video footage

※当サイトに掲載されている一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があればお問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。

Contact

お問い合わせ

人工知能・AIに関してのお問い合わせは
フォームまたはお電話にて。
フォームに必要事項をご入力の上、
「送信」ボタンを押してください。
担当者より、
回答・返信させていただきます。

人工知能・AI

すべての項目が入力必須となります。

名前
貴社名
メールアドレス
電話番号
ご予算
お問い合わせ内容

NAGOYA

名古屋オフィス

愛知県名古屋市中区丸の内1-17-19
キリックス丸の内ビル 5F

TEL:052-253-9866

Map view

TOKYO

東京オフィス

東京都千代田区神田錦町1-21-2
大手町モダンビルディング 4F

TEL:03-3525-8640

Map view