AIが画像を解析した結果をもとに、映っているものをテキスト化して自動付与できる技術が発展を続けています。この技術は、文字の読み取りや写真に写っているものを判別し、文章で出力するなど、さまざまな方法で活用が可能です。ただし、注意点を理解せずに利用すると、意味のないものとなってしまいます。
そこで、こちらの記事では「AIを用いた文章解析についてと注意点について」および「AIを用いて画像からテキストを自動で付与する技術」についてご紹介いたします。
人気SNSの一つである「Facebook」では、アップロードした画像をAIが解析し、説明テキストを自動でつけてくれる「自動代替テキスト」という機能が実装されています。
Facebookの自動代替テキストとはどのような機能ですか。 | Facebookヘルプセンター
Facebookに画像をアップする際に、説明文を付けることが可能です。しかし、説明文が付与されていない場合もあります。その場合に、AIが画像を解析して、画像に写っているものや大きさなどの説明文を自動で付与してくれます。
2023年5月現在、約40ヶ国語に対応済みです。また、AIの解析結果が芳しくなかった場合に自分で再入力することもできます。
代替コンテンツの必要性
自動代替テキストのようなコンテンツによって、視力になんらかの問題がある人でも画像の情報が得られるようになります。
例えば、目が見えない人でも、スマートフォンやパソコンの自動読み上げ機能を使えば、代替テキストを読み上げてもらうことで画像の情報を理解可能です。
また、webサイト上で画像が読み込みされない、回線が重いせいで画像が中途半端にしか現れない時にも代替テキストがされるため、情報を得ることができます。
そのため、画像からのテキスト生成のような技術を活用することで、視覚や色覚異常に悩む人でも情報を簡単に理解できるようになります。
AIを用いて画像を解析し、代替テキストを付与する処理は以下のような仕組みになります。
画像の解析
AIに画像を解析させて、そこに何が写っていてどのような状態なのか、場所はどのようなところなのか、状況などを判別させます。
この時、画像やテキストについて事前学習させたAIを事前に準備する必要があります。自分達で学習用のデータセットを用意した上で専用のAIを準備するか、GitHubなどで公開されている学習済みモデルを使うといいです。
テキストの生成

AIによる画像の解析が終わると、解析結果に基づいて対応した複数のテキスト(単語)が生成されます。
例えば、上図のような画像であれば「猫」「2匹」「ベッド」「抱きつく」「白色」「寝ている」といったテキストが生成されます。
ただし、以降の項目で紹介いたしますがAIの精度によっては正しいテキストが出力されない(誤ったものだと解析してしまう)場合もあるので注意が必要です。
代替テキストの付与
AIの画像解析によってテキストが生成された後は、人間が読んでも違和感を感じないような代替テキストにした上で付与します。
例えば上記のテキストであれば、「茶色と黒色の猫が2匹、緑色のカーペットの上で寝ている」といった人間が読んでも違和感がなく、かつその画像がどのようなものなのかイメージできるような代替テキストに変換されます。
そうして、最適化された代替テキストが自動で付与されるのです。
AIによる画像解析で代替テキストを自動付与する技術の、以下のような利用方法が一例として挙げられます。
Webサイトやアプリの開発
FacebookやMicroSoft Edgeなどの大型SNSやwebサイト以外にも、読み込んだ画像を基に代替テキストを付与するアプリが多く開発されています。
上記のようなwebサイトやアプリを活用することで、簡単に代替テキストが付与できるため、手動での入力を削減可能です。また、代替テキストを入力しないで画像をアップロードされるケースを減らせます。
個人の嗜好などの分析
AIの解析によって生み出された代替テキストのデータを分析することで、特定の人の趣味や思考などの分析が可能です。
具体的には、ビッグデータをAIで解析して代替テキストを得たうえで、SNSアカウントやwebページの画像に対して「テキストマイニング」を実施することで必要な情報を効率よく入手できるようになります。
テキストマイニング(text mining)とは、莫大な量の文章データをAIで解析することで、欲しい情報を入手する手法です。
画像に対してAI解析を行ない、代替テキストを得ることで効率良くテキストを抽出し、その中からユーザーの好みや買い物の傾向、関心の矛先などを予測できるようになります。
ビッグデータの分析
社内に蓄積した画像のビッグデータをAIで解析して、代替テキストを付与していくことでデータを文章化してスムーズに分析可能です。
ビッグデータを解析することで、企業は以下のようなメリットを得られます。
- 自社の問題発見、及び解決策の検討
- 顧客のニーズを調査できる
- 流行について知ることができる
どのようなビッグデータかによって、得られるメリットは異なりますが、会社内の課題解決やユーザーの思考の分析結果を踏まえて、顧客満足度の向上が図れます。
AIで画像を解析したうえで、代替テキストを自動で付与する際には以下のような点に注意する必要があります。
正確性
AIがそもそも学習していないものは識別が不可能です。そのため、誤った解析結果を出力してしまう恐れがあります。
AIには正解率というものが存在しており、これはAIの解析結果がどれくらい正しいのかを数値化したものです。これは、0〜1(0〜100%)の間で表されますが、100%のものは存在しません。
このように、AIは完璧な解答を出せる訳ではないため、画像と代替テキストを照らし合わせた上で正確性を確認するようにしましょう。
言語や文化の違いによる差異
言語や文化が、国や地域によって異なってくる点にも注意が必要です。
例えば、英語の場合国によって多少のなまりや違いがあります。アメリカ英語とイギリス英語では英単語のスペルが異なっています。
また、日本国内でも地域によって異なる方言があるため、同じ意味でも言い回しが違ったり、語尾が付くケースも見られます。AIが上記のような文化や言語の違いを適切に判断するためには、そのための学習が必要です。
上記のようなポイントを踏まえて、学習時や解析に使うデータはしっかりと事前に確認した上で、選定するようにしましょう。
まとめ
- AIで画像を解析して代替テキストを付与する技術は、視力が低く画像が見えない人や、画像がうまく読み込めなかったり、中途半端にしか表示されない場合に有益である
- AIによる画像解析を実施し、代替テキストを自動付与する技術は画像の解析→単語の抽出→テキストの最適化の流れで行われる
- AIで画像データを解析し、代替テキストを付与する際は言語圏や方言、精度などを踏まえて活用すること
代替テキストの自動付与は便利な機能です。一方で、AIのクオリティが低かったり、使用するデータによっては上手くいかない場合もあります。
しかし、正しく使えばAIによる代替テキスト付与は課題解決やデータ分析の効率向上に貢献してくれる存在です。
仕組みや注意点などを正しく理解して、有効活用してみて下さい。