特集記事


一枚の絵は千の言葉に値すると言われます。これまで、画像を言葉で説明するには必ず人間の目と知能が必要とされてきました。しかし近年、Googleのエンジニアはコンピューターが画像を「認識」し、説明文を作成するシステムの開発に取り組んでいます。

Googleは長年、機械学習と機械翻訳に関心を示してきました。実際、ウェブブラウザーやスマートフォンのアプリケーションからアクセスが可能なGoogle翻訳では、現在80言語の機械翻訳を行うことができます。Googleで蓄積した経験を足掛かりに、エンジニアのチームはあるアルゴリズムを活用し、画像の説明を試みる一連の単語を生成する方法を見つけ出しました。このアルゴリズムは機械翻訳のために開発されたもので、10万もの一連の画像の視覚情報とそのキャプションを学習することで、単語を用いて画像を分類することができます。既存の機械学習の手法を当てはめることで、Googleは画像を文章に「翻訳する」方法を編み出すことができたのです。

生成されたキャプションはまだまだ完璧には程遠いものの、人間による評価はかなり高いようです。研究者らはさらに大規模なデータを分析することでシステムの性能が改善されるだろうと予測しています。将来、この技術が検索エンジンや出版業界で活用されること、また視覚障害者がインターネットを利用する際の手助けにもなることが期待されます。