テキスト・画像・音声などさまざまな形式のデータに対して、コンピュータが理解できるようにタグを付けることですが、膨大な手間と時間がかかる作業です。 自社でアノテーションを行っているものの、時間がかかりすぎるので、外部に委託したいという企業も少なくありません。 そこで今回は、AI開発におけるアノテーションを外部に依頼したい方向けに、アノテーションサービスの種類と、おすすめの会社7選を紹介します。

アノテーションとはデータのタグ付け作業のこと

アノテーションは直訳すると「注釈」という意味で、AI分野においては、テキスト・音声・画像など、さまざまな形態のデータにタグを付ける作業を指します。

アノテーションとはデータのタグ付け作業のこと アノテーションサービスの対象となるデータの種類画像アノテーション映像アノテーション音声アノテーション意味的(セマンティック)アノテーションテキスト・コンテンツ分類エンティティアノテーションエンティティリンキングアノテーションサービスの外注先の選び方専用ツールを使用している会社へ外注する実施目的やジャンルに特化した会社もあるアノテーションサービスを提供している企業7社1.株式会社ユニメディア2.グローバルウォーカーズ株式会社3.株式会社アイアール・アルト (ALT) 4.拓思科技グループ5.株式会社バオバブ6.株式会社ジャスト7.株式会社サイバーテックまとめ

このタグを付ける理由は、AIにデータの内容を認識させるためです。学習を行っていないAIは、データを取り込んでも、それが何なのかは認識できません。 たとえば、街を写した写真を人間が見れば、道路・ビル・街路樹・通行人などを個別のものと判別できます。一方、学習前のAIは、そもそも道路がどのようなものを指すのかすら、分からない状態です。 そこで、例題として道路を写した大量の写真データを用意し、それぞれに答えとして「道路」を示すタグをつけます。これを学習させると、AIは道路の特徴を認識し、写真内の道路部分を判別できるようになります。

アノテーションサービスの対象となるデータの種類

アノテーションサービスの対象となるデータは、複数存在します。ここでは、代表的なものを紹介します。

画像アノテーション

画像アノテーションは、画像内の特定の部分を手作業で囲い、囲った領域にタグを付ける作業です。 たとえば、泳いでいる魚の写真があるとします。 人間が見れば魚と水の境界は一目瞭然ですが、未学習のAIでは、どこまでが魚で、どこからが水なのかがわかりません。そこで、手作業で魚の領域を指定し、その領域に「魚」とタグ付けしたデータを学習させます。 同様にタグ付けしたデータを大量に学習したAIは、魚の特徴を統計的に分析できるようになり、魚とそれ以外の判別が可能になります。

映像アノテーション

映像アノテーションは、画像アノテーションの応用のようなものです。人間の目から見れば一連の映像に見えますが、データ的には画像の連番再生であるため、データ形式の違いともいえます。 画像アノテーションとの違いは、シーンなどに応じて連番画像を区切った、「映像セグメント」に対してタグ付けするという点です。 なお、映像アノテーションにも、低度なものと高度なものがあります。色・形などは低度、いつ・どこで・誰が・どのように・なぜ、という5W1Hの指定は高度です。

音声アノテーション

音声アノテーションは、大きく分けて、「音そのものに対する評価」と、「音声が示す意味」に対するタグ付けの2種類があります。 音そのものに対する評価は、音量やクラクションなどの音の種類です。音のデータを時間的に区切り、タグを付けます。 一方、音声が示す意味については、音声を文章に書き起こしてタグ付けを行います。会議や演説などの内容に対するアノテーションです。これは、書き起こしの精度から問う必要があります。 また、音声から読み取れる感情を人間が判断し、タグを付けることも可能です。 音声アノテーションは、映像に付随する音声にも個別に行う必要があります。

意味的(セマンティック)アノテーション

意味的アノテーションを簡単に言い換えると、文脈から判断できる情報の付加です。情報の確実性や、文脈から類推できる感情などを判別する際に必要となります。 人間が文脈を理解し、タイプを分類します。一文が示す意味・表現を分類したり、文章のパーツとして「ようだ」「らしい」「とすれば」といった表現のタイプを分類するといった方法です。 こうした教師データを学習させることで、チャットボットなどで円滑なコミュニケーションを行うAIを開発できるようになります。

テキスト・コンテンツ分類

テキスト・コンテンツ分類は、ジャンルなどを分類して、タグを付ける作業です。予め、どのような分類を行うかを定義し、主題別などで分類していきます。 具体的な例としては、ニュースのカテゴリ分けが挙げられます。「ニュース」という入力に対して、「芸能ニュース」「国際ニュース」「国内ニュース」などに分類するものです。 これも、大量の教師データを学習させることで、統計的にピックアップすべき単語などを認識し、AIがジャンルを自動判別するようになります。

エンティティアノテーション

「エンティティ」という英単語は、直訳すると「実体」です。IT用語としては、E-R図(関係図)を書くときの情報ユニット(箱)のことを指します。 たとえば会社の組織を示す際、会社のエンティティは「ID・会社名・電話番号」などを1つにまとめた箱、社員のエンティティは「社内ID・社員番号・社員名」などを1つにまとめた箱を指します。 エンティティアノテーションも同様に、文章等のデータから情報ユニットに分解し、構造化する作業です。

エンティティリンキング

エンティティリンキングは、エンティティアノテーションを行ったものを、知識ベース上のエントリに結び付ける作業です。Web上のテキストであれば、知識ベースにWikipediaなどを選択します。 「りんご」「林檎」「Apple」を例にしましょう。「りんご」「林檎」は、Wikipedeiaで「果物」として解説されているエントリに結び付けます。一方、「Apple」は企業名としてのエントリが適当です。 こうしてリンクを行っていくと、エンティティ同士の類似性を、高い精度で計算できるようになります。これは、手作業によるタグ付けより、知識ベースへのリンクの方が、関連付けられる情報が多いからです。 りんごに対して手作業でタグ付けするとすれば、「果物」「赤い」など項目が限られます。一方、知識ベースへのリンクなら、科目・花の色・学名・栽培方法・歴史など、圧倒的に多い情報量の付加が可能です。

アノテーションサービスの外注先の選び方

アノテーション自体はある程度知識があれば対応できる作業なので、自社内でも対応可能ですが、膨大な数のデータにタグ付けしなければなりません。自社ですべてを対応するのはコスパがかなり悪いので、外部に委託するのが得策です。 多種多様な企業がサービスを提供しているため、自社の目的に合致するサービスを選ぶためのポイントを解説します。

専用ツールを使用している会社へ外注する

アノテーションを効率的に行うための、専用ツールや自社開発ツールを使用している会社を選択しましょう。 効率化を実現するツールとして、画像アノテーションにおける、セグメンテーションツールが挙げられます。ピクセル単位の色分けを手作業で行うと時間がかかりますが、自動判別するツールがあれば作業は迅速です。 導入されているツールによって、作業効率や精度に差が出るため、最終的な成果物の量や費用だけで選択しないことをおすすめします。 ただし、アノテーションサービスを行う会社が、全種類のアノテーションを行えるというわけではありません。画像アノテーションが主力の会社でも、ランドマークや3Dキューブには非対応ということもあります。

実施目的やジャンルに特化した会社もある

実施目的や、サービス対象となるデータのジャンルを、限定している会社があります。これは、一部に特化することで専門性を高めるためです。 具体的には、建築・土木・設計に関するデータへのアノテーションに特化した会社や、音声認識用のAI開発に適したアノテーションに特化している会社などが挙げられます。 また、タグ付けに専門知識が必要な場合に備えて、専門家を含めたチームを編成している会社も存在します。 自社で取り扱うデータが専門性の高いものなら、特定のジャンルに特化した会社を選びましょう。

アノテーションサービスを提供している企業7社

最後に、アノテーションサービスを提供している会社の中から、おすすめの7社を紹介します。 今回は「アノテーションサービス 比較」で検索した際に出てくる比較記事から出現頻度をスコアリングして選定しました。

1.株式会社ユニメディア

株式会社ユニメディア ユニメディアが提供するアノテーションサービス「ANNOTEQ(アノテック)」は、深層学習用の教師データセットの構築を支援するサービスです。 作業者にクラウドワーカーを採用することで、実働100万人以上を動員しています。また、同社が展開するAI OCRのノウハウを活かした、文字認識も強みの一つです。 また、自社で大量のデータを用意することができなくても、クラウドワーカーによる撮影等の作業や、複数のリソースによって、必要なデータを収集してくれます。 提供しているアノテーションサービスの種類をリストにまとめました。

データ収集(画像・動画・手書き文字)分類(画像・動画・自然言語)画像・動画適性判定音声アノテーション映像アノテーション画像アノテーション(バウンディングボックス・セグメンテーション)その他要望に合わせたアノテーション作業

2.グローバルウォーカーズ株式会社

グローバルウォーカーズ株式会社 グローバルウォーカーズは、自社研究開発のAIを駆使したサービスを提供しています。アノテーションだけでなく、依頼主の目的に合わせた実用レベルのAI開発や、画像処理、IoTにおける組み込みも発注可能です。 なお、アノテーション作業については「Annotation One」というサービス名になっており、データ収集から高品質な教師データ作成、データセット構築までを行ってくれます。 提供しているアノテーションサービスは以下の通りです。

画像分類画像アノテーション(バウンディングボックス・セグメンテーション・キーポイント・3Dバウンディングボックス)音声アノテーション(文字と音声の確認・文字起こし・感情タグ付け・リスニングテスト)テキストアノテーション(感情タグ付け・セマンティックアノテーション・テキストへのタグ付け)

3.株式会社アイアール・アルト (ALT)

株式会社アイアール・アルト (ALT) アイアール・アルトは、「コトバ」に特化したアノテーションサービスを提供しています。文章等の言語データ・音声データ・映像データが対象です。 また、実験が必要とされる開発において、実験計画の策定から被験者の募集、実験の代行まで行ってくれるのも、アイアール・アルトならではの特徴といえます。 提供しているアノテーションサービスは、次のようなものが挙げられます

データ収集(言語・音声・映像)解析(言語・音声・映像)テキストアノテーション音声アノテーション映像アノテーション(行動パターン等)

4.拓思科技グループ

拓思科技グループ 中国・大連に本社を構える拓思科技グループは、海外進出における業務支援サービスを幅広く取り扱っています。その一つがアノテーション作業です。 とくに、地理・交通に関するデータ処理に長けています。道路標識に対するアノテーションや、上空からの道路画像をもとにした交差点内容・進行方向のアノテーションが可能です。 また、車線の境界線や道路標示ペイント、他車線などのアノテーション作業も取り扱っています。 以下に、提供しているアノテーションサービスをまとめました。

収集(音声・手書き文字・画像)音声アノテーション手書きアノテーション画像アノテーション看板アノテーション交差点内地物のアノテーション路面地物情報アノテーション

5.株式会社バオバブ

株式会社バオバブ バオバブは、自社開発のモバイルアプリツールを使用し、世界中のスタッフが画像収集からタグ付けまでを行うアノテーションサービスが特徴です。また、各国の言語を機械翻訳するための学習データも作成します。 提供しているアノテーションサービスは以下の通りです。

収集(画像・音声)画像アノテーション音声アノテーション

6.株式会社ジャスト

株式会社ジャスト ジャストは、建設業に特化した教師データの作成サービス「J-Brain Annotation」を提供しています。 セグメンテーションで色分けした、「鉄筋錆びと爆裂」「天井内設備」「鉄骨造の腐食状況」などの画像データに対して、パーツの名称はもちろんのこと、腐食レベルなどの専門的な知識が必要なタグ付けも可能です。 実際に年間3,000棟を超える構造物の検査・調査・診断業務を行っているため、建設業における高難易度な教師データを作成できるという強みがあります。 また、深層学習の専属チームがあり、アノテーションコンサルティングの依頼も可能です。特徴的なアノテーションサービスを以下にまとめました。

RC構造物のX線レントゲン画像に対する、コア抜き判定用のアノテーション銅版屋根画像に対する錆び劣化判定の自動化(ピクセル単位セグメンテーション)外壁仕上材判定AIによる外壁仕上材の分類

7.株式会社サイバーテック

株式会社サイバーテック サイバーテックは、広い分野のITアウトソーシングを提供しています。その一つとしてAI向け学習データの作成も請け負っており、アノテーションの依頼も可能です。 フィリピンのセブ島にオフショア、沖縄県にニアショアの拠点を構えており、低価格でのサービス提供を可能としています. 提供しているアノテーションに関連したサービスの内容をまとめました。

画像アノテーション(バウンディングボックス・セグメンテーション)画像データの分類画像データの拡張(回転・ズーム・水平シフト・ランダムシフト・垂直反転・シアー変換・RGB変換)コンテンツデータ・テキストデータの整理・整形・属性情報の抽出・タグ付け

まとめ

アノテーション作業を自社で行うのは、相当な時間と人数を要します。また、使用するデータの収集や、タグの定義付けにも手間がかかるため、外注するのがおすすめです。 外注先を選定する際は「自社の業務に活かせるサービス」であることが、最も重要な視点といえます。言い換えれば、アノテーションを活用する目的を明確にしない限り、最適なサービスはみつかりません。 アノテーションの活用目的を明確化した上で、提供されるサービスの種類・精度・速さなどを総合的に判断しましょう。

                             7  - 23                             7  - 70                             7  - 6                             7  - 44                             7  - 26                             7  - 99                             7  - 69                             7  - 78