アングル:インド、AI活用に向け121言語のデータ収集に本腰

Reuters

発行済 2023年12月10日 08:16

Rina Chandran

[ベンガル―ル 4日 トムソン・ロイター財団] - インド南西部カルナタカ州の住民らは今年、数週間にわたり、あるアプリに向かって母語カンナダ語の数十の文章を読み上げた。国内初の結核に関する人工知能(AI)チャットボット(自動応答システム)を設計するプロジェクトの一環だ。

カンナダ語を母語とする人はインド国内で4000万人を超える。世界最多の人口を抱えるインドでは1万人以上に使われている言語が121あり、カンナダ語はそのうち22ある公用語の一つにも選ばれている。

ただ、こうした言語のうち、コンピューターによる文字や音声の内容理解を可能にする人工知能である自然言語処理(NLP)に対応しているものは、ほんのわずかだ。

このため、何億人ものインド人が情報や経済的機会から取り残されている。

「AIツールがあらゆる人に使えるようにするには、英語・フランス語・スペイン語の話者ではない人々の需要にも応じる必要がある」とマイクロソフトリサーチ・インドで主任研究員を務めるカリカ・バリ氏は言う。

「ただ、チャットGPTのような大規模言語モデル(LLM)の構築に必要なデータ量のインド言語を収集しようとすれば、あと10年はかかる。代わりにできることは、チャットGPTやLLaMA(ラマ)などの生成AIモデルを基礎にして、その上にレイヤーを重ねることだ」

カルナタカやインド国内の他言語の話者から音声データを収集しているのは、技術企業「カーリャ」だ。同社は、マイクロソフトやグーグルなどの企業が教育・ヘルスケアなどのサービスで提供するAIモデルに使用されるデータセットを構築している。

より多くのサービスをデジタル化して運営することを目指しているインド政府も、AI言語翻訳システム「バシニ」上で言語データセットを組み立てている。バシニは、AIツールを作るための現地語のオープンソース・データセットを作成している。

このプラットフォームでは、人々が様々な言語で文章を提供し、他人が発した音声や文字を検証し、その言語を翻訳したり、画像を張り付けたりするクラウドソーシングが行われている。

インド国内では、これまでに数万人がバシニのデータ収集に協力している。

アプリを入手する
Investing.comで、世界の金融市場の最新動向をチェックしましょう!
今すぐダウンロード

「政府はインドで使われている複数の言語の大規模モデルを訓練すべく、データセット構築を非常に強く推進しており、教育や観光事業、法廷などでは既に翻訳ツールとして使用されている」とムンバイを拠点とするインド言語技術計算研究所(CFILT)のプスフパク・バッタチャリア代表は言う。

「だが、課題も多い。インドの言語は主に口承で受け継がれているだけでなく、電子データによる記録は不十分で、言語が混じり合っているケースも多い。また、話者の少ない言語データを収集することは困難で、特に多大な尽力が必要だ」

<経済的な価値>

世界で現在使用されている言語は7000以上にのぼる。ただ、主要なNLPが対応しているのはそのうち100言語以下で、最も開発が進んでいるのは英語だ。

昨年発表されて以降、生成AIへの関心の波を引き起こしている米サンフランシスコの企業オープンAIが作ったチャットボット「チャットGPT」は、主に英語で学習を進めている。グーグルの対話型AI「バード(Bard)」は英語対応のみに限定されており、アマゾンの音声アシスタント機能「アレクサ」が返答できる9言語のうち、非ヨーロッパ言語はアラビア語、ヒンディー語、日本語の3言語のみだ。

こうした格差を埋めるべく、政府や新興企業は取り組みを進めている。

アフリカの言語については、草の根活動団体「マサハネ」がNLP研究の強化を目指しており、アラブ首長国連邦(UAE)では、アラビア語の生成AIを供給すべく「ジャイス(Jais)」という新たな大規模言語モデルの開発が活発化している。

インドのような国にとって、クラウドソーシングは音声・言語データを収集する方法として効果的だと前出のバリ氏は指摘する。同氏は今年9月、米誌タイムの「AI業界で最も影響力のある100人」に選出された。

「クラウドソーシングは、言語学的、文化的、社会経済的なニュアンスを捉えることにも役立つ」とバリ氏は言う。

「ただ、そこにはジェンダーや人種、社会経済的な偏見が存在し得るという認識が不可欠だ。また、労働者の教育的指導や報酬の支払い、小規模の言語データを収集するために特段の努力をすることなど、倫理的な手法で進められなくてはならない。さもなくば、実用に耐えない」

カーリャの共同創設者であるサフィア・フセイン氏は、AIの急速な成長により、「私たちが聞いたこともないような」言語への需要も存在すると話す。中には言語の保存を目指す学者からの要望もあるという。

カーリャは非営利団体と協力しながら、貧困ライン以下、もしくは年間所得が325ドル(4万7800円)以下で生活する労働者を特定し、データの提供と引き換えに約5ドルの時給を支払っているという。この金額はインドの最低賃金を優に上回っている。

また、そうした労働者は、自身が作成したデータを部分的に所有し、ロイヤリティを受け取ることができる仕組みだ。このデータを基にして、ヘルスケアや農業などの分野で使用できるコミュニティー向けのAI製品を生み出す可能性も秘めているとフセイン氏は言う。同氏はインド東部オディシャ(オリッサ)州で使われている言語を例に挙げた。

「音声データには経済的価値をもたらし得る巨大なポテンシャルがあると考えている。オディア(オリヤー)語の音声データは、以前は3、4ドルだったが、今では40ドルにもなる」

<村の声>

14億人以上に達するインドの総人口のうち、英語話者は11%にも満たない。人口のほとんどは読み書きを苦手としているため、複数のAIモデルは主に話し言葉やその認識技術に特化している。

グーグルが資金を拠出した「プロジェクト・ヴァーニ(Vaani)」は、およそ100万人のインド人から音声データを収集し、自動音声認識や音声翻訳で使用できるようオープンソース化した。このプロジェクト名には「声」という意味がある。

ベンガル―ルを拠点とする「エクステップ・ファンデーション」のAI翻訳ツールはインドやバングラデシュの最高裁判所でも使用されている。

政府が支援する「AI4バーラトセンター」は、AIチャットボット「ジュガルバンディ」を発表。福祉制度に関する質問に対し、インド国内で使用されている複数の言語で返答することが可能だ。2人のミュージシャンが対等な立場でメロディーを演奏しあうインド音楽の「デュエット」を指す言葉が名前の由来になっている同チャットボットは、AI4バーラトの言語モデルとマイクロソフトの推論モデルを使用しており、インド国内で約5億人が使うメッセージアプリ「ワッツアップ」からアクセスすることができるという。

農家らと連携している社会事業「グラム・ヴァーニ(村の声)」もまた、生活保護に関する質問に応じるため、AIチャットボットを使用している。

「自動音声認識技術は、言語による障壁を軽減させ、草の根レベルにまで働きかけを行う助けとなっている」とグラム・ヴァーニの開発担当シュブフモイ・クマル・ガーグ氏は述べた。