データによると、アジアには現在2300以上の地域言語があり、世界人口の約32%を占めています。しかし、これらの言語のほとんどはデジタルリソースが不足しており、周縁化や消滅の危機に瀕しています。Googleは、一連のAIプロジェクトを通じて、より多くの地域言語をデジタル化できるよう取り組んでいます。
Project Vaani: インド奥深くにある 21500 時間の音声データ
3年前、Googleとインド科学研究所は「プロジェクト・ヴァーニ」というプロジェクト中国全土773地域の言語変種を収録することを目標としています。現在、21500時間分の音声ファイルと835時間分の書き起こしデータが収集されており、86言語、11.2人の話者をカバーしています。
このデータは特定のプロジェクトに限定されず、インド国語ミッション・バシニやHuggingFaceプラットフォームを通じて一般の人々に無料で公開され、より多くのAIモデルの開発と応用を促進します。
プロジェクトリーダーは、インドの言語は州によって統一されていないと説明しました。例えば、インドで100番目に人口が多く、XNUMX番目に面積の大きいビハール州には、XNUMX以上の方言とその変種が存在します。人口移動は言語の違いをさらに複雑にするため、こうした微妙な差異を捉えることは、インド全土でサービスが利用できるようにするために不可欠です。
プロジェクト「ヴァーニ」は、160の地区と郡を対象としたデータ収集の第XNUMXフェーズと第XNUMXフェーズを完了しており、メグダップ、カリヤ、その他のユニットと協力して、コーパス収集の規模を継続的に拡大しています。
SEALDプロジェクトとアクアリウム:東南アジア1200言語のデータベース
東南アジアには11か国、6.5億1200万人以上の人口、そして700の言語があります。インドネシアだけでもXNUMX以上の現地語が存在します。このような複雑な言語環境に対応するため、GoogleとAIシンガポール共同で推進するプロジェクトSEALD、コアツールは Aquarium プラットフォームです。
Aquarium プラットフォームの目標は、東南アジアの言語データの完全なカタログを構築し、誰もがデータを投稿して使用できるようにし、地域のニーズを満たす AI ツールとアプリケーションを促進することです。
プロジェクトチームは、資源の乏しい言語や絶滅危惧言語のための戦略も策定しました。これには、現地の機関と協力し、紙媒体や口承資料をデジタル化し、母語話者による検証を行うことが含まれます。絶滅が危惧されている言語については、画像やテキストプロンプトを通じて母語話者の音声コンテンツと書き起こしを収集し、コーパスに保存します。
CHAD 2:AIで日本のコメディの言語の壁を破る
言語AIはコンテンツを保存するだけでなく、文化的なアウトプットを促進します。日本最大の芸能事務所である吉本興業は、Googleと提携し、Gemini 2 Flashをベースとし、「お笑い」の翻訳に特化したCHAD 2.0システムを開発しました。
動画をアップロードするだけで、CHAD 2は中国語、英語、韓国語の字幕を自動生成します。文字起こしと翻訳の精度は90%に達し、一般的なモデルの60%~75%を大幅に上回ります。同時に、翻訳プロセスを数ヶ月から数分に短縮します。
このシステムには200以上のお笑い専門辞書が収録されており、文化的な暗示やパンチラインを処理できます。将来的には、辞書を追加することで、アニメ、ドラマ、スポーツなどの翻訳にも拡張可能です。吉本興業は、このシステムの商用化にも取り組んでおり、世界中の視聴者が日本のお笑いのパンチラインを瞬時に理解できるようになります。
AIでデジタル格差を埋める未来
インドの方言に焦点を当てたプロジェクト・ヴァーニ、東南アジアの言語に焦点を当てたSEALD、そしてCHAD 2の異文化応用など、AIは言語の保存と文化の普及にとって不可欠なツールになりつつあります。データ規模の拡大とモデルの進化に伴い、Googleが推進する言語デジタル化革命は、より多くのアジア言語が沈黙の淵から脱却し、グローバルなデジタル世界における地位を獲得することを可能にするでしょう。
Mozillaも同様の計画を持っている
同様のプロジェクトとしては、Mozilla が 2017 年 7 月から推進しているオープンソースの音声認識エンジン プロジェクトがあります。同時音声プロジェクト (コモンボイス)は、2017年に7226時間の音声コンテンツを蓄積し、14のニッチ言語が追加され、収録言語数は54になりました。今年2月下旬には、8つの台湾原住民の言語タイヤル語、ブヌン語、パイワン語、ルカイ語、万山語、茂林語、セデック語、サキラヤ語などを含む、世界60以上の言語を収録しており、累計データ長は200時間を超えます。台湾語(繁体字)や台湾福建語など、世界中のXNUMX以上の言語を収録しています。







