AIの時代、ルビは思っている以上に重要かもしれない

投稿日:

一言で要約:ルビは重要だからGoogleドキュメントとNotebookLMでサポートしてほしい!

NotebookLMのソースのアップロードに使用されるGoogleドキュメントはふりがな(ルビ)に対応していません(縦書きにも対応していません)。そのため、ふりがなを含むWord文書をアップロードするときは、事前にプレーン テキスト形式に変換してからアップロードするなどの対策を講じる必要があります。ルビ付きのWord文書をそのままアップロードすることもできますが、ルビは正しく処理されません。

ルビは、日本語の単語の正しい発音(読み方)を示すものです。この機能は、日本語学習者向けの教材、漢字の知識が限られている子供向けの本、小説のような創作物などで一般的に使用されているため、日本語のテキストを扱う上で極めて重要です。

ルビ文字の詳細について: https://en.wikipedia.org/wiki/Ruby_character

「青空文庫」は、日本の古典文学を公開しているボランティアベースのウェブサイトで、そのテキストには頻繁にルビが含まれています。

Googleドキュメントでのルビ対応の実装は何年も待ち望まれてきましたが、そちらとは独立して、NotebookLMにおいても個別に実装が可能のはずです。例えば、最もシンプルな方法の一つである「青空文庫形式」の表記をサポートすることで実装できるかもしれません。《 》でくくる形式です。

青空文庫形式のルビ表記例:

青空文庫 – Wikipediaja.wikipedia.org

ちなみにnoteでもこの青空文庫形式あおぞらぶんこけいしきルビに対応しています。ルビ開始位置に「|」と入れる必要があります。

ルビ文字に対応することは、主に以下の2つの分野でNotebookLMに大きく貢献するでしょう。

  • 出力品質: ルビによって正しい読み方が示されることで、音声や動画の出力品質が向上します。実例として拙作短編「Dワールド」の解説を動画として出力したとき、鏡像を「かがみぞう」と何度も読んでしまいました(これは用語集でNotebookLMに指示しても修正できなかったのですが)。
  • 翻訳精度(Translation Accuracy): 日本語から他言語への正確な翻訳を行う上でも、ルビは重要です。人名、地名以外にも複数の読み方が可能な語は日本語に多数あり、漢字だけでは読み方が分からないことがあるからです。

なぜ青空文庫のルビがサポートされるとよいのか。この日本文学のコンテンツの蓄積をNotebookLMに取り込んで、文学研究や他の言語への翻訳がしやすくなるからです! 残念ながら日本文学の翻訳は遅々として進んでおらず、優れた作品が埋もれたままになっています。文芸翻訳は簡単ではありませんし、NotebookLMだけで完結するわけでもありません。しかしないよりはすごく良い。たとえば、NotebookLMに宮沢賢治の作品を解析させ、描写に基づくイラスト生成もできます……まあそれは人間がしたほうがいいでしょうが。青空文庫をAI下訳させ、順次、人間翻訳者が訳していくというプロジェクトは、クールジャパンより予算を優先してもよいのでは

現状では、同じテキストについて「ルビあり」と「ルビなし」の2つのバージョンをアップロードする必要があります。ルビがGoogleドキュメントとNotebookLMに実装されれば、ワークフローを大幅に効率化できるでしょう。

ルビの仕組みはどの読み方がどの漢字に対応するかなどを考慮すると複雑ですが、読み方をAI(NotebookLM)に指示するだけならシンプルな形式でも十分に役立ちます。

コメントを残す