青空文庫AI下訳プロジェクト

投稿日:

目次

機械翻訳からAI翻訳へ

以前にNotebookLMを使用して「青空文庫をAI下訳させ、順次、人間翻訳者が訳していくというプロジェクトは、クールジャパンより予算を優先してもよいのでは?」というアイデアを書きました。

念のためお断りしておきますが、私は青空文庫そのものにかかわっているわけではありません。第三者として青空文庫の蓄積を利用できないか、という話です。

私は小説を書き始める前に、翻訳業界で企業向けの大量の翻訳を体系的かつ効率的に行い、翻訳品質を向上するノウハウを持っていました。また翻訳者向け雑誌や英語教育雑誌にも長年寄稿してきました。その経験に基づき、文学のAI下訳は意味があると考えます。

かつて自動翻訳は「機械翻訳」と呼ばれていました。適切な準備や環境、後編集をすればそれなりに役立ったのですが、それなしでは不十分な翻訳品質しか出せませんでした。統計翻訳という手法でそれが改善され、さらにニューラル機械翻訳が登場し、やがて現在の自動翻訳としてさらに洗練されたものとなりました。今でもひどい自動翻訳ウェブページや翻訳(ローカライゼーション)はあります。しかし、結局、自動翻訳の品質を上げられるかどうかは使い方によります

文芸翻訳の難しさ

文芸翻訳は非常に難しい作業です。作家自身についての理解はもちろん、作品とその時代背景などを含む深い学識が必要です。とはいえ、たとえ文学の専門家であっても、翻訳の訓練を受けていない自己流翻訳はこなれておらず、読みづらいことがあります。そして一部のベストセラーを除くと文芸翻訳は経済的になかなか成り立ちません。そのため、価値ある日本文学が世界に知られることなく埋もれたままになっています。

これまではAIの技術的制限から長文を一気に翻訳できないこともありました。細切れで翻訳すると文脈の情報がなく、不完全な訳になります。しかし今では長文翻訳が可能になりました。NotebookLMのようなRAGを使用すれば、だれでもほぼ無料でかなり高品質の下訳が作れます。用語集を生成し、文学的解析を行うことで、さらに翻訳品質を改善できます。簡単な例は以下から。

関連リンク:NotebookLMで文芸翻訳

泉鏡花のような繊細な文体、宮沢賢治のように言い回しや語彙がやや特殊な場合には誤訳が増え、また詩ではまだ十分な品質が得られないでしょう。しかし青空文庫をわずかな予算でともかく読める状態にして、世界の人々に日本文化を日本文学を通して知ってもらうことは、意義があると考えます。

AIは人間翻訳の下訳として使うが、下訳の時点で公開する

AIは人間翻訳の下訳として使うが、下訳の時点で公開する――これが今回の提案のポイントです。最終的には文芸翻訳者ボランティアの人間訳が入ることが期待されます。ひとまずの目標は青空文庫の英語化、次に多言語化すること。

下訳を改善するための、翻訳システムを構築することもできます。センテンスごとに分解して、対訳状態で編集できる対訳データベース、いわゆる翻訳メモリーです。そのベースとなるアプリをバイブ コーディングで作ってみました。

TranslateDiff

これが数時間で作れてしまうのも時代ですねえ。NotebookLMは実際、翻訳メモリーとしても機能するはずです(現時点では推測ですが)。つまり、よりよい人間翻訳をソースとして蓄積すると、さらに良い訳を出してくるはずです。

どれだけのものができるか、まずは実験から始めたい。将来的にはWiki Literatureとでもいうようなサービスで、すべての言語に拡大できるとよいですね。

関心のある大学、企業、団体の方はお知らせください。

コメントを残す