画像からMarkdown
以前にバイブ コーティングでマインドマップ アプリを作った話を書きました。
そもそもなぜマインドマップ アプリを作ったか。一つは以前からマインドマップを活用していたということもあります。もう一つの理由はNotebookLMで生成されるマインドマップをうまく活用したかったからです。しかしそこには重大な問題がありました。
NotebookLMで生成されるマインドマップは画像でしか出力できなかったのです。これではあまり活用しようがありませんね。その画像をNano Bananaで作り変えることもできるとはいえ。
そこで登場するのがバイブ コーディング、Google AI Studioです。マインドマップ画像をOCRしてMarkdownに変換するアプリをつくらせました。
これはとても上手くいき、バイブ コーディングの可能性に目を開かされました。ない機能は自分で作ればいい。
アイデアのカンブリア爆発が起き、睡眠不足になるほどでした。これだけでは物足りなくなり、もっときれいなマインドマップを見たくなりました。そこでマインドマップ アプリそのものを作ったわけです。

動画からPowerPointへ―SlideRemix
さて、NotebookLMはソースを解析してスライドを作り、音声付きでプレゼン動画を自動で作ってくれます。最初にこれを見た時には相当なインパクトがありました。しかし、いくつも作らせているうちに問題点も見えてきました。この動画もやはり直接編集することはできません。小さくても音声やスライドに重大な誤りがあった場合、修正するには動画編集をしなくてはいけません。理想的には編集可能なようにPowerPoint形式にしてくれれば良いのですが、NotebookLMにその機能はありません。ない機能は自分で作ればいい。ということでこれもやはりバイブ コーティングで作りました。
最初は動画から切り出した画像をOCRさせてPowerPointにしていたのですが、すぐに最初から動画そのものをブチ込んでできることに気づきました。
そしてできたのが、動画や画像、PDFからスライド資料を再構築・編集するためのツール、SlideRemixです。

主な機能
以下の4つの主要な機能があります。
- MP4動画の読み込み
- プレゼンの動画ファイルから自動的にスライド部分を抽出できます。
- 特定のスライドを選択して処理したり、そのまま画像としてダウンロードしたりできます。
- 音声の文字起こし
- オプション機能として、スライドごとの音声を抽出・認識できます。
- スピーチ内容を自動で文字起こしし、発表者用メモに追加してくれます。
- スマートフォント検出
- 画像内のテキストのフォントの種類(ファミリー)、サイズ、太さ、色を自動的に特定・解析して、元のデザインに合わせます。
- マジック インペインティング
- 背景の図や表はそのまま残しつつ、画像内のテキストだけをきれいに消去し、編集可能なテキストボックスとして再生成します。翻訳して文字を入れ直す際などに非常に便利です。
対応しているファイル形式
- 画像 (PNG、JPG)
- PDFファイル
- MP4動画
これを活用して作ったのが以下の動画です。
この動画には、SlideRemixで生成されたスライド画像も使っています。
ただこの動画を作るには結構複雑なことをしています。概要動画を作らせるための台本もNotebookLMで事前に作っています。台本に基づく概要動画でも、含まれる音声に事実を誇張するなどの問題があったため、結局、台本はGoogle AI Studioの音声合成で読み上げさせることにしました。そして別に画像生成した画像、さらにSunoで作った音楽を動画編集ソフトで一つにしています。NotebookLM動画に満足できなければ結局、すべて別々に作ることになるのかも。
詳細についてはまた別の記事で。
