ソースネクストのAutoMemoは、インタビュー取材の福音となるか？

2021年09月01日

INDEX

録音して、テキスト化してくれるデバイス

我々編集記者には、『テープ起こし』と言われる録音データを文字データにテキスト化する作業が日常的に発生する。

大昔にはカセットテープで録音していたし、専用のメモリーデバイスを使うこともあれば、最近はiPhoneなどスマホの録音機能を使うことも多い。

議事録を取るために、録音の書き起こしを行った経験のある人なら分かると思うが、これはけっこう手間のかかる作業だ。2時間のインタビューを完全にテキスト化しようとしたら丸1日では足りないことが多い。

クラウドワークスなどのクラウドソーシングサイトに出してみたこともあるが、2時間分で5000〜3万円という入札が入った。3万円というのは完全な文字起こしのプロの方で、5000円というは「やってみたいので機会を下さい」という若い方だった。間をとって1万円ぐらいを提示されている方に依頼したが、4人での対談をそれぞれA、B、C、Dと分けて書き出して、専門用語も可能な限りググって表記し、聞き取れなかった部分にはその旨注釈が付いたテキストが返ってきて、いたく感動した。

とはいえ、外の人に依頼するとどうしてもやりとりを含めて数日間のステップがかかってしまうので、それではニュースとして遅過ぎる。だから自分で夜を徹してやってしまうことが多い。

もちろん、テキスト化したからといって、会話は文章にはなっていないから、結局本文はゼロから書き起こすのだが、それでも記録がすべてテキストで残ってるのはありがたい。

録音した音声を、テキスト化してくれる

そんな中、「試してみませんか？」とご提案いただいたのが、昨年12月に発売されたソースネクストのAutoMemoというデバイス。

ソースネクストAutoMemo
https://automemo.com/

録音したら、その音声データはクラウドに送られAIを使った文字認識を使ってテキストデータ化され、アプリに戻される。

文字認識できていない部分でも、アプリ上でタップすると録音時の音声を再生することができる。録音データで特定の部分を探すのには非常に手間がかかるものだが、この仕組みがあれば簡単だ。

また、メールアドレスやクラウドサービスと連携させることもできる。メールの場合はテキスト化されたものが本文として送られてきて、音声データはデータのリンクが送られてくる。

クラウド連携は、筆者はDropboxで試してみたが、録音して文字認識が終わると、自分のDropboxのフォルダにテキストと音声データが格納される。

本体価格は1万9800円（税込）

AIによる文字認識は月額課金の有償。1時間まではお試しで利用できるが、月額980円（税込）がプレミアムプランとして提供されている。これ以降は1480円（税込）で10時間分が追加チャージできるが、こちらは少し割高なので、まぁ980円/月というプレミアムプランの範囲で使って欲しということだろう。

つまりは、日常のすべての音声をテキスト化する……というような用途には向いておらず、上限1日1時間程度の利用をイメージしたサービスということだ。筆者の場合、数日ごとに1〜2時間のインタビュー……といった具合なので、おそらく十分に事足りる。

料金はアプリで課金される。つまり、iPhoneの場合、App Storeからの課金になる。サラリーマン編集者としては、領収証の発行をいただけるとありがたいのだが、領収書サービスはないそうだ。

認識精度が一番のキモ

さて、一番の問題は、使い勝手はどうなのか？　使い物になるのかどうか？　というところだろう。

結論から言うと、これは素晴らしいデバイスだ。ただ、神の作ったデバイスではないので、もちろん使い方次第という側面もあるし、欠点もある。

まず、認識精度の問題だ。

AutoMemoに向かって、アナウンサーのように正しい日本語ではっきりと話せば、95％以上が認識される。この状態で認識されないのは固有名詞だけだ。『村上タクタ』が『村上択た』になったり、『AutoMemo』が『大友』になったりする。取材においては、たいてい固有名詞こそが大切なのだが、これは仕方ないだろう。固有名詞については、別途メモするしかない。

続いて、多人数の会議室のような状態になると、かなり認識精度は落ちる。誰もが正しい日本語で話してくれるわけではないし、指示代名詞も増えるし、そもそも話者を区別せずに文字化されるから、誰が何をしゃべったのか分からず混乱する。

音質が低下してもダメだ。iPhoneに録音した音声データをスピーカーから出力して聞かせてみたが、ほとんど認識されない。つまり、ビデオ会議をスピーカーから出力して認識させようとしてもほとんど文字化できない。

左がマイクに向かってアナウンサー調で話したもの。ほとんど完全に文字起こしされている。真ん中は私がYouTubeで話しているようなニュアンス。右は雑談を録音したもの。

認識を終了して、『変換が終わりました』と言われてアプリを開いても、1文字も文字化されていなかったりすると、かなり焦る（大事な取材だったら冷や汗ダラダラだ）。それ以来、筆者はバックアップとしてiPhoneでも録音するようになった。

つまり、『非常に便利』『ただし、状況次第』というのが正直なところだ。

ビデオ会議を上手くテキスト化する方法

最初のうちは、その不安定さが怖くて使えなかったが、何度か使っているうちに、どういう状況なら上手く使えるかが分かってきたので、上手に使えるようになった。やはり道具は使いよう……ということか。

周囲の雑音の多い録音データをヘッドフォンで聞きながら、アナウンサー調に正しく話してAutoMemoに聞き取らせる（つまり自分の音声を使った書き起こし）……というのもやってみたが、案外これも大変で疲れる。

可能な限りいい音質で、しっかり聞かせる。多人数や雑談に近い話の場合は割り切る……という配慮は必要だ。

ビデオ会議については、AutoMemoのサイトに掲載されている方法を使うと上手くいった。つまり抵抗入りステレオミニプラグを使って接続するのだ。

ちなみに、この写真は間違っていて、抵抗入りステレオミニプラグを使う場合は、赤の方をAutoMemoに繋ぐそうです。

サイトによると、パソコンの音声をAutoMemoに繋げということだったが、筆者の場合、パソコン側はコンデンサーマイクやヘッドセットに繋がっているので、外したくない。そこで、別途iPad miniを用意してAutoMemoに繋ぎ、そちらでも会議に入って録音することにした。この方法なら、かなり認識精度は高くなった。

ただし、2台で会議に入らなければならないので、使用出来るのは事情を説明できる時に限る。先方の設定したクローズドな発表会だと、そんな融通の利かない時もある。

LED表示が何を意味しているのか分かりにくい

もうひとつ、苦言を呈したいことがある。

仕事でインタビューしている時は、先方が有名人だったり、社長さんだったり、気を遣う相手であることも多い。つまり、シビアな会話のやりとりをしながら、録音操作をしなければならない。にも関わらず動作状況が分かりにくいのだ。

非常に美しくシンプルなデザインで、昔のiPodのように透明感のあるアクリルの背面から塗装したボディの正面には、大小ふたつのボタンがあり、大ボタンは外側と内側、加えて小ボタンが光っていろいろ伝えるようになっているのだが、そのサインが複雑なのだ。

『電源オンすると、外周が右回りに5回転点滅』『待機中は外周がゆっくりと点滅』『録音時は中央が点灯』『終了時は中央が3回点滅』……このあたりまではまだいいが、『バッテリー残量90％時には外周が90％点灯』『バッテリーが50％時には……』『ペアリング設定時は……』『アップデート時は……』となると、よほど熟練していないと何がなんだかわからない。

緊張したインタビューのさ中に、チラリと見た時に明滅していると、「あれは何だったけかな……？」とパニックになってしまう。

それともうひとつ。どういう理由か分からないのだが、付属のUSB-C to USB-Aケーブルからしか充電できない。私は普段取材用にお借りしたデバイスのケーブルは極力使わずに（返却時に間違えるといけないから）自宅のケーブルで充電するのだが、それが裏目に出た。

使おうとしても充電されていないのだ。しかし、状態を示すサインが前述のように、3種類のLEDの明滅だから、何が起こっているのか分からない。

かなり混乱したあとに、同梱のケーブルで充電したらすべてが解決した（メーカー推奨は同梱ケーブルなのは当たり前だが）。今後も、自宅のケーブルと混ぜずに、この専用ケーブルだけは本体と一緒に保存しておかねばならない。

インタビューする人にお勧め

というわけで、上手く使えればかなり便利なAutoMemo。月額980円の出費ではあるが、最初に書いたように１日がかりで文字起こしをする私の人件費を考えると、お安いとしか言いようがない。今後ももっと使いこなしていきたいと思っている。

flick!TVでは実際に録音して文字起こしをする様子を実演しているので、こちらもご覧いただきたい。

（村上タクタ）

（最新刊）
フリック！9月号で、より詳細にレポートしています。
flick! digital 2021年9月号 Vol.119
https://peacs.net/magazines-books/flick-906/
デジタル超整理術リモートワーク編
https://funq.jp/flick/magazines/20164/