【 日本語 対応】 Amazon Transcribe で 文字起こし を早速試してみた

Amazon Transcribeで日本語の文字起こしをしてみた

薬機法・景品表示法・医療法 専門コピーライター・コンサルタントの江良公宏です。

ライターのシゴトにはインタビューがありますし、ランディングページ・チラシなどの制作においても打ち合わせをして詳細を詰めていく場面が多々あります。

打ち合わせであればその場でパソコン・ノートにメモをしていくことも可能ですが、インタビューとなるとなかなかそうもいかないケースがあります。

そういった場合、動画・音声から文字起こしをするのですが・・・
これが私にとってはとーーーーーっても苦痛なわけです・・・。

今回、機械学習で文字起こしをする『Amazon Transcribe』が日本語に対応したということなので早速試してみました。

現在は『Googleドキュメント』+『音声入力』

Googleドキュメント+音声入力で文字起こし

Amazon Transcribeの説明に入る前に、現在はどうしているのかというと『Googleドキュメント』+『音声入力』を使っています。

イヤホンやヘッドホンで音声を聞きながら自分が同じようにしゃべったり、ポイントをしゃべっていったりするという使い方です。

MicrosoftのVideo Indexerや他の商品・サービスもいろいろと使ってきたのですが、自分の用途としてはいまいちだったという経緯があります。

このやり方だと、だいたい等速ぐらいで文字起こしができるので、ほぼ実時間と同等の手間で動画・音声が文字データになります。

Googleドキュメントの音声入力はかなり精度高いですが、注意点としては、やはり専門用語は苦手なのでその部分は後から修正の必要があります。

あとはマイク。プラシーボかもしれないですが、マイクを変えてから認識の精度が上がったような気がします。あくまでも『気がします』。使用しているマイクは『SONY エレクトレットコンデンサーマイクロホン PCV80U ECM-PCV80U』です。

 Amazon Transcribeの使い方:準備編

では、Amazon Transcribeの実際の使い方です。途中で私がはまったポイントがあるので、わかりやすいように少し順序を並べ替えて解説していきます。

①AWSアカウントを作成する

AWSアカウント作成方法

AWSアカウントの作成についてはわざわざ説明しなくともAmazonがしっかり説明してくれているので登録ページをご覧ください。

https://aws.amazon.com/jp/register-flow/

②S3バケットを作成する

Amazon Transcribeで使用するデータは『S3バケット』に置くよう指示があるので、まずはS3バケットを作成します。

AWSはサービスがたくさんあるので、検索窓から『S3』を検索します。そして、バケットの作成。

Amazon S3バケット

S3バケットは通常50TBまでは「1GBあたり0.025USD」程度の料金がかかるのですが、新規登録される方は「5GBまで12ヶ月間無料」になっているようです。

Amazon AWS S3バケット作成

AWS 無料枠

次にバケットを作成していくのですが、ここで一つはまりました。

国内に住んでいるので当然のように「東京リージョン」で作成したのですが・・・
Amazon TranscribeのJOBの設定を行っていると「us-west-2」リージョンじゃないとダメ!と言われたんです。

というわけで、リージョンは『米国東部(オハイオ)』を選択してください。

※ただし、自分の設定が悪い可能性大です。特に気にならないので検証していないです。

(追記)おそらくですが、アカウントの設定が「米国東部(オハイオ)」になっていたからっぽいです。。。お騒がせしました。ということで、アカウントの右上のリージョンとS3バケットのリージョンは合わせましょうという話でした。

Amazon TranscribeのS3バケット作成時の注意

後は特にオプションの設定はせずに作成。

Amazon Transcribe用S3バケット作成

③S3バケットにファイルをアップロードする

特に難しいことはないです。普通にアップロードするだけです。

後ほど『S3バケット名』と『ファイル名』は使うのでメモしておくと便利です。

Amazon Transcribe用S3バケット アップロード

Amazon Transcribeの使い方:実際の文字起こし

準備ができたらいよいよAmazon Transcribeでの文字起こしです。

①Amazon TranscribeでJOBを作成する

S3バケットの時と同じようにサービス一覧からAmazon Transcribeを探してきて、Amazon Transcribeを起動。

Amazon Transcribe説明画面

最初に『Real-time transcription』が開きますが、まだこれは日本語非対応なのと、私の用途では必要ないので割愛。『Transcription jobs』へ移動します。

Amazon Transcribe JOB作成

Amazon Transcribe JOB設定

[Name]
JOB名。英数字で適当な名前で。
[Language]
[Japanese(Japan)]を選択。

Amazon Transcribe JOB設定

[Input file location on S3]
ここで先ほどメモした『S3バケット名』と『ファイル名』を記入します。

Formatなどは書いてあるようにオプションなので記入しなくて大丈夫です。

今回は使わなかったのですが、[Custom vocabulary – optional]を使えばおそらく認識精度上がると思います。

例えば、このあと実例出しますが、私の場合「薬機法(薬機法)」などといった専門用語が頻出で出てくるので、そういったものを事前に登録しておくイメージでしょうか。

(2019/11/25追記)
Custom vocabularyですが、まだ日本語は対応していないようです。
https://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/how-vocabulary.html#charsets

Amazon Transcribe JOB設定

ここは特にいじりません。そのまま[Create]ボタンをポチッ!

②JOBが終わるまで待つ

Amazon Transcribe JOB詳細

2枚目はJOB終了後の画面です。

動画:3分16秒
かかった時間:2分8秒

動画が短いこととまだ負荷が高くないという可能性はありますが、実時間以上の早さで処理が可能なようです。

③文字起こしの結果を確認する

Amazon Transcribe JOB結果

さて、一番大切なのがここ!

結果から言うと、7割ぐらい認識できているかなという感じでした。一般的な用語は問題なく拾ってくれますが、固有名詞のご認識は多いです。

頻出の固有名詞や専門用語はやはり[Custom vocabulary – optional]を使って事前に登録しておくと良いのかもしれません。

結果画面でPreviewが見られるのですが、単語が動画・音声のどの位置にあって、[Condidence](信頼性)がどれぐらいなのかも表示してくれています。

短時間の動画・音声ならさほど恩恵ないかもですが、長時間の動画だとどの位置で話しているかがわかるというのはライターにとってはありがたい機能!

実際の結果については以下をご確認ください。

実際にAmazon Transcribeで文字起こしした結果がこちら

実際の結果がこちらです。

LINEで配信した動画を使用してみたので、音声だけでなく後ろに小さめのBGMが含まれています。BGMなかったらもう少し認識率上がるのかも・・・?

使用した動画

Amazon Transcribeの認識結果

こんばんは リアル プロ または 代表 の 寺田 の 広 です 今日 ちょっと 大阪 から 移動 し て おり まし て 配信 が 遅く なっ て しまい まし た 申し訳 ござい ませ ん でし た 先日 の 土曜日 が 伝え し て おり ます よう に 日本 化粧 品 検定 協会 様 主催 の お 勧め られ た 養成 講座 で こちら の 方 に です ね 私 や 気泡 時 商品 の 高 さ で 講座 の 講師 として 登壇 し て おり まし た 前回 六月 で あっ た か と 思う ん です けど も そん 時 から 少し だけ 内容 ブラッシュ アップ さ せ て 登壇 し た です が ビデオ より です ね わかり やすかっ た です だ とか すごく 役に立つ 内容 でし た という 声 を スタッフ の 方 は もちろん 自己 先 の 方 から も です ね 多く いただい て 講師 として は 非常 に ありがたい な と 感じ て いる ところ で ござい ます 特に です ね やはり その 実 部 を 既に 行なっ て いらっしゃる 方 にとって は やはり 最近 重点的 お伝え し て おり ます 言い替え です ね この 言い替え 結局 いろんな 文章 チェック する ん だ けども どうも 言い替え て いい か わから ない です って いう 声 を 非常 に 多く いただき まし た ま その 点 で です ね 意外 な 表現 なんか も ま こう やっ て え 単に 言い替え て くん じゃ なく て こういう 考え かけ て 言い替え て いく ん です よ という ロジック から やっ て おり まし た ので そこ が 非常 に 受け た よう です この 言い替え 表現 について です ね 言い替え の 考え方 について 勉強 会 で も 一部 お伝え し て いる 内容 に なる ん です が 期間 限定 で です ね この ライン で 少し だけ ご 紹介 しよ う か な と 思っ て おり ます 実際 皆さん に 配信 する って なっ た 時 に ま こう いう 通常 の 配信 として 配信 する の が ちょっと 特典 的 な ね 感じ で 配信 する の か ま 決め かね て いる です が まだ 決まっ たら この 動画 の 中 で お伝え さ せ て いただき ます ので 是非 です ね 動画 前 に ちょっと 確認 し て 頂けれ ば と 思い ます で 今日 は です ね コスメ の 牽制 行動 データー 質問 の 一部 を ご 紹介 し たい と 思い ます ちょうど その 口座 終わっ た 時 です ね ま 休憩 時間 が ある ので その 時 に 質問 し て くださる 方 が ま 断面 買い出し だっ た ん です けども その 中 の 一 人 です ね 多分 抜粋 先日 アルマン テキスト を 勉強 し て い た です と で その 中 で 制御 って 例えば 譜面 に 聞く とか うつ に 聞く と か ま 色んな 効果 が 書い て ある と 思う ん です けど それで や 基本 的 に 書い ちゃっ た 目立た ない よう な ん です か っていう 質問 いただき まし た で え? この 場合 の 回答 な ん? です けれども テキスト っていう 形 な ので 全く 問題 ない という こと に なり ます え という の も この ライン で は 散々 を 指し て いる こと に なり ます が 広告 に 当たる か どう か って いう の は 三 つ 余計 が ござい まし て 一つ が 誘因 性 です ね お客様 に 商品 を 買わ せる 人 が ある か どう か で 二つ 目 が 特定 の 商品 年 LENCE] が 出 て いる か どう か 三つ 目 が 一般 性 や 一般 の 方 が 一般 性 だっ た 人気 性 です ね 一般 の 方 が 認知 的 状態 に ある か? という こと サンピア 全て 満たす もの が 広告 と さ れ て い ます そういった 意味 で アルマ 検定 の テキスト っていう の は あくまで も その 声優 の 効果 を 騙っ た だけ で あっ て 特典 商品 を 紹介 し てる わけ じゃ ない ので 広告 に 当たら ない という 形 に なり ます ので 制限 の 効果 を 書い て も 問題 に なら ない という こと に なり ます え が です ね あのー やっぱ 気泡 とか 勉強 し て いく と こういう 広告 の 要件 的 な 部分 が 抜け て しまう こと が 多い ので 是非 です ね この 広告 の 意見 必ず 最初 に 言っ て も そもそも これ は 広告 な の か? どう か って の チェック を する よう に する と よい の で は ない でしょ う か はい でも です ね 明日 以降 も 基本 や 今日 コピーライティング そして 私 の 哲学 的な 部分 を さ せ て まいり ます ので ぜひ 次回 を ご覧 ください また 違い を 愛し 場所

(参考)Microsoft Video Indexerの認識結果

試しにと思ってやってみたら初期より改善されたのか割と同じぐらいの認識になっている気がします。

Video Indexer 認識結果

こんばんはリアルhpまたは代表の寺圭祐です。ちょっと大阪から移動しておりまして配信が遅くなってしまいました申し訳ございませんでした。
先日の土曜日、既に発売しておりますように、日本化粧品検定協会様主催のコスメライター養成講座こちらの方にですね。
私や気泡と化粧品の交差講座の講師として登壇しておりました。
前回6月になったと思うんですけど、その時は少しだけ内容をブラッシュアップで登壇したんですが、以前よりですね。
わかりやすかったですとかすごく役に立つ内容でしたという行為はスタッフの方はもちろん受講生の方からもですね。
多く頂いてポストした非常にありがたいなと感じているところでございます。
すごいですねはいその実務を既に行っていらっしゃる方にとってはやはり最近重点的にお伝えしております。言い換えですね。いいかいが、結局、いろんな文書チェックするんだけど、どこに行くか分からないんですっていう非常に多くいただきました。その点ですね。
言い換えの表現なんかもこうやってたんに行くんじゃなくてこういう考え方で生きて行くんですよというロジックからやっておりましたので、そこが非常に受けたようです。
この言い換え表現についてですね。いいかいの考え方について勉強会でも一部をお伝えしている内容になるんですが。
期間限定でですね。このラインで少しだけご紹介しようかなと思っております。
実際、皆さんに配信するってなった時に、こういう通常の配信として配信するのかちょっと特典的な感じで配信するのか決めかねているんですが、また、決まったら、この動画の中で四台させていただきますので、是非ですね。
動画前にちょっと確認していただければと思います。勉強ですね。コスメの情勢コードデータは質問の一部をご紹介したいと思います。1度その講座が終わった後に休憩時間が有るので、その時に質問して下さる方が。
画面がいらっしゃったんですけどもその中のお一人ですね。
つい先日あるのテキストを勉強していたんですねとその中で声優って例えば不眠に効くとかうつに効くとか、まあいろんな効果が書いてあると思うんですけど、それって焼き法的に書いてダメだったら内容なんですかという質問を頂きましたでこの場合の回答なんですけど、テキストという形なので、全く問題ないということになりますというのもこの会では存在していることになりますが、広告に当たるかどうかというのは、ミッツ余計なございました。
一つが陰性ですね。お客様に商品を買わせる意図があるかどうか。二つ名が特定の商品名が出ているかどうかって三つ目が一般性や一般の方が一般的に綺麗ですね。
一般の会社できる状態になるかということを言われて見せたのが広告塔されています。
そういう意味で、アルバイトというのはあくまでもその声優の効果を語っただけであって特定の商品を紹介しているわけじゃないので、広告に当たらないという形になりますので、声優の効果を書いても問題にならないということになります。
意外とですね。
地方とか勉強して行くとこういう広告な要件的な部分が抜けてしまうことが多いので、是非ですね。
この広告において必ず最初にそもそもこれは酷なのかどうかってのチェックをするようにすると、良いのではないでしょうか入ってですね。
明日以降も基本野球copyrightいいんですよ。私は哲学的な部分を指してまいりますので、ぜひ次回はご覧ください。また次回お会いしましょう。

Amazon Transcribeの料金

Amazon Transcribe 価格

Amazon Transcribeの価格についてはこちらに記載がありますが、「1 秒あたり 0.0004USD(1ドル109円換算で0.436円)」とかなり安価です。インタビューや打ち合わせだと2時間やることも多いですが、それでも300円ちょっと。

100%の認識ではないですが、この値段で文字起こしされるのであれば私にとっては十分な費用対効果があります。

しかも、無料利用枠があり、利用開始から12ヶ月間は毎月60分無料となっています。

これは使わない手はない!

まとめ

Amazon Transcribeが日本語に対応したと言うことで完全に自分の備忘録的にまとめてみました。

結論を言えば、無料利用枠もありますし、可能な限り利用していこうと思います。

もちろん、こういったサービスあるあるで録画・録音されている音声の品質によって大きな差が出ることになるだろうというのは予想ができます。だからこそマイクの性能はある程度必要になるかなと思います。

とはいえ、薬機法コピーライター養成講座で録画しているファイルが何百時間とあるので、それが少しでも文字化できたらという淡い期待込めてます(^^)

ライターの方にとっては割と便利なサービスかと思うので、ぜひ利用してみてくださいませ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です