ぺんちゃん日記

食と歴史と IT と。 Web の旅人ぺんじろうが好奇心赴くままに彷徨います 。

ドラゴンスピーチは思ったように音声入力できない

ドラゴンスピーチの小さな不満シリーズ。

ジャストシステム ドラゴンスピーチ11J 通常版 ヘッドセットマイク付

ドラゴンスピーチの特性として、短い文章は誤変換しやすいです。それと、最初の音を取りこぼしやすいです。発音のうち、ドラゴンはいくつかの音を苦手にしているようです。このような理由から、ドラゴンが文脈では判断しづらいような、短くて苦手な文章を入力するとき、苦戦することが多々あります。

小さいことにこだわらないなら、音を拾いやすい別の単語に変えたり、わざと文章を長くしたり、文章の構成を変えたりなど、様々な方法で問題を回避できます。ここら辺でこだわりを発揮すると、苦しい思いをします。小さな違いが文学的に大きな違いとなる場合などです。

例えば「量と質」と入力したいのに、 「ようと質」と認識されてしまったらどうしましょう? 「よう」の部分を選択して修正することになるでしょう。しかし、 「量」は音が短すぎて文脈で判断が難しいので、ドラゴンも簡単には認識してくれません。実はこの場合も「質と量」と順序を変えればいとも簡単に認識してくれるのですが、 「量」を前に持ってきて強調したいとすると困ります。もちろん根気よく修正することで、なじんでくるでしょうが、その努力よりも自分のドラゴンに合わせた方が簡単なのですよね。地道な修正は時間と体力を必要としますから。

このような感じにドラゴンと喧嘩しないで上手に付き合えばわりと便利に使えるのですが、それと引き換えに、自分らしさを損なうことを突きつけられます。自分らしい文章ではなく、ドラゴンらしいリズムのテキストを書いていくことになるでしょう。自分なりの文章術を磨きあげた人にとっては受け入れがたい部分かもしれません。

競合製品のアミボイスには、これまでに自分が書き連ねてきたテキストを読み込んで、その人なりの文章の癖を覚えこませる機能がありましたね。あの機能があれば、地道な作業しなくても、これまでの蓄積を残さずに活用できます。ドラゴンスピーチにも取り入れられないかなぁ。

エムシーツー 音声認識ソフト AmiVoice SP2 USBマイク付

エムシーツー 音声認識ソフト AmiVoice SP2 USBマイク付

少し話はそれますが、話し始めの「あー」 「えー」を除去する機能が強すぎて余計な苦労をすることが多いです。 「絵を描く」や「ヘッダ」などはなかなか認識してくれません。この機能、ほとんど意味がないじゃないかな?少なくとも私は、話し始めのときに、そのような前置きを入れることはありません。もちろん人によって違うので、どの程度の強さで除去するかをオプションで設定できるといいんですけどね。「絵」については、今でも地獄じゃ。マンガ作成ツールを開発しているので、ドキュメントにはその辺のワードがぎっしり使われますから。

ぺったんRの主な用途

ぺったんRを上手に使えば、絵心がなくても、自分だけのオリジナルストーリーを漫画にできる。

そう考えていた時代が僕にもありました。

まぁもちろん手間さえかければ絵心がなくても漫画はできるのですが、きっちりしたストーリー展開の漫画を創作するのはそれなりに骨が折れるでしょう。たとえ頭の中にはっきりとした映像がイメージできていても、それに適合した素材を探すのは難しいかもしれません。臨場感を醸し出すにはしっかりした背景を設定しなければなりません。説得力を出すには人物の表情をセリフとピッタリ一致させなければなりません。ストーリーが長編になるほどこれに耐えうる素材を選択することが難しくなってきますので、絵師の方々が相当頑張らないと成立しないことになります。これを解消するには自分で素材を作るよりなく、それができるならぺったんRの仕組みそのものが必要ないことになります。これではぺったんRの真価というべき「絵師と作家の分業」を発揮できないことになります。思い通りの漫画を作るサービスとしては、素材の質と量が一定のラインを越えなければならないでしょう。そこを超えるのはプログラマの力では及ばないので、私としてはそこに向けて力を注ぐべきではないのだと思う次第です。

では、ぺったんRは発想としてイマイチだったのか? といえば、そうではないと思います。

絵本の挿絵のように、ブログのイメージ写真のように、テキストコンテンツの補助的なコンテンツとして利用すれば十分に価値を提供できるのではないでしょうか?漫画表現を使って話の流れにメリハリをつけたり、間を作って気分を変えたり、目線を変えて読者の集中力を損なわないように配慮できれば受け入れられる要素はあると思います。

いずれは、こういう記事もぺったんRを導入して書いてみたいものです。

ドラゴンスピーチは動作が重く不安定

ドラゴンスピーチを使うようになって、テキスト入力ほとんどはこのソフトで行うようになりました。それまではGoogle IMEなどの補完機能のついた入力ソフトを利用してきましたが、これらを使う事はほとんどありません。新しい単語を辞書登録するために使う程度だと思います。存分に利用しているものの、だからといってドラゴンスピーチに満足しているかと言うとそうでもありません。ドラゴンスピーチのレビューのうち、よく聞くのが動作の重さと安定感ですが、やはり私もそこに少々不満があります。そこで今回は、どの程度、どのように問題があるのか、それをどのように回避しているのかを書いていきたいと思います。

ジャストシステム ドラゴンスピーチ11J 通常版 ヘッドセットマイク付

ドラゴンスピーチは起動が遅い

Yes 。ドラゴンスピーチは起動と終了にそれなりの時間を要します。プログラム開発に使うマシンなので、目に見えて貧弱なマシンではありませんが、それでも十秒程度の時間はかかります。私は滅多にマシンをシャットダウンしないので、いちど起動すれば悩まされる事はありませんが、マメにシャットダウンする人には辛いかもしれません。あと、ドラゴンスピーチがクラッシュした後で再起動のために待たされるのは割とストレスです。

ドラゴンスピーチは動作が重い

Yes 。しゃべったそばからテキストに変換されて出てくると言うほどキビキビはしていません。話し終わってから1秒程度、間が開きます。話し終わるまで変換されませんから、自分の話がどのようにテキストになるかを途中で確認することはできません。確認するには、いちど話を止めて変換結果を確認する必要があるのです。ですから、頭の中のイメージを次々に長い長い文章にしていくタイプの人には使い辛いかもしれません。これはソフトの動作速度ではなく、変換方式の問題なので、コンピュータを新しく買い換えても解決しません。私の場合は、それほど頭の動きは早くないのでぽつりぽつりと入力しているので問題になることはありません。

ドラゴンエディタは動作が重い

Yes 。千文字を超えたあたりから徐々に動作が重くなってきます。特にキーボードの矢印キーを使ってキャレットを操作する動作が目に見えて遅くなります。あまりに長い文章を扱うと動作も不安定になるのでお勧めできません。私の場合は段落一つ分を入力したら修正して、他のテキストエディタにコピペします。どちらかといえば能率が上がらないやり方ですが、もっさり動いた後にクラッシュしてデータを失うよりは効率いいです。

ドラゴンスピーチは動作が不安定

Yes 。ドラゴンスピーチで入力していると、突然、ドラゴンがbusy状態のまま反応しなくなることがあります。どうもシステムリソースが不足してバックグラウンドで何かをしているっぽいのですが、その間(1分程度から数分まで)入力できません。どのタイミングでこの状態になるか、ユーザからは知る事はできません。もちろん回避することもできません。頭の中の言葉をこぼさないようにしたいのに、こんな状態になってしまうと使い物になりません。私の場合、頭の中から溢れるほどたくさんの言葉をストックできないので、どうせドラゴンが待機状態であっても大したことを入力できないだろうと割り切っています。締め切り前で焦っている人にとってはたまったもんじゃないでしょうね。

ドラゴンエディタはよく落ちる

Yes 。ドラゴンはbusy状態のままクラッシュして帰ってこないことがあります。数分待たされて、結局クラッシュとか最悪です。クラッシュすると入力中のテキストは帰ってこないので、特に長文をこねくりまわしていたときには悲しいことになります。いきなり落ちることもありますが、余裕を持って落ちるときは、スクリーンショットを撮って画像にして救出します。たとえ画像であっても、それを見ながら読み上げればかなり楽になります。スクリーンショットは、キーボードの print screenキーで撮ることができます。キーを押しても見た目に反応はありませんが、ペイントツールなどで貼付ければ確認できます。

ドラゴンエディタはキーボードを操作すると格段に不安定になります。大抵のクラッシュはキーボードを押した瞬間におきます。音声入力とマウス操作を行っている限りは案外落ちません。細かい修正はキーボードを使うのが簡単なのですが、うまくいかないものですね。誤変換が起きるときは大抵文節の区切りがおかしいです。ドラゴンが単語を正しく認識できず、一つの単語を複数の言葉と認識したり、それとは逆に複数の言葉を一つの単語に認識してしまったりするわけです。認識が間違っているので、マウスで選択しても、話し手が思ったようには選択してくれません。そこでキーボードを使うわけですが、キー選択では、ドラゴンの意向を無視して一文字単位で選択できてしまうので、ドラゴンに怒られるといった流れなのだと思います。 shiftキーやctrlキーで落ちた経験はないので、おそらくそういったことが思います。いずれにせよ、キーボードによる操作を行う場合には細心の注意を払った方が良いでしょう。

もう一つ、ドラゴンエディタが落ちる必殺パターンがありまして、よそのエディタからテキストをコピペしてきた場合に、よく落ちます。これはドラゴンが管理していないデータを持ってくるわけですから、まぁ事情はわかります。普通のテキストを持ってくる限りは、そう簡単に落ちたりがないのですが、記号まじりのテキストだと結構ヤバイです。私の場合、プログラミング関係の話題を入力することが大半なので、数字と記号が混じる事は避けられません。結構痛いのですが、何とかかわしています。プログラム部分はどちらにせよ、プログラムのファイルから持ってくるものなので切り離せます。名称なのは「それ」や「これ」で代用しておいて、後から個別にコピペしています。それほどナーバスになることもないように思いますが、クラッシュするとそれなりに面倒なので遠回りしています。

ドラゴンスピーチは使い物にならない。

No 。弱点を押さえておけば、キーボード入力よりもよっぽど早く入力できます。私の場合は入力装置よりも出力側の方が断然ボトルネックになっています。次々と言葉があふれだす人を除けば、大抵の場合、人間側の発生(発声)が負けることになるでしょう。ただし、テキストの品質に関しては話は別です。それはまた別の機会にします。

ぺったんRのクレジットの取り扱いについて

「ボケて」の著作権の取り扱いについて前回記事にしました。私はボケてを批判したいわけではありません。ぺったんRも類似サービスにあたるので、何か書いておかなければならないと考えたからです。

「ボケて」は面白いサービスだなぁと感心していました。たまにTwitterのタイムラインに混ざってくるんですよね。ぺったんRのように、わざわざスタイルを調整して漫画的に表示しなくても、十分に面白みのある表現ができるのだと認識していたわけです。

それで先日このブログで先行事例として紹介するために、改めてサービスを試してみたわけですよ。その結果、投稿コンテンツそのものは面白いのだけど、著作権的にヤバそうなところがあるなと引っ掛かりを覚えました。例えば、アニメのキャプチャ画像がそのまんま投稿されているんですよ。画像の下にクレジット表示は当然なし。そのかわり投稿者のアカウントが表示され、その名目は 「投稿者」ではなく「お題」とされています。著作者がないがしろにされた上、責任が非常に曖昧になっているんですよね。著作者がないがしろにされた上、責任が非常に曖昧になっているんですよね。そこら辺が非常に残念です。

私はこのサービス、てっきりcreative commonsの画像にコメントをつけていると思ってたんですよ。そのようなライセンスの画像から、きちんとクレジット表示をしていれば問題ないと思うんです(肖像権などは別として) 。ぺったんRでも同じようなことができますが、こちらは画像とセリフが重なってしまうため、 creative commons上では「改変」扱いになってしまうのですね。そのため、ぺったんRでは、 creative commonsの画像を素材として扱う事は推奨できません。セリフを人物の口もとから出さなくても、十分に面白い上にライセンスの問題もクリアできると言う割り切り方に「やられた」と感心したわけです。運用さえしっかりしていれば健全なサービスになれるのに、あまりにももったいない。

まぁ、それは余談として、ぺったんRでは、そこをクリアするためにわざわざライセンスを策定して一から素材を集めることに挑戦しているわけです。そんな大仰なものを立ち上げたところで、果たしてコンテンツは増えるのか?おそらく自縄自縛、なかなか素材が集まらない状態に陥るだろうと予想しておりますが、問題をいつまでも放置しておくわけにもいきません。責任者は誰であるのか、はっきり表示する。当たり前のことが当たり前のようにできる仕組み。やらないよりはやった方がマシでしょう。

さて、本題ですが、ぺったんRがクレジットを表示する仕組みは次のようになっています。

画像の提供者(ぺったんRでは絵師といいます)は画像を投稿します。この投稿されたばかりの画像は「原画」と言って、一般には公開されません。この原画に対して、絵師がライセンスを設定することで「素材」として公開され、漫画素材として活用できるようになります。 「素材」が表示される時、ぺったんRは必ずクレジットを表示します。クレジットの形状はライセンスによって変わります。

f:id:yasushiito:20140419102247p:plain

ちなみに、画像のMD5が同時に表示されるので、これを検索することで著作者が自分の素材の利用状況を調べることもできます。

まぁこんな感じでぺったんRはやっていきます。うまくいけばいいですけど。

面白ければ著作権を無視して良いという時代は終わってるよね

インターネットを黎明期から楽しんできたたおじさんの意見としては、タイトルの通りです。終わっているのは日本社会ではなく、時の流れの方です。ちなみに今回の話題の震源地はhttp://headlines.yahoo.co.jp/hl?a=20140416-00001406-bengocom-sociです。

終わったといえるのは始まった時があったわけで、かつてはそれが許されると考えられていた時代があったわけです。もちろん許されていたわけではないので、 「俺たちも若い頃は無茶やったよ。だけどやっぱりこれはダメだ。 」のようなおじさんの武勇伝でバツの悪い話に間違いは無いのですが… 。

2004から2008くらいだったでしょうか。 Webサービスの開発コストが飛躍的に小さくなって「マッシュアップ」 「ひとりで作るWebサービス」がもてはやされた時代があったのです。インターネットで何ができるか?試行錯誤は繰り返され、様々なウェブサービスが生み出されました。画期的なアイディアを形にすることで社会を便利・面白くできて、自分も有名になれるからこそ、みんなが夢中になったのです。当然この時代の価値観の優先順位は「面白い」 「便利」がメインで、遵法は低いところにありました。むしろ法律は発展のスピードを邪魔する打倒すべき存在であったといえます。何しろ、個人のような小さい単位で開発しているので、コンテンツまで用意する体力はありません。真面目にやっていたらスピードで負けてしまうので、やったもん勝ちのルールだったのです。腕のいい開発者はとりあえず作ってみて人気が出たら大手に売りつけて脱出する。大手は良いアイディアのサービスを見つけて買い取り、法的対処をする。そんな感じに回っていました。

良いアイディアが枯渇し始め、成功したサービスが法的な問題をクリアし始めた時期があり、この線を越えたときに「終わった」のです。その時期は人によって感じ方が違うと思います。私にとっては2008年頃がそれに当たります。インターネットをフロンティアたちの楽園と考える熱い人達から見れば、まだまだ「チャレンジすべき舞台」なんだと思います。その辺、温度差はありますが、私は趣旨替えしました。

ということでぺったんRの前身である「ぺったん」の再稼動の話が上がった時に、私は反対する側に回りました。時代はすでに移っているので、あの時代のノリを受け入れてもらうのは難しいと判断したわけです。そこで、権利関係を正しく処理できる仕組みを追加して起動しよう、とした結果がぺったんRなのです。

漫画と漫画的表現の違い

ぺったんRの目的はwebで漫画を扱う(表示する)ことです。そこで問題になるのが「漫画とはなんぞや」ということです。漫画はこれまでの歴史の中で進化を積み重ね、もはやその表現技法は芸術の域にまで達しています。ひとくちに「漫画」といっても、原始的な物から先進的なものまで幅広くあるのです。漫画というキーワードでイメージするそれは、人それぞれに違います。

そこで私は、ぺったんRを紹介するとき、「漫画」と強く断定した形で使いません。ぺったんRはWebに親和性の高い状態で漫画を取り扱います。webニュースが新聞記事のレイアウトと同じでないように、販売サイトのデザインが折り込みチラシのレイアウトと同じでないように、ぺったんRが表現する漫画と製本された漫画も同じではありません。ぺったんRの表現技法は紙面の中で培われてきたそれとは明らかに違います。 多くの人が慣れ親しんだ紙面の漫画と比べてしまえば「退化」したと言わざるを得ない面もあるでしょう。特に目の肥えた日本人には「漫画」としては受け入れられないかもしれません。ぺったんRが「漫画」ではなく「漫画的」であるのはそれが故です。しかし、漫画を価値のあるコンテンツとしてwebに載せるためには、この変化をどこかで受け入れなければならないのではないでしょうか? 日本がこれまで育て上げた漫画文化をリセットするのはもったいない話ですが、 webでの漫画表現は紙面とは別なのですから、仕方ありません。

では、ぺったんRが取り扱う漫画的表現とはどんなものでしょう?

簡単に言えば「画像」と「テキスト」の集合です。このアプローチはすでに様々なサイトで実践されています。ボケてオモコロ特集などが良い例でしょう。これらのサイトは画像とテキストが区別されて配置されていますが、その気になればスタイルシートで表示位置を修正して画像とテキストを重ねる事は可能です。マンガ特有の「フキダシ」をテキストの背景として重ねれば、より漫画らしい見栄えとなるでしょう。ぺったんRはその辺に違いがあります。例として、次のスクリーンショットをあげておきます。

f:id:yasushiito:20140413164709p:plain

これはスクリーンショットなので、一枚の画像ファイルですが、もちろん、ぺったんRが出力する内容はただのimgタグではありません。ペンギンの画像とフキダシの画像がそれぞれのimgタグで出力され、セリフの部分はテキストで出力されます。オフィスツールでオブジェクトを重ねたイメージに近いでしょうか。ぺったんRは、それをHTMLで出力するツールといってよいかもしれません。

f:id:yasushiito:20140413164813p:plain

このペンギンのように、漫画に使うための画像をぺったんRでは「素材」といいます。素材はいちど登録してしまえば何度でも使い回せます。ソーシャルパワーを利用すれば、加速度的にコンテンツを作成できるでしょう。

ドラゴンスピーチで単語リストをインポートしてみた(再掲)

この記事は旧ブログからの転載です。記事にしたのは、 1年以上の過去のもので、内容は古くなっております。

先日は単語の追加機能で単語登録しました。確かに単語の追加機能を使えば、一つ一つの単語登録することはできますが、既に作成してある辞書使いたい。これは、過去に使っていたIMEなどの辞書をもう一度再利用したいという場合、あるいはインターネットから公開されている辞書をダウンロードして修正して使いたい。また、全く新規ではあるけれども、たくさんの単語があるので一気にまとめて登録してしまいたい。このような状況はあるかと思います。このような場合、単語リストのインポート機能を使います。このダイアログから単語をまとめてインポートできますが、その前に、単語リストのファイルを作成しなければなりません。まずはその単語リストの作り方から入りたいと思います。単語リストはテキストファイルで作成します。テキストファイルを作るにはお好みの エディタを使えばよろしいかと思いますが、エディタを持っていない方は、メモ帳使えばいいでしょう。今回はすでに単語リストの雛形が作成してあります。

@Version=Plato-UTF8
良渚文化\\リョウショブンカ
龍山文化\\リュウザンブンカ

これが単語リストの形です。先頭の行に何やら難しそうな記号が並んでいますが、これはドラゴンスピーチがファイルを読み込むためのおまじないのよう なものなので、ただ、これをコピーして書いておけばいいでしょう。ドラゴンスピーチのヘルプファイルにはそう書いてあったので、ここでは同じように書いておきました。 次のニ行目からが単語ファイルの本体です。単語登録と同じように、左側に漢字を右側にカタカナを書きます。それを2つの¥で区切ります。ドラゴンスピーチ のヘルプファイルには\ 2つを重ねて区切るように書いてありますが、おそらく皆さんのキーボードにはこの\は探してもないかと思います。日本語環境では\は¥で表されますので、 helpファイルには\が書いてありますが、 ¥を使ってください。そして、単語ごとに改行で区切ります。今回は登録したい単語が2つだけなので2行になっていますが、単語がたくさんある場合、行数が増えるかと思います。

単語リストの書き方がわかったところで、これをファイルとして保存して、実際にインポートしたいと思います。ファイルを保存するときに注意するの は、文字コードです。ドラゴンスピーチでは、単語リストのファイルをutf8という文字コードで保存します。この文字コードを選択するには保存ダイアログの文字コードから選びます。これで単語リストのファイルは作成されました。単語リストのインポートを使ってインポートしたいと思います。これで先ほど登録した2つの単語がでてくるようになるでしょう。

龍山文化
良渚文化

登録されましたね。たったこれだけのことですが、専門用語などの辞書は大抵はATOK MS-IMEで作成されているので、それを利用できるのは大きいかと思います。