全盲の私はどうやってパソコンを使っているのか

突然だが、私は全盲の視覚障害者である。 視力を用いて情報を得ることはまったくできない。 そんな私は、どうやってパソコンを操作しているのか。 そんなことを、この記事でご紹介しようと思う。

はじめに

私自身、自分が全盲であることを、折に触れて書いたり喋ったりしている。 そんなとき、「ではどうやってパソコンを使うのですか」という質問をいただくことがある。 このテーマについては、いろいろな人が、いろいろな所で紹介している。 しかし、私のブログに、私自身の言葉で書くことには、それなりに意義があるかもしれない。

ということで、この記事では、「私がどうやってパソコンを使っているのか」という疑問に答えるべく、いろいろと書いてみようと思う。

視覚障害者が使うパソコン

世の中には、ごく限られた人たちが使うことを主に想定して開発された製品がある。 たとえば、私たちが使用する文字である「点字」に関係する製品がそうだ。

  • 点字を書くための道具
  • パソコンで点字のデータを作成するためのソフト
  • パソコンで作った点字データを紙に打ち出すための点字プリンター
  • 電子的に点字を表示する機械

これらは、基本的には点字を使用する視覚障害者か、視覚障害者のために点字で情報提供をしたいという人たちが購入し、利用することを想定している。 「何やら面白そうなので点字を勉強してみたい」という需要もあるかもしれないし、それはとても嬉しいことだ。 しかし、冷蔵庫や洗濯機といった家電製品のように、どこの家庭にもあるような、身近な製品ではないことは確かだろう。

では、パソコンについてはどうなのか。 視覚障害者のために開発された「視覚障害者向けパソコン」があるのだろうか。

私が知る限り、そのようなものは存在しない。 「視覚障害者向けのパソコン」という表現をされることもときどきあるが、このような表現は、大抵「普通のパソコンを、視覚障害者が使うためにカスタマイズしたもの」を意味する。

では、普通のパソコンを私たちが使うために必要な「カスタマイズ」とは何か。 これを説明するには、まず、私たちが普通のパソコンを使おうとしたときに直面する問題を考えなければならない。

私たちがパソコンを使おうとして困ること

全盲の私たちがパソコンを使おうとすると、大きく2つの問題に直面する。

1つ目は、パソコンを操作するためによく使われる「マウス」が、画面を見ることを前提に設計されているということだ。 パソコンを使おうとすると、「画面を見て目的のボタンを見付け、そこにマウスカーソルを合わせてクリックする」という動作を何度も繰り返すことになる。 画面を見ることができなければ、目的のボタンがどこにあるのかがわからない上に、マウスカーソルがどこにあるかすら確認できない。 これでは、実用的な操作は不可能である。

もう1つ、画面に書かれている内容を確認できないために、今何が起きているのかを把握できないという問題もある。 パソコンから提示される情報の多くは、文字や画像といった視覚情報である。 音が再生されることもあるが、それだけで十分な情報は得られない。 パソコンが正しく起動したのか、何かのエラーが出たのか、更新プログラムのインストール中なのかといったことすら、音だけでは判断しづらいのだ。

これらの問題をどうにかして解決しなければ、私たちがパソコンを使うことはできない。

解決策1:マウスの代わりにキーボードを使う

「マウスが使えない」という問題を解決するのは簡単だ。 つまり、マウスの代わりにキーボードを使えば良いのである。

本当にキーボードだけで操作できるのか、と疑問に思われる方もいらっしゃるかもしれない。 しかし、この記事をお読みの方の中にも、以下のような操作を日常的に多用している方がいらっしゃるのではないだろうか。

  • 複数の入力項目が並んでいる場合に、Tabキーで次の項目に移動できる
  • Ctrlキーを押しながらCでコピー、Xで切り取り、Vで貼り付け
  • AltキーとF4キーを一緒に押すとアプリを終了できる

このように、パソコンの基本的な機能は、キーボードのみで操作できるようになっている。 マウスで操作する場合と比べると効率が悪いこともあるが、いわゆる「ショートカットキー」を駆使するなどして、どうにかキーボードのみで操作しているのだ。

解決策2:スクリーンリーダーで画面に表示された内容を確認する

では、パソコンが文字や画像で提示した内容を、どうやって確認すれば良いか。 目の見える支援者に常時サポートをお願いするという方法もあるかもしれないが、それは現実的ではない。

そこで、「スクリーンリーダー」と呼ばれる支援技術を使用する。 スクリーンリーダーとは、画面に表示された文字情報を音声で読み上げたり、点字ディスプレイと呼ばれる装置を通じて点字で表示したりする技術だ。 実際のところ、点字ディスプレイが高価であることや、点字が読める視覚障害者がそれほど多くないことなどから、音声読み上げ機能を利用しているケースが多い。 そのため、「画面読み上げソフト」とも呼ばれている。

パソコンを操作していると、注目している(操作対象になっている)項目が動いたり、ある部分の表示内容が書き換えられたりと、さまざまな事象が発生する。 その都度、スクリーンリーダーは「今どのような状態か」を通知する。 また、スクリーンリーダーの種類によっては、画面内を上下左右に移動しながら、表示された内容を能動的に確認できる。

最近のパソコンには、OSの標準機能としてスクリーンリーダーが組み込まれている。

Windowsには「ナレーター」という機能があり、簡易的なスクリーンリーダーとして使用できる。 また、サードパーティーのスクリーンリーダーも数多く存在する。 無料で入手可能なNVDA、国内でもっとも多く利用されているPC-Talker、アメリカ製で高い読み上げ性能を誇るJAWS for Windowsなどが有名だ。

macOSには、VoiceOverという機能が搭載されている。 ChromeOSにも、ChromeVoxという機能が搭載されている。

現状、日本でパソコンを使用している視覚障害者の多くが、Windowsを使用している。 その要因として、スクリーンリーダーの選択肢が豊富であることと、現状のVoiceOverやChromeVoxには、日本語を扱う際に必要な機能が正しく実装されていないことが考えられる。

よくある質問

以上が、私たちがパソコンを使う方法である。 ところが、これだけでは具体的なイメージを持つことが難しいかもしれない。 ということで、この手の話をしているときによくいただく質問を取り上げつつ、掘り下げて解説してみよう。

文字入力はどうする?

キーボードを使って文字を入力すること自体は、目が見えなくても可能である。 ところが、問題は漢字変換(同音異義語の区別)だ。

たとえば、「きょう」と入力してSpaceキーを押したとしよう。 ほとんどの場合は「今日」が表示されるだろうが、「強」や「京」、ひらがなの「きょう」が表示される可能性もある。 仮に、スクリーンリーダーが「きょう」としか読み上げなければ、これらを区別することができない。

そこで、スクリーンリーダーには俗に「詳細読み」と呼ばれる機能がある。 漢字変換など、文字の種類を確実に区別しなければならないときに、文字の種類や漢字の成り立ち、その漢字が使われている熟語を用いて説明する機能だ。 たとえば、「いまのこん、にちようびのにち」と読み上げれば、「今日」という漢字であることを確実に確認できる。 ひらがなの「きょう」ならば、「ひらがな、きょう」と読み上げれば良い。 あるいは、「何も前置きしなければひらがなである」というルールを決めておいて、「きょう」とだけ発音しても良いだろう。

この「詳細読み」は、文字入力の他、カーソルがある文字を識別する際にも使われる。 つまり、「この単語はどんな漢字で書かれているのだろう」と思ったときに、左右矢印キーで1文字ずつ読ませれば、それぞれの文字の詳細を確認できるというわけだ。

ホームページ(Webページ)の読み上げは?

多くのスクリーンリーダーには、Webページを読むための特別なモードが用意されている。 具体的な名称や仕組みはスクリーンリーダーの種類によって違うのだが、基本的には「ページ全体の構造をスクリーンリーダーが解釈して、それをスクリーンリーダーの利用者がわかりやすい形式で提示する」というものだ。 この説明では、ページの内容が大きく書き換わってしまうような印象を受けるかもしれないが、実際はそうでもない。

Webページは主に「HTML」という言語で作られているが、これは、ページの内容を一続きの文章のような形式で表したものである。 「タグ」と呼ばれる特殊な文法を使って、ページの内容が書かれている。 タグには、見出しであることを表すもの、リンクであることとリンク先を表すものなどがある。 HTMLで書かれた順序と、実際に画面に表示されるレイアウトは、必ずしも一致しない。 前者を「論理的な構造」、後者を「見かけ上の構造」と表現すれば良いだろうか。

スクリーンリーダーは、この「論理的な構造」を解釈して読み上げる。 ページを画面に表示する際は上下左右にさまざまな項目が並んでいるが、スクリーンリーダーで読んだ場合、上から下へ向かって、一続きの文章であるかのように表示される。 仮に、見かけ上はページの最後に表示されている内容であっても、論理的に(HTMLの記述で)先頭付近に書かれていれば、スクリーンリーダーは最初に読んでしまう。

スクリーンリーダーは、ページの内容を読む際に、適宜以下のような処理をする。

  • 見出しを読む際は、そこが見出しであることと、見出しのレベル(6段階)を読み上げる
  • リンクを読む際は、「リンク」という言葉を前置きする
  • リスト(箇条書き)は、何項目のリストであるかを前置きする
  • 画像は、その画像に紐付いた代替テキスト(画像の代わりとなる、文章による説明)を読み上げる

これらは、ページの論理的な構造(HTML)が正しく定義されてはじめて機能する。 たとえば、見出しのつもりで文字を大きくしても、HTMLで「ここが見出しである」と定義されていなければ、スクリーンリーダーは普通のテキストと同じように読んでしまう。 さらに、画像に代替テキストが定義されていなければ、スクリーンリーダーは画像のファイル名を読み上げたり、何も読み上げなかったりといった問題を引き起こす。

スクリーンリーダーでWebページを快適に読むためには、そのページが正しく実装されていることが、何よりも重要なのだ。 さらに、アクセシビリティーの高いコンテンツが増加することで、私たちが得られる情報がより豊富になるのである。

スクリーンリーダーは何でも読める?

スクリーンリーダーで読むことができるのは、「文字(テキスト)」として表示された内容である。 前述の「アクセシビリティー」とも関連して、これは非常に重要なことだ。

たとえば、紙に書かれた文字を撮影して、それを画面上に表示させたとしよう。 人が見れば、そこに文字が書かれていることが認識できるだろう。 ところが、機械で見ると、それはただの「画像」でしかなく、スクリーンリーダーで読むこともできないのだ。

画像に写っている文字を認識してテキストに変換する「OCR」という技術は日々進化しており、これを使えば、画像に写っている文字をスクリーンリーダーで読める場合もある。 しかし、OCRという性格上、どうしても誤認識が発生し、文字の写り具合や大きさによっては正しく読めないことも多い。

そこで、前述の「代替テキスト」がとても重要になる。 つまり、何らかの情報を伝えている画像に、同じ情報を示すテキストを追加することで、画像そのものを見なくても情報にアクセスできるようにするということだ。 なお、代替テキストは普段は画面上に表示されないが、画像を表示させないような設定をしていると、代わりに表示されることがある。

スクリーンリーダーの「読み間違え」への対応は必要?

「今日」という漢字は、「きょう」とも、「こんにち」とも読むことができる。

  • 今日の天気
  • 今日の情報化社会

という言葉を見たとき、多くの場合、前者を「きょう」、後者を「こんにち」と読むだろう。 ところが、スクリーンリーダーではどちらも「きょう」になるかもしれないし、「こんにち」になるかもしれない。 そこで、

  • きょうの天気
  • こんにちの情報化社会

というように、正しく読まれるように表記することが必要かどうか、という話題だ。

いろいろな意見があるだろうが、私は、このような処理は不要、もっと言えば「やらない方が良い」と思っている。 一般的な漢字仮名交じり文を正しい発音に変換するのはスクリーンリーダーの役割であり、スクリーンリーダーの読み間違いを適宜補完しながら理解するのは利用者の役割だと考えているからだ。

前述したように、スクリーンリーダーには、書かれている文字を1文字ずつ確認し、使われている漢字などを調べる機能がある。 文章を読んだときに意味がわからなければ、使われている漢字を確認すれば良いのだ。 上記のような書き換えがなされていると、「正しい表記」を知ることができなくなる。

また、実際の読み方はスクリーンリーダーや音声エンジン(テキストを音に変換する仕組み)の種類によって変化するため、このような対応に限界があるという問題もある。 たとえば、A、Bという2種類のスクリーンリーダーがあったとしよう。 Aで読み間違いがなくなるように表記を変更しても、Bでは正しく読めないかもしれない。 あるいは、正しい漢字表記をすればBでは正しく読み上げるにもかかわらず、Aへの対応のために表記を変更した結果、意図しない読み方になってしまうことも十分あり得る。

もっとも、固有名詞など、特殊な読み方をする単語については、読み方を記載することが好ましい場合がある。 しかし、この場合であっても、漢字表記に続けて括弧内に読み方を記載するなど、本来の表記が明確にわかるようにしておくことは重要だろう。

絵文字や顔文字は読めるのか?

日常会話などで多用される絵文字や顔文字。 これらはスクリーンリーダーで読めるのか、という質問を受けることがある。

まずは絵文字について。 これは「スクリーンリーダーによっては読める」が今のところの答えになると思う。 コンピューターで文字を表す体系である「Unicode」(ユニコード)には、多くの絵文字が含まれている。 つまり、漢字やアルファベットと同じ「文字」として扱われるので、比較的簡単に読み上げることができる。 ただし、「Unicode」に対応できていないスクリーンリーダーが複数あり、そのような場合には読み上げられないことになる。 また、スクリーンリーダーの種類によって絵文字の読み方が違ったり、見た目と読み上げとで受け取るニュアンスが違ったりといったことはどうしても起きてしまう。

一方の顔文字だが、こちらは、複数の記号を組み合わせて顔の形を作っている。 視覚的には顔の形に見えたとしても、実際にはいろいろな文字が連続して書かれているだけである。 そのため、スクリーンリーダーはそれらの文字を、書かれている順番にただ読み上げる。

顔文字の読み上げがどのようになるのか、具体例を挙げてみよう。 私が使っている日本語入力システムのATOKでは、単語を入力してF4キーを押すと、それらしい顔文字が出てくる。 たとえば、「わらう」と書いてF4キーを押すと、こんな顔文字に変換された。

(^_^)

これがどんな風に見えているかはわからないのだが、私の使っているJAWSというスクリーンリーダーは、こんな風に読み上げる。

カッコヒラキ ベキジョー アンダー ベキジョー カッコトジ

スクリーンリーダー利用者はなぜ超高速な音声を聞いている?

私がパソコンを操作しているところを見て、「音声が速い!」と驚く人が非常に多い。 確かに一般的な音声読み上げよりはずいぶん速いはずだ。

これは、あらゆる情報を音声で効率的に得るための工夫といえる。 目で文字を読む場合、1度に見られる範囲が比較的広く、短時間で多くの情報を得ることができる(らしい)。 ところが、音声の場合には最初から最後まで順番に聞かなければ、すべての情報を確認することができない。 電話の自動応答やナレーションで使われるようなゆっくりとした速度で聞いていると、同じ文章を読むのにも必要以上に時間がかかってしまう。 そこで、できる限り高速な音声を使い、短時間で多くの情報を得ているのである。

スクリーンリーダーでのパソコン操作の実際

文章での説明だけでは、スクリーンリーダーでパソコンを操作するのがどんな感じか、イメージしづらいかもしれない。 ということで、実際の操作の様子を録音してみた。

最後に

ここまで、思いつくままに書いていたらかなりの長さになってしまった。 とにかく、私がどのようにしてパソコンを使っているのか、少しはおわかりいただけたのではないかと思う。

最近は、スクリーンリーダーがOSに標準搭載されたり、無料で入手できるものが登場したりと、ある程度身近な存在になりつつある。 この記事をご覧いただき、スクリーンリーダーに興味を持ってくださった方がいれば、ぜひご自身でスクリーンリーダーでのパソコン操作を体験してみていただけると嬉しい。

なお、近日中に「全盲の私はどうやってスマートフォンを使っているのか」という記事も書きたいと思っている。 公開がいつになるかはまったくわからないが、気長にお待ちいただきたい。