スクリーンリーダーのAI機能

最近、生成AIを使って視覚障害者を支援する取り組みが、各所で行われている。 私が使っているJAWSというスクリーンリーダーにも、AIを使って画面の内容を説明する「ピクチャスマート」という機能がある。 この記事では、JAWSのピクチャスマート機能を紹介する。 なお、この記事は私の個人的な体験・考えに基づいて執筆したものである。

視覚障害者と生成AI

ChatGPTなどの生成AIが最近注目を集めている。 生成AIとは、文章で指示するだけでプログラミングをしてくれたり、作文をしてくれたりするAIだ。 その性質上、間違いが含まれることも多いのだが、うまく使えば活用の幅が広がるだろう。

視覚障害者を支援するためにAIを活用する取り組みも進んでいる。 もっともよく行われているのは、AIを使って画像の説明をすることだろう。 ボランティアとのビデオ通話によって支援を受けられる「Be My Eyes」というアプリには、画像説明機能のBe My AIが追加された。 また、文字認識アプリの「Envision AI」には、認識結果に対して質問ができるAsk Envision機能がある。 人によるサポートとAIによるサポートを組み合わせることで、今後もより一層充実した支援が受けられることを期待している。

JAWSのピクチャスマート機能

ここからは、画面読み上げソフト「JAWS」のお話である。

JAWSには、ピクチャスマートという画像説明機能がある。 この機能を使って、

  • 画面全体を説明する
  • 現在のウィンドウの内容を説明する
  • 現在操作しているコントロールの内容を説明する
  • エクスプローラーで選択した画像ファイルを説明する
  • クリップボードにコピーした画像を説明する

といったことができる。

実際にどのような説明が表示されるのか試してみよう。 今、私はVisual Studio Codeというエディタを使ってこのブログを書いている。 ここで、現在のウィンドウを説明させてみる。

キャプションは コンピューターのスクリーンショット.
これらは写真を説明したタグです。
multimedia software, screenshot, software, テキスト、スクリーンショット、ソフトウェア、マルチメディア ソフトウェア、コンピュータ アイコン、ディスプレイ、グラフィックス ソフトウェア、編集、オペレーティング システム、コンピュータ、Web ページ.
これらはおそらく写真を説明したタグです。
computer, computer icon, display, editing, graphics software, operating system, web page.

「さらに認識した結果」というリンクがあるので押してみよう。 Visual Studio Codeに表示されているあらゆる文字が認識されていることがわかる。 スクリーンリーダー利用者で「読み飛ばして次に進みたい」という方は、見出しジャンプ機能で次の見出しに進んでいただければと思う。

キャプションは コンピューターのスクリーンショット.
写真に表示されたテキストです。
File Edit Selection View Go Run Terminal Help.
EXPLORER
BLOG
› Jayouts
posts
2024-08-04-picture-smart.md 2U X
posts >2024-08-04-picture-smartmd > JANSOEF
22 JANSDEF
27 CO.
2023-04-24-hw.md
2023-04-27-pachis....
28
29 ***T
30 *ROORZ
2023-05-01-mgmd 31
2023-05-14-best30.... 32
2023-06-01-get-up... 33
*TUTUBO-LOPIZESETZ
*10-5-SERVEZ
⚫R-EL-KATZ
#2023-06-02-dvr-it....
34
35
#2023-06-04-tw-101....
ZUDETENTEZ.
36
2023-06-06-wnl.md
37
2023-07-02-dlcd-0....
2023-08-16-voice-...
39
2023-09-11-blind-p... 40
2023-09-20-blind-s.... 41
2023-09-20-line-fe...
2023-09-27-pgc-01.
2023-12-31-year-...
2024-01-09-gmail.....
2024-03-17-h4esse...
2024-08-04-20
>
sass
> site
> assets
> files
› profile
> tags
configyml
• gitignore
Gemfile
Gemfile.lock
M
<index.html
> OUTLINE
> TIMELINE
je master 1A Wo
blog
TAZORFENBODEALTHIS.
38 9. [Visual Studio Code](https://code.visualstudio.com/)613171*>TZ@JOITUS.
INTERTA
PROBLEMS
OUTPUT DEBUG CONSOLE TERMINAL PORTS COMMENTS
2024-08-04-picture-smart.md posts
> If 19-FXMRIE< (ph) [Ln 38, Col 60) ~
-er, -or-ar THOSE (92) (prh)
AMD009/no-trailing-spaces: Trailing spaces (Expected: 0 or 2; Actual: 1) markdownlint(MD009) [En 41, Col 2]
Filter (e.g. text. **/node_modules/*
Screen Reader Optimized Ln 41, Col 3 Spaces: 4 UTF-8 CRLF Markdown AutoA.
これらは写真を説明したタグです。
multimedia software, screenshot, software, text.
これらはおそらく写真を説明したタグです。
Computer, computer icon, display, editing, graphics software, Multimedia, operating system, web page, フォント、スクリーンショット、コンピューター、ソフトウェア、マルチメディア、長方形、暗闇、コンピュータープログラム、オペレーティングシステム、メディア、テキスト、スクリーンショット、ソフトウェア、マルチメディアソフトウェア、コンピューターアイコン、ディスプレイ、グラフィックソフトウェア、編集、オペレーティングシステム、コンピューター、ウェブページ.
これらは写真を説明したタグかもしれません。
Computer program, Darkness, Media, Rectangle.

生成AIを使ったピクチャスマート

今年リリースされたJAWS2024で、生成AIを使った新しいピクチャスマート機能が導入された。 説明の内容がより詳しくなり、さらに追加の質問ができるようになったのだ。

こちらも試してみよう。 やはりVisual Studio Codeのウィンドウを説明させてみる。

この画像は、Visual Studio Codeのスクリーンショットです。画面にはブログ記事のMarkdownファイルが表示されており、ファイル名は「2024-08-04-picture-smartmdi.md」です。左側にはファイルエクスプローラーが表示され、多くのMarkdownファイルがリストアップされています。中央には記事の本文があり、見出しや段落が記述されています。画面下部の「PROBLEMS」ペインには、いくつかの警告メッセージが表示されており、MarkdownLintルールに関するものです。

「さらに説明を取得」というリンクがあるので押してみる。

ChatGPT
この画像は、Microsoft Visual Studio Codeのエディタウィンドウを示しています。詳細は以下の通りです。

- **左側のサイドバー**:
- 「EXPLORER」というセクションが開かれており、複数のファイルやフォルダーが表示されています。ファイル名としては「2023-04-24-...」から「2024-08-04-...」という形式のMarkdown(.md)ファイルが多数存在します。
- フォルダーツリーには「_layouts」、「_posts」、および「_site」などのフォルダーが含まれています。

- **中央のメインウィンドウ**:
- Markdown(.md)形式のファイルが開かれており、内容が表示されています。
- ファイルの内容は日本語で、見出しや文章が含まれています。
- 開かれているファイルのタイトルは「2024-08-04-picture-smartmd.md」で、内容は「音声読み上げ対応」と表示されています。
- テキストの内容としては、プログラムやソフトウェアに関連する情報やコードが記述されています。
- 見出しには「### 生産AIを使ったピクチャスマート」という内容があります。

- **下部のパネル**:
- 「PROBLEMS」、「OUTPUT」、「DEBUG CONSOLE」、「TERMINAL」などのタブが表示されています。
- 「PROBLEMS」タブには、MarkdownLintに関するエラーや警告がリストされています。例として、「MD009/no-trailing-spaces End of line有り余白(末尾に余白が存在します)」などのエラーが見られます。

このエディタウィンドウは、プログラムや技術文書の編集用として使用されている様子です。

Claude
この画像は、Visual Studio Codeというプログラミング用のテキストエディタのインターフェースを示しています。ダークモードで表示されており、全体的に黒と濃い灰色を基調としています。

画面の左側には、ファイルエクスプローラーが表示されており、複数のフォルダとファイルが階層構造で並んでいます。中央の大きな領域には、マークダウン形式のテキストファイルが開かれているようで、日本語と英語の混在したコンテンツが見えます。

画面下部には、「PROBLEMS」、「OUTPUT」、「DEBUG CONSOLE」、「TERMINAL」などのタブがあり、現在は「PROBLEMS」タブが選択されています。そこには、いくつかの警告メッセージが黄色い三角形のアイコンとともに表示されています。

右側のサイドバーには、「OUTLINE」と「TIMELINE」のセクションがあります。

全体的に、プログラマーやテキスト編集作業を行う人向けの高機能な開発環境であることが伝わってきます。インターフェースは整理されており、多くの情報と機能へのアクセスが容易になるよう設計されています。

このように、ChatGPTとClaudeの説明が表示される。 せっかくなので、何か質問してみよう。 質問できるのはChatGPTなので、ChatGPTの説明を踏まえた内容にする。 「質問する」というリンクを開き、「MarkdownLintに関するエラーや警告は、他にどのようなものが表示されていますか?」と入力してみる。

MarkdownLintに関するエラーや警告は、以下のものが表示されています:

1. **MD009/no-trailing-spaces**: 「End of line有り余白(末尾に余白が存在します)」と記されています。これは行の末尾に不要な余白があることを示しています。
2. **MD041/first-line-heading/first-line-h1**: 「First line in a file should be a top level heading(ファイルの最初の行はトップレベルの見出しであるべきです)」という警告です。ファイルの最初の行がトップレベルの見出し(通常は`#`で始まる)でない場合に表示されます。
3. **MD040/fenced-code-language**: 「Fenced code blocks should have a language specified(フェンス付きコードブロックには言語を指定するべきです)」とあります。これは、コードブロックに言語指定がない場合に表示される警告です。

それぞれのエラーには行番号と列番号も記載されており、例えば:
- Line 41, Col 1
- Line 41, Col 30
- Line 146, Col 1

これにより、ユーザーはどの部分でエラーが発生しているかを簡単に特定することができます。

ピクチャスマートが役立つ場面

この機能、確かに面白いのだが、実用的にはどの程度使えるのだろうか。 具体的な使いどころが思いつかないな、と思いつつ生活していたところ、偶然この機能に救われる経験をした。

先日、iPhoneのバッテリー交換をしたのだが、事前準備として、データのバックアップを取る必要があった。 万が一に備えてすべてのデータをバックアップしておきたかったので、iTunesを使って暗号化されたバックアップを作ることにした。

しかし、起動してもiTunesのウィンドウが開かない。 どうやら利用規約に同意するかどうかを確認するメッセージが表示されているようなのだが、その画面が一瞬で消えてしまう。 「イベントビューアー」という機能で確認すると、iTunesがクラッシュしたという記録が残っていた。

このPCが悪いのかと思い、サブのノートパソコンを出してきて試したのだが、やはり状況は同じ。 JAWSが悪いのかと思い、別のスクリーンリーダーで試してもだめだった。 メインのPCでiTunesやApple関連のプログラムをすべて消して、再度iTunesをインストールしても同じ。 ネットで調べても、「利用規約の画面でiTunesが落ちる」といった記載は発見できなかった。

そこで、考え方を変えてみることにした。 利用規約の画面を開いていることが原因でiTunesが落ちているのならば、この画面を表示する時間を極力短縮すればよいのではないか。 Windowsには、「アクセスキー」という機能がある。 「次へ(N)」や「完了(F)」などのアルファベットは、キーボードでAltキーと一緒にアルファベットのキーを押すと、簡単にボタンが押せることを意味している。 もし、iTunesの利用規約画面にある「同意する」ボタンにアクセスキーが設定されているのであれば、画面が一瞬表示されている間にそのキーを押せば先に進めるかもしれない。

と、そこまで考えたところでピクチャスマートを思い出した。 おもむろにiTunesを開き、ピクチャスマートでウィンドウを認識させてみる。 どうやら「同意する(A)」というボタンがあるようだ。 AIの説明である以上、本当かどうかはわからないが、1度だまされてみることにした。 ということで、再度iTunesを開き、Alt+Aを連打。

しばらくすると、「アップルID」という音声が聞こえてきた。 どうやら成功したようだ。 Tabキーを押して画面内を移動してみる。 画面の内容を問題なく読み上げており、iTunesが落ちることもなくなった。 そのまま操作を続け、無事にiTunesの設定とiPhoneのバックアップが完了したのだった。

最後に

生成AIはまだまだ発展途上で、完璧ではない。 それでも、ここ1年程度で大きく進化したように思う。 道具としてAIを使うことに違和感を感じる方もいらっしゃるかもしれないが、今後ますますそのようなことが当たり前になっていくのだろう。

スクリーンリーダーを含む支援技術とAIがどう連携していくのかも注目すべき点だ。 AIの力によって、漢字かな交じり文を点字に変換する作業を簡単にできるかもしれない。 視覚障害者が安心して街を歩けるように、AIがサポートしてくれるかもしれない。 パソコン操作でも、ただ画面を説明するだけでなく、ボタンにマウスを持っていってクリックするなど、操作のサポートをしてくれるようになるかもしれない。

最新技術に触れつつ、今後の発展にも期待したいところである。