結論から： ChatGPTは英文出力で em dash（—）を、人間の編集者なら絶対に通さない密度で乱用する。和文では「ダッシュ」あるいは「全角ダッシュ（——）」に相当する。原因は学習データにある——文学翻訳、ニューヨーカー誌やジ・アトランティック誌のエッセイ、学術論文。どれも em dash を「整った文章の印」として使う媒体だ。モデルは「em dash = 良い文章」という統計的連関だけを覚え、節度のルールは覚えなかった。素早い対処：プロンプトに明示する（"Do not use em dashes. Replace them with commas, colons, or separate sentences."）、システムプロンプトに常時組み込む、生成済みテキストに対して検索・置換を実行する。なお、em dash と不可視 Unicode 文字はまったく別の問題だ。AI 文章の検出ツールは見える文章（語彙の選び方や文のリズムといった統計的パターン）を分析するのであって、不可視文字をスキャンするわけではない。不可視 Unicode 文字を消すのはフォーマット・コード・プライバシーの問題を直すためで、AI 検出の結果には影響しない。

なぜ ChatGPT はこれほど em dash を使うのか

英文の出版界では em dash は知的な文章の徴とされ、ジョーン・ディディオン、コーマック・マッカーシー、ザディー・スミスといった作家が好んで使ってきた。和文に直接の等価物はないが、近い感覚は「全角ダッシュ（——）」で、新潮文庫や岩波書店の翻訳で、強い挿入や断絶を示すために用いられる。ChatGPT が学習したテキストの多くはこのような編集を経たプロ文だ。モデルは「em dash = 質の高い文章」という連関を吸収したが、「使いすぎないこと」というルールは吸収しなかった。

大規模言語モデルは、文脈を踏まえて次に来る最も確率の高いトークンを予測しながら文を生成する。構文の節目——人間の書き手なら、カンマ、コロン、句点のどれにしようか迷う場所——では、モデルの重みが em dash に強く偏る。そのトークンが高確率で出力される。段落全体で見ると、em dash の密度は経験ある編集者なら一瞬で「不自然」と判別するレベルに達する。

英語圏の Reddit、note の英語ライティング系コミュニティ、X の英語ライター界隈では、2024年以降この話題が定着している。多くのライターが「em dash を使うと AI 疑惑をかけられるから自分の文章でも避けるようになった」と報告している。これは1つのモデルの統計的バイアスが、実際の読者の知覚を変えた結果だ。

em dash は ChatGPT の決定的な徴か？

1段落につき em dash 1つは英文では普通だ。問題なのは、6文に3〜4つの em dash、それも全部が文法的に同じ位置で「汎用接続子」として使われている密度——これは熟練編集者が一瞬で気づき、スタイロメトリック検出ツールも数えに行くパターンだ。

人間の書き手は em dash を明確なレトリック目的で使う：コンマでは弱すぎる強い挿入を示す、対話を開く、意図的なドラマチックポーズを置く。ChatGPT はそれを汎用コネクタとして使い、カンマ・コロン・句点の方が自然な場所にまで投入する。乱用が最も目立つのはリスト導入の構文だ——「導入のフレーズ → em dash → 説明」という型を、モデルは反射的に組み立てる。

GPTZero や Turnitin といった検出ツールは、em dash の多用をスタイロメトリック変数の1つとして組み込んでいる。em dash だけで文章が AI 判定されるわけではないが、分類器が読む統計的指紋に確実に寄与する。検出ツールの実際の仕組みについてはAI検出ツールの仕組みが詳しい。

見える em dash と見えない Unicode 文字の違い

em dash は見える。だから編集できる。不可視 Unicode 文字は、同じ問題のもう一層深い、より深刻な側だ。AI 文章の見えるスタイル問題と並走することが多い。

ChatGPT、Claude、Gemini がテキストを生成するとき、出力にはゼロ幅スペース（U+200B）、ゼロ幅ジョイナ（U+200D）、各種 ASCII 制御文字が混入することがある。これらはどの標準エディタでも完全に不可視だ。コピー＆ペーストを経ても生き残り、Word や Google Docs では何の問題もなく見える。ところが ATS、フォーム入力欄、コードスニペット、検索やエンコーディングのチェックを走らせるシステムにテキストを通すと、フォーマット崩れ・照合ミス・文字化けといった実体ある不具合を起こす。手元では完璧に編集されたように見える文書が、実際には20〜30個の不可視マーカーを抱えていることがある。

これは em dash 問題とはまったく別のレイヤーだ：書き手は見える文体（em dash 置換、決まり文句のカット、リズムの調整）を整えたつもりで、文字レベルの不可視 Unicode 文字を抱えたままのテキストを提出する。この不可視文字こそ、私たちのツールが取り組んでいる対象だ。除去するのはフォーマット・コード・プライバシー上の理由からで、AI 検出の結果を変えるためではない。処理はすべてブラウザ内で完結し、テキストはデバイスから出ない。

ChatGPT に em dash を使わせない方法

最も信頼できる方法は、システムプロンプトかユーザーメッセージの冒頭に明示的な指示を入れることだ。ChatGPT はスタイル制約を明確に書けば、それなりに守る。

実際に効くプロンプト

以下の指示はどんなプロンプトに足しても、ChatGPT の英文出力で em dash 頻度を確実に下げる：

Do not use em dashes. Replace them with commas, colons, or separate sentences.
Write in plain prose. Avoid em dashes, bullet points, and excessive parentheticals.
Use only standard punctuation: full stops, commas, colons, and semicolons. No em dashes.
Write in a conversational, direct style. No em dashes or dramatic pauses.

和文出力でも同等の指示が効く：「ダッシュ（——）は使わないでください。代わりに句点、読点、コロンを使ってください。」

要は具体性だ。「自然に書いて」という指示は何もしない——「自然」とは言語モデルにとって「学習データの平均挙動」を意味し、それは em dash 多用を含む。何を禁止し何を代わりに使うかを明示してはじめて、モデルに制約として効く。

Custom GPT または永続システムプロンプト

ChatGPT を継続的にコンテンツ業務で使うなら、Custom GPT か Custom Instructions の利用が最も筋がいい。設定画面の Custom Instructions に「never use em dashes」と一度入れておけば、新規会話すべてに自動で適用される。AI 支援で大量のテキストを生産し、後でクライアントのトーンに編集する書き手にとっては、毎回プロンプトに指示を入れるよりこちらの方が安定する。長い会話では個別指示が薄まっていくからだ。

生成済みテキストへの検索・置換

すでに生成された文章には、検索・置換が最速の手動修正だ。Microsoft Word、Google Docs、各種テキストエディタで em dash 文字（—）を検索し、文脈に合う句読点に置換する。

置換は文脈次第：

前の節を補足説明する em dash → コロンが自然なことが多い
独立した2つの考えをつなぐ em dash → 句点で2つの文に分ける
挿入を示す em dash → カンマペアか丸括弧の方が落ち着く

機械的な一括置換は不格好な文を量産する。検索・置換の1回目は「箇所のマーキング」と捉え、その後に個別判断で1つずつ確定すること。

会話の途中で ChatGPT が em dash に戻ってきたとき

長い会話ではコンテキストウィンドウのドリフトが起こる。会話が長くなるほど、最初の指示の相対的な重みは、訓練済みのデフォルト挙動より下がる。冒頭で禁止しても、15〜20回の応答を経ると ChatGPT は em dash の反射に戻る。

実用的な解決策は、パターンが戻ってきたと気づいたタイミングで制約を再明示することだ。「Reminder: no em dashes. Use commas or colons instead.」という短いメッセージで、次の数応答ぶんは挙動がリセットされる。長い執筆セッションでは、5〜7往復ごとにこのリマインダーを挟む。

別の手：モデル自身に出力を見直させる。「あなたの直前の応答を読み直し、すべての em dash を別の適切な句読点に置き換えてください。」生成時に予防しようとするより捕捉率が高い。生成済みテキストを「読んで」処理するため、トークン単位の予測より精度が上がるからだ。

em dash の癖が示す AI スタイル指紋

em dash は最も見えやすい例だが、これは広い現象の一角だ：AI モデルは個別の書き手の意図ではなく、学習データの統計的性質を反映するスタイル指紋を発達させる。ChatGPT の他の典型的マーカーには、英文での "moreover" / "furthermore" の文頭多用、内容が自然に三分されないところでも三項リストにしたがる傾向、新しい段落を「先ほどの質問の言い換え」で始める癖がある。

どれも厳密には誤りではない——モデルが学習した散文スタイルの性質が、知って見れば見える形で表面化したものだ。語彙レベルでの同様の問題は、AI らしい単語リストで扱っている：AI 出力に異常に高頻度で現れるため、それ自体の存在が、編集の質によらず検出確率を押し上げる単語群だ。

em dash 問題と不可視文字問題は別レイヤー

ChatGPT 出力を清書する書き手は、見える問題——em dash、決まり文句、平板な文構造——に集中して、2〜3周の編集で「完了」と判断することが多い。不可視文字問題はそれより一段深く、別のツールが必要だ。

ゼロ幅スペースとゼロ幅ジョイナはコピー＆ペーストや一部のツール処理の過程でテキストに混入することがある。これは em dash 嗜好のようなスタイル選択ではない。Unicode レベルに存在し、人間の目には不可視で、標準的な編集ワークフローを無傷で通り抜ける。手動編集で完璧に読める文書が、フォーム送信やエンコーディングチェックで不具合を起こす20〜30個の不可視文字を抱えていることがある。

学術ポータル、ATS 採用システム、エンコーディングチェックを走らせる CMS に提出する書き手にとって、不可視 Unicode 文字は実体ある技術的問題だ。仕組みの長い解説はAI テキストウォーターマーク解説にある。

GPT Watermark Remover は40種類以上の不可視 Unicode 文字を検出する——ゼロ幅スペース、ゼロ幅ジョイナ、ASCII 制御文字を含む。これまでに5万件以上のテキストクリーンアップを処理し、すべてはブラウザ内のローカル処理だ。サーバーには何も送らない。AI コンテンツの完全クリーンアップを行うなら、スタイル編集の後にUnicode スキャンを1回走らせると、検索・置換では届かないレイヤーが捕まる。

自分の文章でも em dash を完全に避けるべきか？

避けるべきではない。問題は頻度と文脈であって、記号そのものではない。em dash は明確なレトリック用途を持つ正当な句読点だ。和文の全角ダッシュも同じだ。問題は ChatGPT が、注意深い人間なら自然には再現しない密度と構造位置で乱用していることだ。

自分のコンテンツを自分で書き、em dash を意図的に使う場合——500語につき1〜2回、特定の効果のために——スタイル上、削除する理由はない。テキストを AI 生成として識別するシグナルは「乱用パターン」であって、1つ1つの em dash ではない。1つの well-placed な em dash がある文章は人間的に読める。400語に7つの em dash がある文章は、他をどれだけ編集しても生成的に読める。

最も影響を受けているのは、AI 普及前から em dash を頻繁に使っていた書き手だ。読者が無意識に「em dash = チャットボット出力」と紐づけ始めている。この連関は実在し、1つのモデルの統計的バイアスが直接の原因だ。実務的対応は2つ：人間として正常な頻度で em dash を使い続け、一部読者が一瞬気にすることを受け入れる、あるいは連関が薄れるまで一時的に代替構文に切り替える。

em dash 削除が実際に直すもの

ChatGPT 出力から em dash を取り除くと表層の読みやすさが上がり、文章が機械生成っぽく見える理由のひとつがなくなる。これは読み手に与える印象の問題であって、検出ツールを「突破」するための操作ではない。

Turnitin、GPTZero ほかの AI 文章検出ツールは見える文章を分析する：語彙分布、文長分散、段落構造といった統計的パターンだ。em dash の乱用を直すのは、そうした見える文体を整える編集作業のひとつにすぎない。モデルが em dash を出力するに至った下位の統計的性質——トークン分布のパターン——は、語彙選択、文のリズム、構造的習慣の中に残り続ける。検出に効くのは、書き手自身の判断で文章を実質的に書き直すことだけだ。

不可視 Unicode 文字の除去はこれとはまったく別の作業で、検出とは無関係だ：フォーマット崩れ、コードの不具合、プライバシーといった問題を直すためのものだ。スタイル編集（em dash 置換、平板フレーズの書き直し、文構造のバリエーション）と文字レベルの清掃（不可視 Unicode 文字の除去）は別々の目的を持つ。AI テキスト人間化の完全ガイドでは文体の書き直しについて詳述している。

よくある質問

なぜ ChatGPT は em dash をこんなに使うのか？

ChatGPT は大量の編集済みテキスト——ジャーナリズム、書籍、長文エッセイ——で学習された。これらの媒体で em dash は質の高い散文の徴として頻出する。モデルは記号をスタイル的シグナルとして再現することを学習し、結果として典型的な人間の英文ライティングよりはるかに高密度で em dash を出すようになった。これは学習由来の統計的バイアスであり、意図的な設計判断ではない。

ChatGPT に em dash を使わせないには？

プロンプトに明示する：「Do not use em dashes. Replace them with commas, colons, or separate sentences.」継続利用ならアカウント設定の Custom Instructions に同じルールを保存しておけば、新しい会話すべてに自動適用される。「自然に書いて」のような曖昧な指示では訓練済みデフォルトを上書きできない。

em dash は ChatGPT 製テキストの確実な徴か？

em dash の密度は複数あるシグナルのうちの1つで、他のパターンと組み合わさったときに強くなる。1段落に em dash が1つあるのは普通だ。6文に3〜4つ、すべて汎用コネクタとして、というパターンを人間編集者もスタイロメトリック検出ツールも ChatGPT 出力の典型として認識する。em dash 単体では AI 著作を確定できない。

em dash を削除すれば AI テキストは検出不可能になるか？

いいえ。AI 文章検出ツールは見える文章——語彙分布、文のリズム、段落構造といった統計的パターン——を分析するのであって、句読点の記号や不可視文字を数えて判定するわけではない。em dash の乱用を直すのは読み手に与える印象を整える編集ステップであって、検出結果を変える操作ではない。不可視 Unicode 文字（ゼロ幅スペース、ゼロ幅ジョイナ）の除去はそれともまた別で、フォーマットやエンコーディングの問題を直すためのものだ。AI 検出の結果には影響しない。

em dash 削除と不可視 Unicode 文字の削除の違いは？

em dash は手動で検索・置換できる見える句読点だ。不可視 Unicode 文字——ゼロ幅スペース、ゼロ幅ジョイナ、ASCII 制御文字——は AI 出力に混入することがある文字で、標準エディタでは見えず、コピー＆ペーストでも残るため、見つけるには専用スキャナが必要だ。これらを消すのはフォーマット・コード・プライバシーの問題を直すためで、どちらの作業も AI 検出の結果には影響しない。GPT Watermark Remover は不可視文字の除去を、通常の編集は可視の文体を担当する。

GPT Watermark Remover は em dash の掃除にも使えるか？

GPT Watermark Remover は AI 生成テキストから不可視 Unicode 文字——ゼロ幅スペース、ゼロ幅ジョイナ、ASCII 制御文字——を検出・除去するために専用設計されている。em dash は見える文字なので、テキストエディタの検索・置換やプロンプト指示で処理するのが最適だ。手動編集を終えた後にこのツールを走らせると、視覚編集では届かないレイヤーを捕捉できる。

ChatGPTのダッシュ多用（em dash）：なぜ使うのか、英文と和文での削除手順