ブログに戻る
GROW FAST LTD.
AI検出

ChatGPTのダッシュ多用(em dash):なぜ使うのか、英文と和文での削除手順

ChatGPTは英文の出力で em dash(—)を異常な頻度で使い、AI生成の決定的なサインになっている。原因とプロンプトでの抑制、生成後のクリーンアップ方法。


ChatGPTのダッシュ多用(em dash):なぜ使うのか、英文と和文での削除手順

結論から: ChatGPTは英文出力で em dash(—)を、人間の編集者なら絶対に通さない密度で乱用する。和文では「ダッシュ」あるいは「全角ダッシュ(——)」に相当する。原因は学習データにある——文学翻訳、ニューヨーカー誌やジ・アトランティック誌のエッセイ、学術論文。どれも em dash を「整った文章の印」として使う媒体だ。モデルは「em dash = 良い文章」という統計的連関だけを覚え、節度のルールは覚えなかった。素早い対処:プロンプトに明示する("Do not use em dashes. Replace them with commas, colons, or separate sentences.")、システムプロンプトに常時組み込む、生成済みテキストに対して検索・置換を実行する。ただし——em dash を消すだけでは表層シグナルを1つ消しただけだ。検出ツールは編集後も残る不可視Unicode文字も同時に読む。

なぜ ChatGPT はこれほど em dash を使うのか

英文の出版界では em dash は知的な文章の徴とされ、ジョーン・ディディオン、コーマック・マッカーシー、ザディー・スミスといった作家が好んで使ってきた。和文に直接の等価物はないが、近い感覚は「全角ダッシュ(——)」で、新潮文庫や岩波書店の翻訳で、強い挿入や断絶を示すために用いられる。ChatGPT が学習したテキストの多くはこのような編集を経たプロ文だ。モデルは「em dash = 質の高い文章」という連関を吸収したが、「使いすぎないこと」というルールは吸収しなかった。

大規模言語モデルは、文脈を踏まえて次に来る最も確率の高いトークンを予測しながら文を生成する。構文の節目——人間の書き手なら、カンマ、コロン、句点のどれにしようか迷う場所——では、モデルの重みが em dash に強く偏る。そのトークンが高確率で出力される。段落全体で見ると、em dash の密度は経験ある編集者なら一瞬で「不自然」と判別するレベルに達する。

英語圏の Reddit、note の英語ライティング系コミュニティ、X の英語ライター界隈では、2024年以降この話題が定着している。多くのライターが「em dash を使うと AI 疑惑をかけられるから自分の文章でも避けるようになった」と報告している。これは1つのモデルの統計的バイアスが、実際の読者の知覚を変えた結果だ。

em dash は ChatGPT の決定的な徴か?

1段落につき em dash 1つは英文では普通だ。問題なのは、6文に3〜4つの em dash、それも全部が文法的に同じ位置で「汎用接続子」として使われている密度——これは熟練編集者が一瞬で気づき、スタイロメトリック検出ツールも数えに行くパターンだ。

人間の書き手は em dash を明確なレトリック目的で使う:コンマでは弱すぎる強い挿入を示す、対話を開く、意図的なドラマチックポーズを置く。ChatGPT はそれを汎用コネクタとして使い、カンマ・コロン・句点の方が自然な場所にまで投入する。乱用が最も目立つのはリスト導入の構文だ——「導入のフレーズ → em dash → 説明」という型を、モデルは反射的に組み立てる。

GPTZero や Turnitin といった検出ツールは、em dash の多用をスタイロメトリック変数の1つとして組み込んでいる。em dash だけで文章が AI 判定されるわけではないが、分類器が読む統計的指紋に確実に寄与する。検出ツールの実際の仕組みについてはAI検出ツールの仕組みが詳しい。

見える em dash と見えない Unicode 文字の違い

em dash は見える。だから編集できる。不可視 Unicode 文字は、同じ問題のもう一層深い、より深刻な側だ。AI 文章の見えるスタイル問題と並走することが多い。

ChatGPT、Claude、Gemini がテキストを生成するとき、出力にはゼロ幅スペース(U+200B)、ゼロ幅ジョイナ(U+200D)、各種 ASCII 制御文字が混入することがある。これらはどの標準エディタでも完全に不可視だ。コピー&ペーストを経ても生き残り、Word や Google Docs では何の問題もなく見える。ところが ATS、学術提出システム、AI 検出ツールがテキストを処理した瞬間に問題を起こす。手元では完璧に編集されたように見える文書が、実際には20〜30個の不可視マーカーを抱えていることがある。

これは em dash 問題とは別のレイヤーだが、両者は同時に起きる:書き手は見える AI 臭(em dash 置換、決まり文句のカット、リズムの調整)をクリーンアップしたつもりで、文字レベルの Unicode ウォーターマークを抱えたままのテキストを提出する。この不可視レイヤーこそ、私たちのツールが取り組んでいる対象だ。処理はすべてブラウザ内で完結し、テキストはデバイスから出ない。

ChatGPT に em dash を使わせない方法

最も信頼できる方法は、システムプロンプトかユーザーメッセージの冒頭に明示的な指示を入れることだ。ChatGPT はスタイル制約を明確に書けば、それなりに守る。

実際に効くプロンプト

以下の指示はどんなプロンプトに足しても、ChatGPT の英文出力で em dash 頻度を確実に下げる:

  • Do not use em dashes. Replace them with commas, colons, or separate sentences.
  • Write in plain prose. Avoid em dashes, bullet points, and excessive parentheticals.
  • Use only standard punctuation: full stops, commas, colons, and semicolons. No em dashes.
  • Write in a conversational, direct style. No em dashes or dramatic pauses.

和文出力でも同等の指示が効く:「ダッシュ(——)は使わないでください。代わりに句点、読点、コロンを使ってください。」

要は具体性だ。「自然に書いて」という指示は何もしない——「自然」とは言語モデルにとって「学習データの平均挙動」を意味し、それは em dash 多用を含む。何を禁止し何を代わりに使うかを明示してはじめて、モデルに制約として効く。

Custom GPT または永続システムプロンプト

ChatGPT を継続的にコンテンツ業務で使うなら、Custom GPT か Custom Instructions の利用が最も筋がいい。設定画面の Custom Instructions に「never use em dashes」と一度入れておけば、新規会話すべてに自動で適用される。AI 支援で大量のテキストを生産し、後でクライアントのトーンに編集する書き手にとっては、毎回プロンプトに指示を入れるよりこちらの方が安定する。長い会話では個別指示が薄まっていくからだ。

生成済みテキストへの検索・置換

すでに生成された文章には、検索・置換が最速の手動修正だ。Microsoft Word、Google Docs、各種テキストエディタで em dash 文字(—)を検索し、文脈に合う句読点に置換する。

置換は文脈次第:

  • 前の節を補足説明する em dash → コロンが自然なことが多い
  • 独立した2つの考えをつなぐ em dash → 句点で2つの文に分ける
  • 挿入を示す em dash → カンマペアか丸括弧の方が落ち着く

機械的な一括置換は不格好な文を量産する。検索・置換の1回目は「箇所のマーキング」と捉え、その後に個別判断で1つずつ確定すること。

会話の途中で ChatGPT が em dash に戻ってきたとき

長い会話ではコンテキストウィンドウのドリフトが起こる。会話が長くなるほど、最初の指示の相対的な重みは、訓練済みのデフォルト挙動より下がる。冒頭で禁止しても、15〜20回の応答を経ると ChatGPT は em dash の反射に戻る。

実用的な解決策は、パターンが戻ってきたと気づいたタイミングで制約を再明示することだ。「Reminder: no em dashes. Use commas or colons instead.」という短いメッセージで、次の数応答ぶんは挙動がリセットされる。長い執筆セッションでは、5〜7往復ごとにこのリマインダーを挟む。

別の手:モデル自身に出力を見直させる。「あなたの直前の応答を読み直し、すべての em dash を別の適切な句読点に置き換えてください。」生成時に予防しようとするより捕捉率が高い。生成済みテキストを「読んで」処理するため、トークン単位の予測より精度が上がるからだ。

em dash の癖が示す AI スタイル指紋

em dash は最も見えやすい例だが、これは広い現象の一角だ:AI モデルは個別の書き手の意図ではなく、学習データの統計的性質を反映するスタイル指紋を発達させる。ChatGPT の他の典型的マーカーには、英文での "moreover" / "furthermore" の文頭多用、内容が自然に三分されないところでも三項リストにしたがる傾向、新しい段落を「先ほどの質問の言い換え」で始める癖がある。

どれも厳密には誤りではない——モデルが学習した散文スタイルの性質が、知って見れば見える形で表面化したものだ。語彙レベルでの同様の問題は、AI らしい単語リストで扱っている:AI 出力に異常に高頻度で現れるため、それ自体の存在が、編集の質によらず検出確率を押し上げる単語群だ。

em dash 問題と不可視文字問題は別レイヤー

ChatGPT 出力を清書する書き手は、見える問題——em dash、決まり文句、平板な文構造——に集中して、2〜3周の編集で「完了」と判断することが多い。不可視文字問題はそれより一段深く、別のツールが必要だ。

ゼロ幅スペースとゼロ幅ジョイナは生成プロセスの中でテキストに埋め込まれる。これは em dash 嗜好のようなスタイル選択ではない。Unicode レベルに埋め込まれ、人間の目には不可視で、標準的な編集ワークフローを無傷で通り抜ける。手動編集で完璧に読める文書が、自動システムを発火させる20〜30個の不可視文字を抱えていることがある。

学術ポータル、ATS 採用システム、エンコーディングチェックを走らせる CMS に提出する書き手にとって、不可視 Unicode 文字は実体ある技術的問題だ。仕組みの長い解説はAI テキストウォーターマーク解説にある。

GPT Watermark Remover は40種類以上の不可視 Unicode 文字を検出する——ゼロ幅スペース、ゼロ幅ジョイナ、ASCII 制御文字を含む。これまでに5万件以上のテキストクリーンアップを処理し、すべてはブラウザ内のローカル処理だ。サーバーには何も送らない。AI コンテンツの完全クリーンアップを行うなら、スタイル編集の後にUnicode スキャンを1回走らせると、検索・置換では届かないレイヤーが捕まる。

自分の文章でも em dash を完全に避けるべきか?

避けるべきではない。問題は頻度と文脈であって、記号そのものではない。em dash は明確なレトリック用途を持つ正当な句読点だ。和文の全角ダッシュも同じだ。問題は ChatGPT が、注意深い人間なら自然には再現しない密度と構造位置で乱用していることだ。

自分のコンテンツを自分で書き、em dash を意図的に使う場合——500語につき1〜2回、特定の効果のために——スタイル上、削除する理由はない。テキストを AI 生成として識別するシグナルは「乱用パターン」であって、1つ1つの em dash ではない。1つの well-placed な em dash がある文章は人間的に読める。400語に7つの em dash がある文章は、他をどれだけ編集しても生成的に読める。

最も影響を受けているのは、AI 普及前から em dash を頻繁に使っていた書き手だ。読者が無意識に「em dash = チャットボット出力」と紐づけ始めている。この連関は実在し、1つのモデルの統計的バイアスが直接の原因だ。実務的対応は2つ:人間として正常な頻度で em dash を使い続け、一部読者が一瞬気にすることを受け入れる、あるいは連関が薄れるまで一時的に代替構文に切り替える。

em dash 削除が実際に直すもの

ChatGPT 出力から em dash を取り除くと表層の読みやすさが上がり、検出ツールが読むスタイロメトリックシグナルが1つ減る。em dash 削除だけで AI テキストがあらゆる検出を突破するわけではない。

Turnitin、GPTZero ほかの検出ツールは複数シグナルを並列に分析する:語彙分布、文長分散、段落構造、テキストのエンコーディングレベルの特性。em dash 問題を解くのは見えるシグナル1つを潰すこと。モデルが em dash を出力するに至った下位の統計的性質——トークン分布のパターン——は、語彙選択、文のリズム、構造的習慣の中に残り続ける。

完全な清書には両層が要る:スタイル編集(em dash 置換、平板フレーズの書き直し、文構造のバリエーション)と文字レベルの清掃(不可視 Unicode マーカーの除去)。AI テキスト人間化の完全ガイドでは両層を詳述しており、どの編集が検出確率を最も大きく下げるかも扱っている。

よくある質問

なぜ ChatGPT は em dash をこんなに使うのか?

ChatGPT は大量の編集済みテキスト——ジャーナリズム、書籍、長文エッセイ——で学習された。これらの媒体で em dash は質の高い散文の徴として頻出する。モデルは記号をスタイル的シグナルとして再現することを学習し、結果として典型的な人間の英文ライティングよりはるかに高密度で em dash を出すようになった。これは学習由来の統計的バイアスであり、意図的な設計判断ではない。

ChatGPT に em dash を使わせないには?

プロンプトに明示する:「Do not use em dashes. Replace them with commas, colons, or separate sentences.」継続利用ならアカウント設定の Custom Instructions に同じルールを保存しておけば、新しい会話すべてに自動適用される。「自然に書いて」のような曖昧な指示では訓練済みデフォルトを上書きできない。

em dash は ChatGPT 製テキストの確実な徴か?

em dash の密度は複数あるシグナルのうちの1つで、他のパターンと組み合わさったときに強くなる。1段落に em dash が1つあるのは普通だ。6文に3〜4つ、すべて汎用コネクタとして、というパターンを人間編集者もスタイロメトリック検出ツールも ChatGPT 出力の典型として認識する。em dash 単体では AI 著作を確定できない。

em dash を削除すれば AI テキストは検出不可能になるか?

em dash 削除は見えるスタイロメトリックシグナルを1つ処理する。検出ツールは語彙分布、文のリズム、段落構造、文字レベルのエンコーディングを同時並列に分析する。em dash 乱用への対処は有用な編集ステップだが、完全な清書には不可視 Unicode 文字(ゼロ幅スペース、ゼロ幅ジョイナ)への対処も必要だ——これらは標準的な編集を生き延びて自動検出を発火させる。

em dash 削除と Unicode ウォーターマーク削除の違いは?

em dash は手動で検索・置換できる見える句読点だ。Unicode ウォーターマークは不可視文字——ゼロ幅スペース、ゼロ幅ジョイナ、ASCII 制御文字——で、エンコーディングレベルで AI テキストに埋め込まれている。標準エディタでは見えず、コピー&ペーストでも残り、検出には専用スキャナが必要だ。GPT Watermark Remover は不可視層を、通常の編集は可視層を担当する。

GPT Watermark Remover は em dash の掃除にも使えるか?

GPT Watermark Remover は AI 生成テキストから不可視 Unicode 文字——ゼロ幅スペース、ゼロ幅ジョイナ、ASCII 制御文字——を検出・除去するために専用設計されている。em dash は見える文字なので、テキストエディタの検索・置換やプロンプト指示で処理するのが最適だ。手動編集を終えた後にこのツールを走らせると、視覚編集では届かないレイヤーを捕捉できる。

AI透かしを削除する準備はできましたか?

無料のAI透かし削除ツールをお試しください。テキストや文書から見えない文字を数秒で検出・削除できます。

GPT透かし削除ツールを試す