Pembersih Teks

Saiz: 0 B, 0 aksara

Pilihan pembersihan:

Transformasi:

 
Saiz: 0 B, 0 aksara

Pembersih Teks Dalam Talian Percuma

Bersihkan teks dengan segera: Tampal teks daripada dokumen, e-mel, PDF, spreadsheet, laman web, atau aplikasi chat dan betulkan masalah format biasa — termasuk aksara tidak kelihatan yang tidak dapat dilihat — terus dalam pelayar.

Apakah Pembersih Teks?

Pembersih teks ialah alat yang membuang aksara tidak diingini dan masalah format daripada teks biasa. Ia mengubah teks salinan yang bersepah menjadi kandungan yang lebih kemas sebelum diedit, diterbitkan, ditampal ke borang, atau diproses oleh alat lain.

Alat ini amat berguna apabila teks yang disalin daripada PDF, dokumen Word, atau laman web mengandungi aksara tidak kelihatan, ruang tanpa putus, tanda petik tipografi, atau markup HTML yang tidak kelihatan tetapi menyebabkan masalah dalam editor kod, pangkalan data, dan enjin carian.

Mengapa Teks yang Disalin Menjadi Bersepah?

Masalahnya jarang bermula daripada anda. Ia bermula daripada cara aplikasi menyimpan dan memindahkan teks.

PDF menyimpan kedudukan, bukan aliran teks. PDF ialah dokumen dengan tataletak tetap. Setiap aksara disimpan pada koordinat mutlak di halaman — tiada konsep “perkataan” atau “baris” sebagai aliran teks yang mengalir. Apabila anda menyalin daripada PDF, pembaca merekonstruksi aliran dengan merumuskan sempadan perkataan daripada kedudukan aksara. Rekonstruksi ini tidak sempurna: ia menyisipkan ruang ekstra antara aksara, memecah perkataan bertanda hubung merentasi baris, dan gagal membezakan jeda baris visual daripada jeda perenggan.

Format clipboard HTML. Kebanyakan aplikasi moden — pelayar, klien e-mel, Slack, Notion, Google Docs — menulis HTML ke clipboard apabila anda menyalin. Apabila anda menampal ke medan teks biasa, aplikasi penerima membuang tag-nya, tetapi artifak kekal: ruang tanpa putus yang digunakan untuk lekukan, tanda Unicode tidak kelihatan daripada struktur markup asal.

Pemproses perkataan menggunakan tipografi pintar. Microsoft Word, Google Docs, dan Apple Pages secara automatik menukar tanda petik lurus kepada tanda petik tipografi, tanda hubung berganda kepada em dash, dan ruang biasa kepada ruang tanpa putus dalam konteks tertentu. Berguna dalam pemproses perkataan, tetapi menjadi punca aksara rosak di tempat lain.

Ketidakpadanan penghujung baris. Windows menggunakan CRLF (\r\n) sebagai penghujung baris. macOS dan Linux hanya menggunakan LF (\n). Teks yang ditampal merentasi platform membawa aksara \r yang tidak kelihatan tetapi menyebabkan masalah paparan dalam terminal, editor kod, dan alat baris perintah.

Pilihan Pembersihan

Pilihan cleanup:

  • Pangkas setiap baris: Buang ruang di awal dan hujung setiap baris.
  • Gabungkan ruang berlebihan: Tukar ruang, tab, dan ruang tanpa putus berulang kepada satu ruang.
  • Hapus baris kosong: Buang semua baris kosong daripada teks.
  • Hadkan baris kosong berturutan (maks. 1): Kekalkan pemisah perenggan tetapi gabungkan beberapa baris kosong berturutan kepada satu.
  • Buang aksara tidak kelihatan: Hapus zero-width space, aksara BOM, dan soft hyphen yang tidak kelihatan tetapi menyebabkan masalah dalam editor, pangkalan data, dan enjin carian.
  • Luruskan tanda petik tipografi: Tukar tanda petik tipografi (" " ' ') kepada tanda petik lurus (" '), berguna untuk kod, markdown, dan entri data.
  • Buang tag HTML: Hapus <b>, <p>, <span>, dan semua markup HTML lain, menyisakan hanya kandungan teks biasa.
  • Hapus baris duplikat: Simpan kemunculan pertama setiap baris dan buang baris yang sama selepasnya.

Transformasi:

  • Tukar line break kepada ruang: Jadikan teks berbilang baris sebagai satu perenggan.

Cara Menggunakan Pembersih Teks

  1. Tampal atau taip teks dalam medan input.
  2. Pilih pilihan pembersihan yang diperlukan.
  3. Hasil dikemas kini serta-merta semasa anda menaip atau menukar pilihan.
  4. Klik Muat naik untuk memuatkan teks daripada fail tempatan.
  5. Klik Salin untuk menyalin hasilnya, atau Muat turun untuk menyimpannya sebagai fail .txt.

Contoh Sebelum dan Selepas

Salinan PDF dengan ruang ekstra dan baris yang rosak:

Sebelum:

This  is  a  sentence  with  extra   spaces.
It  has  a  leading  indent   too.

Selepas (Pangkas setiap baris + Gabungkan ruang berlebihan):

This is a sentence with extra spaces.
It has a leading indent too.

Kandungan yang ditampal daripada HTML laman web atau CMS:

Sebelum:

<p><strong>Project Update</strong></p>
<ul>
<li>Task 1 is complete</li>
<li>Task 2 is in progress</li>
</ul>

Selepas (Buang tag HTML + Hapus baris kosong):

Project Update
Task 1 is complete
Task 2 is in progress

Tanda petik tipografi daripada Word atau Google Docs:

Sebelum:

He said “this won’t work” and closed the file.

Selepas (Luruskan tanda petik tipografi):

He said “this won’t work” and closed the file.

Terlalu banyak baris kosong antara perenggan:

Sebelum:

Introduction paragraph.



Second section.




Final notes.

Selepas (Hadkan baris kosong berturutan (maks. 1)):

Introduction paragraph.

Second section.

Final notes.

Buang Aksara Tidak Kelihatan

Teks yang disalin daripada PDF, dokumen Word, dan laman web sering mengandungi aksara tidak kelihatan yang tidak dapat dikesan secara visual: zero-width space (U+200B), BOM (U+FEFF), dan soft hyphen (U+00AD). Aksara-aksara ini boleh merosakkan pengiraan perkataan, fungsi carian, pemeriksa ejaan, dan entri pangkalan data.

Aktifkan Buang aksara tidak kelihatan untuk membersihkannya sekaligus. Pilihan ini aktif secara lalai.

Rujukan Aksara Whitespace dan Tidak Kelihatan

AksaraUnicodeNamaSumber Biasa
(ruang)U+0020RuangSemua sumber
(tab)U+0009Tab mendatarKod, hamparan
&nbsp;U+00A0Ruang tanpa putusHTML, Word, Google Docs
(tidak kelihatan)U+200BZero-width spaceHalaman web, PDF, Wikipedia
(tidak kelihatan)U+200CZero-width non-joinerKandungan web, teks RTL
(tidak kelihatan)U+200DZero-width joinerUrutan emoji, kandungan web
(tidak kelihatan)U+00ADSoft hyphenWord, alat penerbitan
(tidak kelihatan)U+FEFFBOM / Zero-width no-break spaceWindows Notepad, eksport UTF-8
(tidak kelihatan)U+2028Pemisah barisSistem lama
(tidak kelihatan)U+2029Pemisah perengganSistem lama

Buang aksara tidak kelihatan menyasarkan U+200B, U+200C, U+200D, U+FEFF, dan U+00AD. Gabungkan ruang berlebihan mengendalikan U+00A0 bersama ruang dan tab biasa. Penghujung baris U+2028 dan U+2029 dinormalkan secara automatik.

Gabungkan Ruang Berlebihan

Pilihan Gabungkan ruang berlebihan menggantikan whitespace berulang — termasuk tab dan non-breaking space (&nbsp;, U+00A0) yang biasa dalam kandungan yang ditampal daripada HTML — dengan satu ruang biasa. Aktifkan juga Pangkas setiap baris untuk membuang ruang di awal dan hujung setiap baris.

Buang Tag HTML dan Luruskan Tanda Petik

Buang tag HTML berguna apabila menyalin teks berformat daripada laman web, e-mel, atau editor CMS. Pilihan ini membuang semua markup dan menyisakan teks yang boleh dibaca.

Luruskan tanda petik tipografi menukar tanda petik tipografi kembali kepada tanda petik ASCII standard. Pemproses perkataan dan editor web secara automatik menggantikan tanda petik lurus dengan tanda petik tipografi, yang boleh menyebabkan masalah dalam kod, fail CSV, dan data berstruktur.

Kawal Baris Kosong

Pilih salah satu daripada dua pilihan yang saling eksklusif:

  • Hapus baris kosong membuang semua baris kosong untuk output yang padat dan berterusan.
  • Hadkan baris kosong berturutan (maks. 1) menggabungkan beberapa baris kosong berturutan kepada satu, mengekalkan pemisah perenggan sambil membuang jarak berlebihan.

Membersihkan Teks daripada Sumber Tertentu

Daripada Google Docs

Google Docs menulis HTML ke clipboard apabila anda menyalin. Hasil tampal sering menyertakan ruang tanpa putus untuk lekukan, tanda petik tipografi, dan sesekali tanda Unicode tidak kelihatan. Kombinasi yang disyorkan: Luruskan tanda petik tipografi + Gabungkan ruang berlebihan + Pangkas setiap baris. Untuk dokumen berstruktur, aktifkan juga Buang aksara tidak kelihatan.

Daripada Microsoft Word

Word ialah enjin tipografi pintar yang paling agresif dalam penggunaan biasa. Ia menukar tanda petik lurus kepada tanda petik tipografi, tanda hubung berganda kepada em dash, dan menyisipkan ruang tanpa putus di kedudukan tertentu. Menampal kandungan Word ke dalam kod, markdown, atau CSV hampir selalu memerlukan Luruskan tanda petik tipografi dan Gabungkan ruang berlebihan sekurang-kurangnya.

Daripada PDF

PDF ialah sumber yang paling bersepah. Jangkakan ruang ekstra antara perkataan, perkataan bertanda hubung yang terpecah merentasi baris, dan aksara tidak kelihatan daripada pengekodan dalaman PDF. Kombinasi terbaik: Buang aksara tidak kelihatan + Gabungkan ruang berlebihan + Pangkas setiap baris. Tambah Hapus baris kosong atau Hadkan baris kosong berturutan (maks. 1) bergantung pada sama ada anda ingin mengekalkan jeda perenggan.

Daripada Excel atau Google Sheets

Sel yang disalin daripada hamparan membawa aksara tab antara lajur dan jeda baris dalam sel. Gunakan Gabungkan ruang berlebihan untuk menormalkan whitespace dan Hapus baris kosong untuk membersihkan baris kosong.

Penghujung Baris: CRLF vs LF

Setiap baris teks berakhir dengan satu atau lebih aksara kawalan tidak kelihatan yang memberitahu aplikasi di mana baris berhenti:

  • LF (\n, U+000A): macOS, Linux, Unix — piawaian moden untuk kebanyakan persekitaran pembangunan.
  • CRLF (\r\n, U+000D + U+000A): Windows dan DOS — piawaian untuk aplikasi Windows dan eksport fail teks.
  • CR (\r, U+000D): Sistem Mac lama (pra-OS X) — jarang pada hari ini.

Apabila teks bergerak antara platform, aksara \r menyebabkan artifak kelihatan — simbol ^M dalam vim, kiraan baris yang rosak dalam skrip — atau ralat senyap dalam pemprosesan rentetan. Alat ini menormalkan semua penghujung baris kepada LF secara automatik sebelum menerapkan sebarang pilihan lain, tanpa mengira platform sumber.

Data sebagai Parameter

Anda boleh mengisi medan input dengan parameter ?input=:

https://www.uprek.com/ms/tools/alat-pembersih-teks?input=hello%20%20world

Untuk teks peribadi, elakkan berkongsi URL yang mengandungi kandungan itu sendiri.

Teks Anda Tidak Pernah Meninggalkan Pelayar

Apabila membersihkan teks yang mengandungi dokumen dalaman, data pelanggan, kunci API, atau komunikasi sulit, menempelnya ke alat yang diproses di pelayan menciptakan risiko keselamatan yang nyata.

Falsafah UPREK sangat mudah: Data anda adalah milik anda. Kami tidak menginginkannya, tidak mengumpulkannya, dan tidak dapat melihatnya.

  • 100% Pemprosesan Setempat: Semua algoritma pembersihan dan transformasi berjalan secara setempat di mesin anda melalui JavaScript engine pelayar.
  • Tiada Upload ke Pelayan: Teks input anda tidak pernah dihantar melalui, diproses oleh, atau dimuat naik ke pelayan kami.
  • Tiada Log atau Sandaran: Kami tidak mencatat, menyimpan, atau membuat sandaran mana-mana teks atau fail yang anda masukkan ke alat ini.
  • Pemadaman Segera: Teks yang anda kerjakan hanya wujud dalam memori aktif pelayar anda. Tutup tab dan data terus hilang.
  • Keselamatan Tahap Enterprise: Kerana kami tidak pernah memiliki atau menghantar data anda, menggunakan UPREK menjadikan anda kebal terhadap kebocoran data dari sisi pelayan.

Kes Penggunaan Sebenar

1. Membersihkan Teks yang Disalin daripada PDF

PDF terkenal kerana menyisipkan aksara tidak kelihatan, ruang tanpa putus, dan line break yang rosak semasa teks disalin. Aktifkan Buang aksara tidak kelihatan, Gabungkan ruang berlebihan, dan Pangkas setiap baris untuk menghasilkan teks bersih daripada mana-mana ekstrak PDF dengan pantas.

2. Membuang HTML daripada Eksport CMS

Apabila mengeksport kandungan daripada WordPress, Notion, atau mana-mana CMS teks kaya, teks yang dieksport sering dipenuhi tag HTML inline. Gunakan Buang tag HTML untuk menukarnya kepada teks biasa sebelum mengimport ke tempat lain atau memproses dengan skrip.

3. Menormalkan Data Sebelum Import ke Pangkalan Data

Teks yang dihantar pengguna sering tiba dengan whitespace tidak konsisten, tanda petik tipografi, dan aksara tidak kelihatan. Menjalankannya melalui pembersih sebelum dimasukkan ke pangkalan data menghalang masalah pengekodan, pertanyaan yang rosak, dan rasuah indeks carian.

4. Membetulkan Tanda Petik Tipografi dalam Kod dan Markdown

Pemproses perkataan dan editor web secara automatik menggantikan tanda petik lurus dengan tanda petik tipografi. Ini merosakkan sampel kod, fail YAML, dan markdown. Gunakan Luruskan tanda petik tipografi untuk menukarnya semula kepada " dan ' yang selamat untuk ASCII dalam satu langkah.

5. Menghapus Duplikat dan Membersihkan Senarai

Apabila mengagregat data daripada pelbagai sumber — keputusan carian, baris yang dieksport, URL yang dikumpul — anda sering mendapat entri pendua atau format tidak konsisten. Gabungkan Hapus baris duplikat, Pangkas setiap baris, dan Hapus baris kosong untuk menghasilkan senarai yang dinormalkan dan sedia diproses lebih lanjut.

6. Menyediakan Petikan Log untuk Dokumentasi

Log pelayan dan output nyahpepijat sering mengandungi whitespace berlebihan, carriage return, dan pemisah baris Unicode yang memaparkan secara tidak dijangka dalam dokumentasi atau tiket. Pembersih menormalkan semua penghujung baris dan menghapus aksara bunyi, menghasilkan teks bersih sedia untuk ditampal ke Jira, Confluence, atau penerangan pull request.

Soalan Lazim

Adakah teks yang saya tampal benar-benar peribadi?

Ya. Teks anda diproses sepenuhnya dalam JavaScript engine pelayar anda dan tidak pernah dihantar ke mana-mana pelayan. UPREK tidak boleh melihat, mengakses, atau menyimpan teks yang anda tampal ke alat ini.

Apakah aksara tidak kelihatan dan mengapa ia penting?

Aksara tidak kelihatan ialah code point Unicode tanpa glif yang kelihatan: zero-width space (U+200B), penanda BOM (U+FEFF), dan soft hyphen (U+00AD). Mereka disisipkan secara senyap semasa menyalin daripada PDF, dokumen Word, dan halaman web. Mereka boleh merosakkan perbandingan rentetan, mengkorupsi indeks carian, menyebabkan tingkah laku tidak dijangka dalam kod, dan menggelembungkan bilangan aksara tanpa sebarang tanda yang kelihatan.

Apakah perbezaan antara "Hapus baris kosong" dan "Hadkan baris kosong berturutan (maks. 1)"?

Hapus baris kosong membuang semua baris kosong, menghasilkan blok yang padat tanpa jurang. Hadkan baris kosong berturutan (maks. 1) menggabungkan jujukan dua baris kosong berturutan atau lebih kepada satu baris kosong, mengekalkan struktur perenggan sambil membuang jarak berlebihan. Kedua-dua pilihan adalah saling eksklusif — mengaktifkan satu menonaktifkan yang lain.

Adakah alat ini mengubah kandungan teks saya?

Hanya dengan cara yang anda pilih. Memangkas whitespace, menggabungkan ruang, dan membuang aksara tidak kelihatan hanya menjejaskan whitespace dan aksara kawalan — perkataan dan ayat yang boleh dibaca tidak disentuh. Buang tag HTML membuang markup tetapi kandungan teks kekal utuh. Luruskan tanda petik tipografi mengubah aksara tanda petik itu sendiri, yang merupakan tingkah laku yang diingini untuk output yang selamat bagi kod.

Bolehkah membersihkan fail teks yang sangat besar?

Ya. Semua pemprosesan berjalan dalam pelayar anda dan tidak tertakluk kepada had muat naik pelayan. Prestasi bergantung pada peranti anda, tetapi alat ini mengendalikan fail log biasa dan eksport dokumen tanpa masalah.

Bagaimana cara membuang aksara khas daripada teks?

"Aksara khas" biasanya bermaksud salah satu daripada tiga perkara: tanda baca dan simbol kelihatan (@, #, $), aksara Unicode di luar ASCII standard, atau aksara kawalan tidak kelihatan. Alat ini menyasarkan kategori ketiga — aksara tidak kelihatan yang secara senyap merosakkan teks. Ia tidak membuang tanda baca atau simbol kelihatan, kerana itu biasanya merupakan sebahagian daripada makna teks.

Apakah aksara BOM dan mengapa ia menyebabkan masalah?

BOM ialah singkatan bagi Byte Order Mark (U+FEFF). Ia pada asalnya digunakan untuk menandakan susunan bait fail UTF-16. Dalam fail UTF-8, BOM tidak diperlukan dan sering merbahaya: ia mencetuskan ralat "aksara tidak sah" dalam penghurai JSON, import SQL, dan alat baris perintah yang tidak menjangkakannya di awal fail. Aksara BOM biasanya dimasukkan oleh Windows Notepad dan beberapa eksport Excel. Aktifkan Buang aksara tidak kelihatan untuk membuangnya.

Mengapa teks daripada PDF mempunyai jarak yang pelik?

PDF menyimpan aksara pada koordinat halaman mutlak dan bukannya sebagai teks mengalir. Apabila anda menyalin, pembaca PDF menganggar sempadan perkataan dan baris daripada koordinat tersebut — proses yang sering menyisipkan ruang ekstra antara perkataan, memecah perkataan bertanda hubung merentasi baris, dan menambah aksara pengekodan tidak kelihatan. Gunakan Gabungkan ruang berlebihan + Pangkas setiap baris + Buang aksara tidak kelihatan bersama-sama untuk mengatasi artifak salin PDF yang paling biasa.

Log Perubahan

v1.1.0 20 Mei 2026
  • Membina semula UI dengan bar sisi nombor baris, panel berbingkai, toolbar, dan penghitung saiz
  • Menambah empat pilihan pembersihan baharu: buang aksara tidak kelihatan, luruskan petikan pintar, tanggalkan tag HTML, hadkan baris kosong berturutan kepada satu
  • Membetulkan collapse-spaces untuk juga mengendalikan ruang tidak putus (U+00A0)
v1.0.0 10 Mei 2026
  • Buang ruang berlebihan, potong setiap baris, buang baris kosong, dan nyahpadu baris
  • Muat naik fail teks; salin atau muat turun output