Pembersih Teks

Ukuran: 0 B, 0 karakter

Opsi pembersihan:

Transformasi:

 
Ukuran: 0 B, 0 karakter

Pembersih Teks Online Gratis

Bersihkan teks berantakan secara instan: Tempel teks dari dokumen, PDF, spreadsheet, email, website, atau chat, lalu rapikan masalah format umum — termasuk karakter tak terlihat yang tidak tampak — langsung di browser.

Apa Itu Pembersih Teks?

Pembersih teks adalah alat untuk menghapus karakter tidak diinginkan dan masalah format dari teks biasa. Alat ini mengubah teks salinan yang berantakan menjadi konten yang lebih rapi sebelum diedit, dipublikasikan, ditempel ke formulir, atau diproses dengan alat lain.

Alat ini sangat berguna ketika teks yang disalin dari PDF, dokumen Word, atau halaman web mengandung karakter tak terlihat, spasi non-breaking, tanda kutip tipografi, atau markup HTML yang tidak terlihat tetapi menyebabkan masalah di editor kode, database, dan mesin pencari.

Mengapa Teks yang Disalin Menjadi Berantakan?

Masalahnya jarang dimulai dari Anda. Masalah ini dimulai dari cara aplikasi menyimpan dan mentransfer teks.

PDF menyimpan posisi, bukan aliran teks. PDF adalah dokumen dengan tata letak tetap. Setiap karakter disimpan pada koordinat absolut di halaman — tidak ada konsep “kata” atau “baris” sebagai aliran teks yang mengalir. Saat Anda menyalin dari PDF, pembaca merekonstruksi aliran dengan menyimpulkan batas kata dari posisi karakter. Rekonstruksi ini tidak sempurna: ia menyisipkan spasi ekstra antar karakter, memecah kata bercetak di seluruh baris, dan gagal membedakan jeda baris visual dari jeda paragraf.

Format clipboard HTML. Kebanyakan aplikasi modern — browser, email client, Slack, Notion, Google Docs — menulis HTML ke clipboard saat Anda menyalin. Saat Anda menempel ke kolom teks biasa, aplikasi penerima menghapus tag-nya, tetapi artefak tetap ada: spasi non-breaking yang digunakan untuk indentasi, tanda Unicode tak terlihat dari struktur markup asli.

Pengolah kata menerapkan tipografi cerdas. Microsoft Word, Google Docs, dan Apple Pages secara otomatis mengubah tanda kutip lurus menjadi tanda kutip tipografi, tanda hubung ganda menjadi em dash, dan spasi biasa menjadi spasi non-breaking dalam konteks tertentu. Berguna di dalam pengolah kata, tetapi menjadi sumber karakter rusak di mana-mana.

Ketidaksesuaian akhiran baris. Windows menggunakan CRLF (\r\n) sebagai akhiran baris. macOS dan Linux hanya menggunakan LF (\n). Teks yang ditempel lintas platform membawa karakter \r yang tidak terlihat tetapi menyebabkan masalah rendering di terminal, editor kode, dan alat baris perintah.

Opsi Pembersihan

Opsi cleanup:

  • Pangkas tiap baris: Menghapus spasi di awal dan akhir setiap baris.
  • Gabungkan spasi berlebih: Mengubah spasi, tab, dan spasi non-breaking berulang menjadi satu spasi.
  • Hapus baris kosong: Menghapus semua baris kosong dari teks.
  • Batasi baris kosong berurutan (maks. 1): Pertahankan pemisah paragraf tapi gabungkan beberapa baris kosong berurutan menjadi satu.
  • Hapus karakter tak terlihat: Menghapus zero-width space, karakter BOM, dan soft hyphen yang tidak terlihat tetapi menyebabkan masalah di editor, database, dan mesin pencari.
  • Luruskan tanda kutip tipografi: Mengubah tanda kutip tipografi (" " ' ') menjadi tanda kutip lurus (" '), berguna untuk kode, markdown, dan entri data.
  • Hapus tag HTML: Menghapus <b>, <p>, <span>, dan semua markup HTML lainnya, menyisakan hanya konten teks biasa.
  • Hapus baris duplikat: Menyimpan kemunculan pertama setiap baris dan menghapus baris yang sama setelahnya.

Transformasi:

  • Ubah baris baru menjadi spasi: Mengubah teks multi-baris menjadi satu paragraf.

Cara Menggunakan Pembersih Teks

  1. Tempel atau ketik teks ke kolom input.
  2. Pilih opsi pembersihan yang ingin digunakan.
  3. Hasil diperbarui secara instan saat Anda mengetik atau mengubah opsi.
  4. Klik Unggah untuk memuat teks dari file lokal.
  5. Klik Salin untuk menyalin hasilnya, atau Unduh untuk menyimpannya sebagai file .txt.

Contoh Sebelum dan Sesudah

Salinan PDF dengan spasi ekstra dan baris yang rusak:

Sebelum:

This  is  a  sentence  with  extra   spaces.
It  has  a  leading  indent   too.

Sesudah (Pangkas tiap baris + Gabungkan spasi berlebih):

This is a sentence with extra spaces.
It has a leading indent too.

Konten yang ditempel dari HTML website atau CMS:

Sebelum:

<p><strong>Project Update</strong></p>
<ul>
<li>Task 1 is complete</li>
<li>Task 2 is in progress</li>
</ul>

Sesudah (Hapus tag HTML + Hapus baris kosong):

Project Update
Task 1 is complete
Task 2 is in progress

Tanda kutip tipografi dari Word atau Google Docs:

Sebelum:

He said “this won’t work” and closed the file.

Sesudah (Luruskan tanda kutip tipografi):

He said “this won’t work” and closed the file.

Terlalu banyak baris kosong antar paragraf:

Sebelum:

Introduction paragraph.



Second section.




Final notes.

Sesudah (Batasi baris kosong berurutan (maks. 1)):

Introduction paragraph.

Second section.

Final notes.

Hapus Karakter Tak Terlihat

Teks yang disalin dari PDF, dokumen Word, dan halaman web sering mengandung karakter tak terlihat yang tidak bisa dideteksi secara visual: zero-width space (U+200B), BOM (U+FEFF), dan soft hyphen (U+00AD). Karakter-karakter ini dapat merusak penghitungan kata, fungsi pencarian, spell checker, dan entri database.

Aktifkan Hapus karakter tak terlihat untuk membersihkannya sekaligus. Opsi ini aktif secara default.

Referensi Karakter Whitespace dan Tak Terlihat

KarakterUnicodeNamaSumber Umum
(spasi)U+0020SpasiSemua sumber
(tab)U+0009Tab horizontalKode, spreadsheet
&nbsp;U+00A0Spasi non-breakingHTML, Word, Google Docs
(tak terlihat)U+200BZero-width spaceHalaman web, PDF, Wikipedia
(tak terlihat)U+200CZero-width non-joinerKonten web, teks RTL
(tak terlihat)U+200DZero-width joinerUrutan emoji, konten web
(tak terlihat)U+00ADSoft hyphenWord, alat penerbitan
(tak terlihat)U+FEFFBOM / Zero-width no-break spaceWindows Notepad, ekspor UTF-8
(tak terlihat)U+2028Pemisah barisSistem lama
(tak terlihat)U+2029Pemisah paragrafSistem lama

Hapus karakter tak terlihat menargetkan U+200B, U+200C, U+200D, U+FEFF, dan U+00AD. Gabungkan spasi berlebih menangani U+00A0 bersama spasi dan tab biasa. Akhiran baris U+2028 dan U+2029 dinormalkan secara otomatis.

Gabungkan Spasi Berlebih

Opsi Gabungkan spasi berlebih mengganti whitespace berulang — termasuk tab dan non-breaking space (&nbsp;, U+00A0) yang umum dalam konten yang ditempel dari HTML — dengan satu spasi biasa. Aktifkan juga Pangkas tiap baris untuk menghapus spasi di awal dan akhir setiap baris.

Hapus Tag HTML dan Luruskan Tanda Kutip

Hapus tag HTML berguna saat menyalin teks berformat dari website, email, atau editor CMS. Opsi ini menghapus semua markup dan menyisakan teks yang dapat dibaca.

Luruskan tanda kutip tipografi mengubah tanda kutip tipografi kembali ke tanda kutip ASCII standar. Pengolah kata dan editor web secara otomatis mengganti tanda kutip lurus dengan tanda kutip tipografi, yang dapat menyebabkan masalah di kode, file CSV, dan data terstruktur.

Kontrol Baris Kosong

Pilih salah satu dari dua opsi yang saling eksklusif:

  • Hapus baris kosong menghapus semua baris kosong untuk output yang padat dan berkesinambungan.
  • Batasi baris kosong berurutan (maks. 1) menggabungkan beberapa baris kosong berurutan menjadi satu, mempertahankan pemisah paragraf sambil menghapus jarak berlebih.

Membersihkan Teks dari Sumber Tertentu

Dari Google Docs

Google Docs menulis HTML ke clipboard saat Anda menyalin. Hasil tempelan sering menyertakan spasi non-breaking untuk indentasi, tanda kutip tipografi, dan sesekali tanda Unicode tak terlihat. Kombinasi yang disarankan: Luruskan tanda kutip tipografi + Gabungkan spasi berlebih + Pangkas tiap baris. Untuk dokumen terstruktur, aktifkan juga Hapus karakter tak terlihat.

Dari Microsoft Word

Word adalah mesin tipografi cerdas yang paling agresif dalam penggunaan umum. Ia mengubah tanda kutip lurus menjadi tanda kutip tipografi, tanda hubung ganda menjadi em dash, dan menyisipkan spasi non-breaking di posisi tertentu. Menempel konten Word ke kode, markdown, atau CSV hampir selalu memerlukan Luruskan tanda kutip tipografi dan Gabungkan spasi berlebih minimal.

Dari PDF

PDF adalah sumber paling berantakan. Harap perkirakan spasi ekstra antar kata, kata bercetak yang terpecah di seluruh baris, dan karakter tak terlihat dari encoding internal PDF. Kombinasi terbaik: Hapus karakter tak terlihat + Gabungkan spasi berlebih + Pangkas tiap baris. Tambahkan Hapus baris kosong atau Batasi baris kosong berurutan (maks. 1) tergantung apakah Anda ingin mempertahankan jeda paragraf.

Dari Excel atau Google Sheets

Sel yang disalin dari spreadsheet membawa karakter tab antar kolom dan jeda baris di dalam sel. Gunakan Gabungkan spasi berlebih untuk menormalkan whitespace dan Hapus baris kosong untuk membersihkan baris kosong.

Akhiran Baris: CRLF vs LF

Setiap baris teks diakhiri dengan satu atau lebih karakter kontrol tak terlihat yang memberi tahu aplikasi di mana baris berhenti:

  • LF (\n, U+000A): macOS, Linux, Unix — standar modern untuk sebagian besar lingkungan pengembangan.
  • CRLF (\r\n, U+000D + U+000A): Windows dan DOS — standar untuk aplikasi Windows dan ekspor file teks.
  • CR (\r, U+000D): Sistem Mac lama (pra-OS X) — jarang saat ini.

Ketika teks berpindah antar platform, karakter \r menyebabkan artefak terlihat — simbol ^M di vim, jumlah baris yang rusak di skrip — atau kesalahan diam dalam pemrosesan string. Alat ini menormalkan semua akhiran baris ke LF secara otomatis sebelum menerapkan opsi lain apapun, terlepas dari platform sumber.

Data sebagai Parameter

Kolom input dapat diisi dengan ?input=:

https://www.uprek.com/id/tools/pembersih-teks?input=halo%20%20dunia

Jika teks bersifat privat, jangan bagikan URL yang berisi teks tersebut.

Teks Anda Tidak Pernah Meninggalkan Browser

Saat membersihkan teks yang berisi dokumen internal, data pelanggan, API key, atau komunikasi rahasia, menempelkannya ke alat yang diproses di server menciptakan risiko keamanan nyata.

Filosofi UPREK sangat sederhana: Data Anda adalah milik Anda. Kami tidak menginginkannya, tidak mengumpulkannya, dan tidak dapat melihatnya.

  • 100% Pemrosesan Lokal: Semua algoritma pembersihan dan transformasi berjalan secara lokal di mesin Anda melalui JavaScript engine browser.
  • Tidak Ada Upload ke Server: Teks input Anda tidak pernah dikirimkan melalui, diproses oleh, atau diunggah ke server kami.
  • Tidak Ada Log atau Backup: Kami tidak mencatat, menyimpan, atau mencadangkan teks atau file apapun yang Anda masukkan ke alat ini.
  • Penghapusan Instan: Teks yang Anda kerjakan hanya ada di memori aktif browser Anda. Tutup tab dan data pun hilang.
  • Keamanan Tingkat Enterprise: Karena kami tidak pernah memiliki atau mentransmisikan data Anda, menggunakan UPREK membuat Anda kebal terhadap kebocoran data dari sisi server.

Kasus Penggunaan Nyata

1. Membersihkan Teks yang Disalin dari PDF

PDF terkenal karena menyisipkan karakter tak terlihat, non-breaking space, dan line break yang rusak saat teks disalin. Aktifkan Hapus karakter tak terlihat, Gabungkan spasi berlebih, dan Pangkas tiap baris untuk menghasilkan teks bersih dari ekstrak PDF manapun dengan cepat.

2. Menghapus HTML dari Ekspor CMS

Saat mengekspor konten dari WordPress, Notion, atau CMS rich-text lainnya, teks yang diekspor sering dipenuhi tag HTML inline. Gunakan Hapus tag HTML untuk mengubahnya menjadi teks biasa sebelum diimpor ke tempat lain atau diproses dengan skrip.

3. Menormalkan Data Sebelum Import ke Database

Teks yang dikirimkan pengguna sering datang dengan whitespace tidak konsisten, tanda kutip tipografi, dan karakter tak terlihat. Menjalankannya melalui pembersih sebelum dimasukkan ke database mencegah masalah encoding, query yang rusak, dan korupsi indeks pencarian.

4. Memperbaiki Tanda Kutip Tipografi dalam Kode dan Markdown

Pengolah kata dan editor web secara otomatis mengganti tanda kutip lurus dengan tanda kutip tipografi. Ini merusak sampel kode, file YAML, dan markdown. Gunakan Luruskan tanda kutip tipografi untuk mengonversinya kembali ke " dan ' yang aman untuk ASCII dalam satu langkah.

5. Menghapus Duplikat dan Membersihkan Daftar

Saat mengagregasi data dari berbagai sumber — hasil pencarian, baris yang diekspor, URL yang dikumpulkan — Anda sering mendapatkan entri duplikat atau format tidak konsisten. Gabungkan Hapus baris duplikat, Pangkas tiap baris, dan Hapus baris kosong untuk menghasilkan daftar yang dinormalkan dan siap diproses lebih lanjut.

6. Menyiapkan Cuplikan Log untuk Dokumentasi

Log server dan output debug sering mengandung whitespace berlebih, carriage return, dan pemisah baris Unicode yang tampil tidak terduga dalam dokumentasi atau tiket. Pembersih menormalkan semua akhiran baris dan menghapus karakter noise, menghasilkan teks bersih yang siap ditempel ke Jira, Confluence, atau deskripsi pull request.

Pertanyaan yang Sering Diajukan

Apakah teks yang saya tempel benar-benar privat?

Ya. Teks Anda diproses sepenuhnya di dalam JavaScript engine browser Anda dan tidak pernah dikirimkan ke server manapun. UPREK tidak dapat melihat, mengakses, atau menyimpan teks yang Anda tempel ke alat ini.

Apa itu karakter tak terlihat dan mengapa penting?

Karakter tak terlihat adalah code point Unicode tanpa glif yang terlihat: zero-width space (U+200B), penanda BOM (U+FEFF), dan soft hyphen (U+00AD). Mereka disisipkan diam-diam saat menyalin dari PDF, dokumen Word, dan halaman web. Mereka dapat merusak perbandingan string, mengkorupsi indeks pencarian, menyebabkan perilaku tak terduga dalam kode, dan menggelembungkan jumlah karakter tanpa tanda yang terlihat.

Apa perbedaan antara "Hapus baris kosong" dan "Batasi baris kosong berurutan (maks. 1)"?

Hapus baris kosong menghapus semua baris kosong, menghasilkan blok yang padat tanpa celah. Batasi baris kosong berurutan (maks. 1) menggabungkan rangkaian dua baris kosong berurutan atau lebih menjadi satu baris kosong, mempertahankan struktur paragraf sambil menghapus jarak berlebih. Kedua opsi saling eksklusif — mengaktifkan satu menonaktifkan yang lain.

Apakah alat ini mengubah konten teks saya?

Hanya dengan cara yang Anda pilih. Memangkas whitespace, menggabungkan spasi, dan menghapus karakter tak terlihat hanya memengaruhi whitespace dan karakter kontrol — kata dan kalimat yang dapat dibaca tidak tersentuh. Hapus tag HTML menghapus markup tetapi konten teks tetap utuh. Luruskan tanda kutip tipografi mengubah karakter tanda kutip itu sendiri, yang merupakan perilaku yang diinginkan untuk output yang aman bagi kode.

Apakah bisa membersihkan file teks yang sangat besar?

Ya. Semua pemrosesan berjalan di browser Anda dan tidak tunduk pada batas upload server. Performa tergantung pada perangkat Anda, tetapi alat ini menangani file log tipikal dan ekspor dokumen tanpa masalah.

Bagaimana cara menghapus karakter khusus dari teks?

"Karakter khusus" biasanya berarti salah satu dari tiga hal: tanda baca dan simbol yang terlihat (@, #, $), karakter Unicode di luar ASCII standar, atau karakter kontrol tak terlihat. Alat ini menargetkan kategori ketiga — karakter tak terlihat yang diam-diam merusak teks. Alat ini tidak menghapus tanda baca atau simbol yang terlihat, karena itu biasanya merupakan bagian dari makna teks.

Apa itu karakter BOM dan mengapa menyebabkan masalah?

BOM adalah singkatan dari Byte Order Mark (U+FEFF). Awalnya digunakan untuk menandakan urutan byte file UTF-16. Dalam file UTF-8, BOM tidak diperlukan dan sering berbahaya: ini memicu error "karakter tidak valid" di parser JSON, impor SQL, dan alat baris perintah yang tidak mengharapkannya di awal file. Karakter BOM biasanya dimasukkan oleh Windows Notepad dan beberapa ekspor Excel. Aktifkan Hapus karakter tak terlihat untuk menghapusnya.

Mengapa teks dari PDF memiliki spasi yang aneh?

PDF menyimpan karakter pada koordinat halaman absolut, bukan sebagai teks mengalir. Saat Anda menyalin, pembaca PDF memperkirakan batas kata dan baris dari koordinat tersebut — proses yang sering menyisipkan spasi ekstra antar kata, memecah kata bercetak di seluruh baris, dan menambahkan karakter encoding tak terlihat. Gunakan Gabungkan spasi berlebih + Pangkas tiap baris + Hapus karakter tak terlihat bersama-sama untuk mengatasi artefak salinan PDF yang paling umum.

Catatan Perubahan

v1.1.0 20 Mei 2026
  • Membangun ulang UI dengan sidebar nomor baris, panel berbingkai, toolbar, dan penghitung ukuran
  • Menambahkan empat opsi pembersihan baru: hapus karakter tak terlihat, luruskan tanda kutip pintar, hapus tag HTML, batasi baris kosong berurutan menjadi satu
  • Memperbaiki collapse-spaces untuk juga menangani spasi non-breaking (U+00A0)
v1.0.0 10 Mei 2026
  • Hapus spasi berlebih, potong setiap baris, hapus baris kosong, dan hapus duplikat baris
  • Unggah file teks; salin atau unduh output