Linisin ang text agad: I-paste ang text mula sa documents, emails, PDFs, spreadsheets, websites, o chat apps at ayusin ang common formatting problems — kasama na ang invisible characters na hindi mo makita — direkta sa browser.
Ano ang Text Cleaner?
Ang text cleaner ay tool na nagtatanggal ng unwanted characters at formatting problems sa plain text. Ginagawa nitong mas malinis ang copied text bago i-edit, i-publish, i-paste sa forms, o i-process sa ibang tools.
Lalo itong kapaki-pakinabang kapag ang text na kinopya mula sa PDF, Word documents, o web pages ay naglalaman ng invisible characters, non-breaking spaces, curly quotes, o HTML markup na hindi nakikita pero nagdudulot ng problema sa code editors, databases, at search engines.
Bakit Nagiging Messy ang Kinokopyang Text?
Ang problema ay bihirang magsimula sa iyo. Nagsisimula ito sa paraan ng pag-iimbak at paglilipat ng text ng mga application.
Ang PDF ay nag-iimbak ng mga posisyon, hindi daloy ng text. Ang PDF ay isang fixed-layout na dokumento. Iniimbak nito ang bawat character sa isang absolute na koordinado sa pahina — walang konsepto ng “salita” o “linya” bilang isang flowing stream ng text. Kapag nagkopya ka mula sa PDF, inaalam ng reader ang daloy sa pamamagitan ng pagtatantya ng mga hangganan ng salita mula sa mga posisyon ng character. Ang rekonstruksyong ito ay hindi perpekto: naglalagay ito ng extra spaces sa pagitan ng mga character, nag-break ng mga hyphenated na salita sa buong linya, at nabibigo na makilala ang visual line break mula sa paragraph break.
Format ng HTML clipboard. Karamihan sa mga modernong application — mga browser, email client, Slack, Notion, Google Docs — nagsusulat ng HTML sa clipboard kapag nagkopya ka. Kapag nag-paste ka sa isang plain-text na field, tinatanggal ng receiving app ang mga tag, ngunit nananatili ang mga artifact: mga non-breaking space na ginagamit para sa indentation, invisible na Unicode marks mula sa orihinal na markup structure.
Ang mga word processor ay gumagamit ng smart typography. Ang Microsoft Word, Google Docs, at Apple Pages ay awtomatikong nagco-convert ng straight quotes sa curly quotes, double hyphens sa em dashes, at regular spaces sa non-breaking spaces sa ilang partikular na konteksto. Kapaki-pakinabang sa loob ng word processor, ngunit pinagmumulan ng mga sirang character sa lahat ng ibang lugar.
Hindi pagkatugma ng line ending. Gumagamit ang Windows ng CRLF (\r\n) bilang line ending. Ang macOS at Linux ay gumagamit lamang ng LF (\n). Ang text na na-paste sa iba’t ibang platform ay nagdadala ng mga nalalasing \r character na hindi nakikita ngunit nagdudulot ng mga rendering issue sa mga terminal, code editor, at command-line tool.
Ano ang Kaya nitong Linisin?
Mga cleanup option:
- Trim bawat line: Tanggalin ang spaces sa simula at dulo ng bawat line.
- Pagsamahin ang extra spaces: Gawing isang space ang paulit-ulit na spaces, tabs, at non-breaking spaces.
- Tanggalin ang blank lines: Burahin lahat ng blank lines mula sa text.
- Limitahan ang magkakasunod na blank lines (max 1): Panatilihin ang paragraph breaks pero i-collapse ang maraming magkakasunod na blank lines sa isa.
- Alisin ang mga invisible na character: Tanggalin ang zero-width spaces, BOM characters, at soft hyphens na hindi nakikita pero nagdudulot ng problema sa editors, databases, at search engines.
- Gawing tuwid ang mga smart quotes: I-convert ang typographic curly quotes (
""'') sa straight quotes ("'), kapaki-pakinabang para sa code, markdown, at data entry. - Alisin ang mga HTML tag: Tanggalin ang
<b>,<p>,<span>, at lahat ng iba pang HTML markup, iwanan lang ang plain text content. - Tanggalin ang duplicate lines: Panatilihin ang unang kopya ng bawat line at alisin ang kasunod na duplicates.
Transform:
- Gawing spaces ang line breaks: Gawing isang paragraph ang multi-line text.
Paano Gamitin
- I-paste o i-type ang text sa input field.
- Piliin ang cleanup options na gusto mong gamitin.
- Agad na nag-a-update ang result habang nagta-type ka o nagbabago ng options.
- I-click ang Mag-upload para mag-load ng local text file.
- I-click ang Kopyahin para kopyahin ang result, o I-download para i-save bilang
.txtfile.
Mga Halimbawa Bago at Pagkatapos
Kopya mula sa PDF na may extra spaces at sirang linya:
Bago:
This is a sentence with extra spaces. It has a leading indent too.
Pagkatapos (Trim bawat line + Pagsamahin ang extra spaces):
This is a sentence with extra spaces. It has a leading indent too.
HTML-pasted na content mula sa website o CMS:
Bago:
<p><strong>Project Update</strong></p> <ul> <li>Task 1 is complete</li> <li>Task 2 is in progress</li> </ul>
Pagkatapos (Alisin ang mga HTML tag + Tanggalin ang blank lines):
Project Update Task 1 is complete Task 2 is in progress
Smart quotes mula sa Word o Google Docs:
Bago:
He said “this won’t work” and closed the file.
Pagkatapos (Gawing tuwid ang mga smart quotes):
He said “this won’t work” and closed the file.
Labis na blank lines sa pagitan ng mga talata:
Bago:
Introduction paragraph. Second section. Final notes.
Pagkatapos (Limitahan ang magkakasunod na blank lines (max 1)):
Introduction paragraph. Second section. Final notes.
Alisin ang mga Invisible na Character
Ang text na kinopya mula sa PDFs, Word documents, at web pages ay madalas naglalaman ng invisible characters na imposibleng makita ng mata: zero-width spaces (U+200B), BOM (U+FEFF), at soft hyphens (U+00AD). Maaari nitong sirain ang word counts, search functions, spell checkers, at database entries.
I-enable ang Alisin ang mga invisible na character para alisin silang lahat sa isang hakbang. Naka-on ito by default.
Sanggunian sa Whitespace at Invisible Characters
| Character | Unicode | Pangalan | Karaniwang Pinagmulan |
|---|---|---|---|
| (space) | U+0020 | Space | Lahat ng source |
| (tab) | U+0009 | Horizontal tab | Code, spreadsheet |
| | U+00A0 | Non-breaking space | HTML, Word, Google Docs |
| (hindi nakikita) | U+200B | Zero-width space | Mga web page, PDF, Wikipedia |
| (hindi nakikita) | U+200C | Zero-width non-joiner | Web content, RTL text |
| (hindi nakikita) | U+200D | Zero-width joiner | Mga emoji sequence, web content |
| (hindi nakikita) | U+00AD | Soft hyphen | Word, mga typesetting tool |
| (hindi nakikita) | U+FEFF | BOM / Zero-width no-break space | Windows Notepad, mga UTF-8 export |
| (hindi nakikita) | U+2028 | Line separator | Mga legacy system |
| (hindi nakikita) | U+2029 | Paragraph separator | Mga legacy system |
Alisin ang mga invisible na character ang target ay U+200B, U+200C, U+200D, U+FEFF, at U+00AD. Pagsamahin ang extra spaces ang hinahawakan ay U+00A0 kasama ang regular spaces at tabs. Ang mga line ending na U+2028 at U+2029 ay awtomatikong nino-normalize.
I-collapse ang Extra Spaces
Ang Pagsamahin ang extra spaces option ay nagpapalit ng paulit-ulit na whitespace — kasama ang tabs at non-breaking spaces ( , U+00A0) na karaniwan sa HTML-pasted content — ng isang regular space. I-enable rin ang Trim bawat line para alisin ang leading at trailing whitespace sa bawat line.
Alisin ang HTML Tags at Gawing Tuwid ang Smart Quotes
Alisin ang mga HTML tag ay kapaki-pakinabang kapag nagko-kopya ng rich text mula sa websites, emails, o CMS editors. Tinatanggal nito ang lahat ng markup at iniiwan lang ang readable text content.
Gawing tuwid ang mga smart quotes ay nagko-convert ng typographic curly quotes pabalik sa standard ASCII quotes. Awtomatikong pinalitan ng word processors at web editors ang straight quotes ng curly quotes, na maaaring magdulot ng problema sa code, CSV files, at structured data.
Kontrolin ang Blank Lines
Pumili sa pagitan ng dalawang mutually exclusive na option:
- Tanggalin ang blank lines ay nagtatanggal ng lahat ng blank lines para sa compact, continuous na output.
- Limitahan ang magkakasunod na blank lines (max 1) ay nag-co-collapse ng maraming magkakasunod na blank lines sa isa, pinapanatili ang paragraph breaks habang tinatanggal ang sobrang espasyo.
Paglilinis ng Text mula sa Mga Partikular na Source
Mula sa Google Docs
Nagsusulat ang Google Docs ng HTML sa clipboard kapag nagkopya ka. Ang na-paste na resulta ay madalas naglalaman ng mga non-breaking space para sa indentation, smart quotes, at paminsan-minsang invisible Unicode marks. Inirerekomendang kombinasyon: Gawing tuwid ang mga smart quotes + Pagsamahin ang extra spaces + Trim bawat line. Para sa mga structured na dokumento, i-enable rin ang Alisin ang mga invisible na character.
Mula sa Microsoft Word
Ang Word ay ang pinaka-agresibong smart-typography engine sa karaniwang paggamit. Nagco-convert ito ng straight quotes sa curly quotes, double hyphens sa em dashes, at naglalagay ng non-breaking spaces sa mga partikular na posisyon. Ang pag-paste ng Word content sa code, markdown, o CSV ay halos palaging nangangailangan ng Gawing tuwid ang mga smart quotes at Pagsamahin ang extra spaces kahit minimum.
Mula sa PDF
Ang mga PDF ay ang pinaka-magulo na source. Asahan ang extra spaces sa pagitan ng mga salita, mga hyphenated na salita na naka-split sa buong linya, at invisible characters mula sa internal encoding ng PDF. Pinakamainam na kombinasyon: Alisin ang mga invisible na character + Pagsamahin ang extra spaces + Trim bawat line. Magdagdag ng Tanggalin ang blank lines o Limitahan ang magkakasunod na blank lines (max 1) depende sa kung gusto mong panatilihin ang mga paragraph break.
Mula sa Excel o Google Sheets
Ang mga cell na kinopya mula sa mga spreadsheet ay nagdadala ng mga tab character sa pagitan ng mga column at line break sa loob ng mga cell. Gamitin ang Pagsamahin ang extra spaces para i-normalize ang whitespace at Tanggalin ang blank lines para linisin ang mga blank na row.
Mga Line Ending: CRLF vs LF
Ang bawat linya ng text ay nagtatapos sa isa o higit pang invisible control characters na nagsasabi sa mga application kung saan nagtatapos ang isang linya:
- LF (
\n, U+000A): macOS, Linux, Unix — ang modernong pamantayan para sa karamihan ng mga development environment. - CRLF (
\r\n, U+000D + U+000A): Windows at DOS — ang pamantayan para sa mga Windows application at text file export. - CR (
\r, U+000D): Mga mas lumang Mac system (bago ang OS X) — bihira ngayon.
Kapag lumilipat ang text sa pagitan ng mga platform, ang \r character ay nagdudulot ng mga nakikitang artifact — ang ^M na simbolo sa vim, sirang line count sa mga script — o tahimik na mga error sa string processing. Awtomatikong nino-normalize ng tool na ito ang lahat ng line ending sa LF bago mag-apply ng anumang iba pang opsyon, anuman ang source platform.
Data bilang Parameter
Pwede mong i-pre-fill ang input gamit ang ?input=:
https://www.uprek.com/tl/tools/tagalinis-ng-teksto?input=hello%20%20world
Para sa private text, iwasang magbahagi ng URL na may mismong content.
Ang Iyong Text ay Hindi Kailanman Umaalis sa Browser Mo
Kapag naglilinis ng text na naglalaman ng internal documents, customer data, API keys, o confidential communications, ang pag-paste nito sa server-side tool ay lumilikha ng tunay na security risk.
Ang pilosopiya ng UPREK ay simple: Ang iyong data ay sa iyo. Hindi namin ito gusto, hindi namin ito kinolekta, at hindi namin ito makikita.
- 100% Local Processing: Lahat ng cleaning at transformation algorithms ay tumatakbo nang lokal sa iyong makina sa pamamagitan ng JavaScript engine ng browser.
- Zero Server Uploads: Ang iyong input text ay hindi kailanman dinadala sa, pinoproseso ng, o ina-upload sa aming mga server.
- Walang Logs o Backups: Hindi namin nilo-log, ini-store, o bina-backup ang anumang text o file na iyong ini-input sa tool na ito.
- Instant Deletion: Ang text na ginagawa mo ay nasa active memory lamang ng iyong browser. Isara ang tab at mawawala na ang data.
- Enterprise-Grade Security: Dahil hindi namin kailanman inaangkin o inililipat ang iyong data, ang paggamit ng UPREK ay nagpapanatiling immune ka sa server-side data breaches.
Mga Tunay na Use Case
1. Paglilinis ng Text na Kinopya mula sa PDF
Ang mga PDF ay kilala sa pagdaragdag ng invisible characters, non-breaking spaces, at sirang line breaks kapag kinokopya ang text. I-enable ang Alisin ang mga invisible na character, Pagsamahin ang extra spaces, at Trim bawat line para mabilis na makagawa ng malinis, portable na text mula sa anumang PDF extract.
2. Pag-strip ng HTML mula sa CMS Exports
Kapag nag-e-export ng content mula sa WordPress, Notion, o anumang rich-text CMS, ang na-export na text ay madalas puno ng inline HTML tags. Gamitin ang Alisin ang mga HTML tag para bawasan ito sa plain text bago mag-import sa ibang lugar o i-process gamit ang scripts.
3. Pag-normalize ng Data Bago Mag-import sa Database
Ang text na isinumite ng user ay madalas dumadating na may inconsistent na whitespace, smart quotes, at invisible characters. Ang pagpapatakbo nito sa cleaner bago ilagay sa database ay nagpipigil ng encoding issues, sirang queries, at search index corruption.
4. Pag-aayos ng Smart Quotes sa Code at Markdown
Ang mga word processor at web editor ay awtomatikong pinapalitan ang straight quotes ng typographic curly quotes. Sinisira nito ang mga code sample, YAML files, at markdown. Gamitin ang Gawing tuwid ang mga smart quotes para i-convert ang mga ito pabalik sa ASCII-safe na " at ' sa isang hakbang.
5. Pag-deduplicate at Paglilinis ng mga Listahan
Kapag nag-a-aggregate ng data mula sa maraming source — mga search result, na-export na rows, mga crawled URL — madalas kang makakuha ng duplicate o inconsistently formatted na entries. Pagsamahin ang Tanggalin ang duplicate lines, Trim bawat line, at Tanggalin ang blank lines para makagawa ng malinis, normalized na listahan na handang maproseso pa.
6. Paghahanda ng Log Snippets para sa Documentation
Ang mga server log at debug output ay madalas naglalaman ng extra whitespace, carriage returns, at Unicode line separators na nag-re-render nang hindi inaasahan sa documentation o tickets. Nino-normalize ng cleaner ang lahat ng line endings at nag-aalis ng noise characters, na nagpo-produce ng malinis na text na handang i-paste sa Jira, Confluence, o pull request description.
Mga Madalas Itanong
Ang text na ini-paste ko ba ay talagang private?
Oo. Ang iyong text ay pinoproseso nang buo sa loob ng JavaScript engine ng iyong browser at hindi kailanman ipinapadala sa anumang server. Hindi makikita, maa-access, o mai-store ng UPREK ang text na iyong ini-paste sa tool na ito.
Ano ang mga invisible characters at bakit mahalaga ang mga ito?
Ang mga invisible character ay Unicode code points na walang nakikitang glyph: zero-width spaces (U+200B), mga BOM marker (U+FEFF), at soft hyphens (U+00AD). Palihim silang idinaragdag kapag nagko-kopya mula sa mga PDF, Word document, at web page. Maaari nilang sirain ang mga string comparison, gawing corrupt ang mga search index, magdulot ng hindi inaasahang gawi sa code, at mag-inflate ng character counts nang walang anumang nakikitang palatandaan.
Ano ang pagkakaiba ng "Tanggalin ang blank lines" at "Limitahan ang magkakasunod na blank lines (max 1)"?
Tanggalin ang blank lines ay nagtatanggal ng lahat ng blank lines, na gumagawa ng compact na block na walang gaps. Limitahan ang magkakasunod na blank lines (max 1) ay nagco-collapse ng mga sunud-sunod na dalawa o higit pang blank lines sa isang blank line, pinapanatili ang paragraph structure habang tinatanggal ang labis na espasyo. Ang dalawang option ay mutually exclusive — ang pag-enable ng isa ay nagdi-disable sa isa pa.
Binabago ba ng tool ang aktwal na content ng aking text?
Sa mga paraan lamang na iyong pinili. Ang pag-trim ng whitespace, pag-collapse ng spaces, at pag-alis ng invisible characters ay nakakaapekto lamang sa whitespace at control characters — ang iyong mga nababasang salita at pangungusap ay hindi naaapektuhan. Alisin ang mga HTML tag ay nagtatanggal ng markup ngunit nananatiling buo ang text content. Gawing tuwid ang mga smart quotes ay nagbabago ng mismong mga quote character, na siyang nilalayong gawi para sa code-safe na output.
Kaya bang maglinis ng napakalaking text files?
Oo. Lahat ng processing ay tumatakbo sa iyong browser at hindi napapailalim sa server upload limit. Ang performance ay nakasalalay sa iyong device, ngunit kaya ng tool na hawakan ang mga karaniwang log file at document export nang walang problema.
Paano mag-alis ng special characters mula sa text?
Ang "special characters" ay karaniwang nangangahulugang isa sa tatlong bagay: mga nakikitang punctuation at simbolo (@, #, $), mga Unicode character na wala sa standard ASCII, o invisible control characters. Tinutukoy ng tool na ito ang ikatlong kategorya — mga invisible character na tahimik na nasisira ang text. Hindi nito tinatanggal ang mga nakikitang punctuation o simbolo, dahil ang mga iyon ay karaniwang bahagi ng kahulugan ng text.
Ano ang BOM character at bakit nagdudulot ito ng problema?
Ang BOM ay nangangahulugang Byte Order Mark (U+FEFF). Orihinal itong ginamit para ipahiwatig ang byte order ng UTF-16 na file. Sa mga UTF-8 na file, ang BOM ay hindi kinakailangan at kadalasang nakapipinsala: nagti-trigger ito ng "invalid character" na error sa mga JSON parser, SQL import, at command-line tool na hindi inaasahan ito sa simula ng file. Ang mga BOM character ay karaniwang idinaragdag ng Windows Notepad at ilang Excel export. I-enable ang Alisin ang mga invisible na character para tanggalin ang mga ito.
Bakit ang text mula sa PDF ay may kakaibang spacing?
Ang mga PDF ay nag-iimbak ng mga character sa absolute na koordinado ng pahina at hindi bilang flowing text. Kapag nagkopya ka, tinatantya ng PDF reader ang mga hangganan ng salita at linya mula sa mga koordinadong iyon — isang proseso na madalas naglalagay ng extra spaces sa pagitan ng mga salita, nagbe-break ng mga hyphenated na salita sa buong linya, at nagdadagdag ng invisible encoding characters. Gamitin ang Pagsamahin ang extra spaces + Trim bawat line + Alisin ang mga invisible na character nang magkasama para ayusin ang pinakakaraniwang mga artifact ng PDF copy.
Talaan ng mga Pagbabago
v1.1.0 Mayo 20, 2026
- Muling binuo ang UI na may line number sidebars, bordered panels, toolbar, at size counters
- Nagdagdag ng apat na bagong cleaning option: alisin ang invisible characters, ituwid ang smart quotes, tanggalin ang HTML tags, limitahan ang sunod-sunod na blank na linya sa isa
- Inayos ang collapse-spaces para pangasiwaan din ang non-breaking spaces (U+00A0)
v1.0.0 Mayo 10, 2026
- Alisin ang sobrang spaces, i-trim ang bawat linya, alisin ang blank na linya, at i-deduplicate ang mga linya
- Mag-upload ng text file; kopyahin o i-download ang output