Làm sạch văn bản ngay lập tức: Dán văn bản sao chép từ tài liệu, email, PDF, bảng tính, website hoặc ứng dụng chat để xử lý các lỗi định dạng phổ biến — kể cả các ký tự ẩn không nhìn thấy được — ngay trong trình duyệt.
Công cụ làm sạch văn bản là gì?
Công cụ làm sạch văn bản là tiện ích giúp xóa các ký tự không mong muốn và các vấn đề định dạng trong văn bản thuần. Công cụ biến nội dung sao chép lộn xộn thành văn bản sạch hơn, dễ chỉnh sửa, đăng tải, dán vào form hoặc xử lý bằng công cụ khác.
Công cụ đặc biệt hữu ích khi văn bản sao chép từ PDF, Word hoặc trang web chứa ký tự ẩn, khoảng trắng không ngắt dòng, dấu ngoặc kép cong, hoặc thẻ HTML không nhìn thấy nhưng gây lỗi trong trình soạn thảo code, cơ sở dữ liệu và công cụ tìm kiếm.
Tại Sao Văn Bản Sao Chép Lại Bị Lộn Xộn?
Vấn đề hiếm khi bắt đầu từ bạn. Nó bắt đầu từ cách các ứng dụng lưu trữ và truyền tải văn bản.
PDF lưu vị trí, không lưu luồng văn bản. PDF là tài liệu có bố cục cố định. Nó lưu từng ký tự tại một tọa độ tuyệt đối trên trang — không có khái niệm “từ” hay “dòng” như một luồng văn bản. Khi sao chép từ PDF, trình đọc tái tạo luồng bằng cách suy luận ranh giới từ từ vị trí ký tự. Quá trình tái tạo này không hoàn hảo: nó chèn thêm khoảng trắng giữa các ký tự, cắt đứt các từ có dấu gạch ngang qua ranh giới dòng, và không phân biệt được ngắt dòng trực quan với ngắt đoạn văn.
Định dạng clipboard HTML. Hầu hết các ứng dụng hiện đại — trình duyệt, email client, Slack, Notion, Google Docs — ghi HTML vào clipboard khi bạn sao chép. Khi dán vào trường văn bản thuần, ứng dụng nhận sẽ xóa các thẻ, nhưng các tàn dư vẫn còn: khoảng trắng không ngắt dòng dùng để thụt lề, các dấu Unicode ẩn từ cấu trúc markup gốc.
Trình xử lý văn bản áp dụng ký pháp chữ in thông minh. Microsoft Word, Google Docs và Apple Pages tự động chuyển dấu ngoặc thẳng thành dấu ngoặc cong, dấu gạch đôi thành em dash, và khoảng trắng thường thành khoảng trắng không ngắt dòng trong một số ngữ cảnh. Hữu ích bên trong trình xử lý văn bản, nhưng là nguồn gốc gây lỗi ký tự ở mọi nơi khác.
Không khớp ký tự kết thúc dòng. Windows dùng CRLF (\r\n) làm ký tự kết thúc dòng. macOS và Linux chỉ dùng LF (\n). Văn bản dán qua các nền tảng mang theo các ký tự \r lạc lõng — không nhìn thấy được nhưng gây lỗi hiển thị trong terminal, trình soạn thảo code và các công cụ dòng lệnh.
Công cụ này có thể làm gì?
Tùy chọn làm sạch:
- Cắt khoảng trắng đầu/cuối dòng: Xóa khoảng trắng ở đầu và cuối mỗi dòng.
- Gộp nhiều khoảng trắng thành một: Chuyển nhiều khoảng trắng, tab và khoảng trắng không ngắt dòng liên tiếp thành một khoảng trắng.
- Xóa dòng trống: Xóa tất cả các dòng trống khỏi văn bản.
- Giới hạn dòng trống liên tiếp (tối đa 1): Giữ nguyên phân đoạn nhưng gộp nhiều dòng trống liên tiếp thành một.
- Xóa ký tự ẩn: Xóa khoảng trắng zero-width, ký tự BOM và dấu gạch ngang mềm — các ký tự không nhìn thấy nhưng gây lỗi trong trình soạn thảo, cơ sở dữ liệu và công cụ tìm kiếm.
- Chuyển ngoặc kép cong thành thẳng: Chuyển dấu ngoặc kép kiểu chữ in (
""'') thành dấu ngoặc thẳng ("'), hữu ích cho code, markdown và nhập liệu. - Xóa thẻ HTML: Xóa
<b>,<p>,<span>và tất cả thẻ HTML khác, chỉ giữ lại nội dung văn bản thuần. - Xóa dòng trùng lặp: Giữ dòng xuất hiện đầu tiên và xóa các dòng lặp lại phía sau.
Chuyển đổi:
- Đổi xuống dòng thành khoảng trắng: Chuyển văn bản nhiều dòng thành một đoạn văn.
Cách sử dụng
- Dán hoặc nhập văn bản vào ô đầu vào.
- Chọn các tùy chọn làm sạch muốn áp dụng.
- Kết quả cập nhật ngay lập tức khi bạn nhập hoặc thay đổi tùy chọn.
- Nhấn Tải lên để đọc văn bản từ file trên máy.
- Nhấn Sao chép để sao chép kết quả, hoặc Tải xuống để lưu thành file
.txt.
Ví Dụ Trước và Sau Khi Làm Sạch
Sao chép từ PDF với khoảng trắng thừa và dòng bị vỡ:
Trước:
This is a sentence with extra spaces. It has a leading indent too.
Sau (Cắt khoảng trắng đầu/cuối dòng + Gộp nhiều khoảng trắng thành một):
This is a sentence with extra spaces. It has a leading indent too.
Nội dung dán từ HTML của website hoặc CMS:
Trước:
<p><strong>Project Update</strong></p> <ul> <li>Task 1 is complete</li> <li>Task 2 is in progress</li> </ul>
Sau (Xóa thẻ HTML + Xóa dòng trống):
Project Update Task 1 is complete Task 2 is in progress
Dấu ngoặc kép cong từ Word hoặc Google Docs:
Trước:
He said “this won’t work” and closed the file.
Sau (Chuyển ngoặc kép cong thành thẳng):
He said “this won’t work” and closed the file.
Quá nhiều dòng trống giữa các đoạn văn:
Trước:
Introduction paragraph. Second section. Final notes.
Sau (Giới hạn dòng trống liên tiếp (tối đa 1)):
Introduction paragraph. Second section. Final notes.
Xóa ký tự ẩn
Văn bản sao chép từ PDF, Word và trang web thường chứa các ký tự ẩn không thể nhìn thấy bằng mắt: khoảng trắng zero-width (U+200B), BOM (U+FEFF) và dấu gạch ngang mềm (U+00AD). Các ký tự này có thể làm sai số từ, phá vỡ tìm kiếm, kiểm tra chính tả và bản ghi cơ sở dữ liệu.
Bật Xóa ký tự ẩn để loại bỏ tất cả trong một bước. Tùy chọn này được bật mặc định.
Bảng Tham Chiếu Khoảng Trắng và Ký Tự Ẩn
| Ký tự | Unicode | Tên | Nguồn phổ biến |
|---|---|---|---|
| (dấu cách) | U+0020 | Dấu cách | Tất cả nguồn |
| (tab) | U+0009 | Tab ngang | Code, bảng tính |
| | U+00A0 | Khoảng trắng không ngắt dòng | HTML, Word, Google Docs |
| (ẩn) | U+200B | Khoảng trắng zero-width | Trang web, PDF, Wikipedia |
| (ẩn) | U+200C | Zero-width non-joiner | Nội dung web, văn bản RTL |
| (ẩn) | U+200D | Zero-width joiner | Chuỗi emoji, nội dung web |
| (ẩn) | U+00AD | Dấu gạch ngang mềm | Word, công cụ dàn trang |
| (ẩn) | U+FEFF | BOM / Khoảng trắng zero-width không ngắt dòng | Windows Notepad, xuất UTF-8 |
| (ẩn) | U+2028 | Dấu phân cách dòng | Hệ thống cũ |
| (ẩn) | U+2029 | Dấu phân cách đoạn văn | Hệ thống cũ |
Xóa ký tự ẩn nhắm vào U+200B, U+200C, U+200D, U+FEFF và U+00AD. Gộp nhiều khoảng trắng thành một xử lý U+00A0 cùng với khoảng trắng thường và tab. Các ký tự kết thúc dòng U+2028 và U+2029 được chuẩn hóa tự động.
Gộp khoảng trắng thừa
Tùy chọn Gộp nhiều khoảng trắng thành một thay các khoảng trắng lặp lại — bao gồm tab và khoảng trắng không ngắt dòng ( , U+00A0) phổ biến trong nội dung dán từ HTML — bằng một khoảng trắng thường. Bật thêm Cắt khoảng trắng đầu/cuối dòng để xóa cả khoảng trắng ở đầu và cuối mỗi dòng.
Xóa thẻ HTML và chuyển ngoặc kép cong
Xóa thẻ HTML hữu ích khi sao chép văn bản có định dạng từ website, email hoặc CMS. Tùy chọn xóa toàn bộ thẻ markup và chỉ giữ lại nội dung văn bản thuần.
Chuyển ngoặc kép cong thành thẳng chuyển đổi dấu ngoặc kép kiểu chữ in về dạng ASCII chuẩn. Trình xử lý văn bản và trình soạn thảo web tự động thay dấu ngoặc thẳng bằng dấu ngoặc cong, điều này có thể gây lỗi trong code, file CSV và dữ liệu có cấu trúc.
Kiểm soát dòng trống
Chọn một trong hai tùy chọn loại trừ lẫn nhau:
- Xóa dòng trống xóa toàn bộ dòng trống để tạo đầu ra liền mạch.
- Giới hạn dòng trống liên tiếp (tối đa 1) gộp nhiều dòng trống liên tiếp thành một, giữ nguyên phân đoạn nhưng xóa khoảng cách thừa.
Làm Sạch Văn Bản Từ Các Nguồn Cụ Thể
Từ Google Docs
Google Docs ghi HTML vào clipboard khi bạn sao chép. Kết quả dán thường bao gồm khoảng trắng không ngắt dòng dùng để thụt lề, dấu ngoặc kép cong và đôi khi có các dấu Unicode ẩn. Tổ hợp khuyến nghị: Chuyển ngoặc kép cong thành thẳng + Gộp nhiều khoảng trắng thành một + Cắt khoảng trắng đầu/cuối dòng. Với tài liệu có cấu trúc, hãy bật thêm Xóa ký tự ẩn.
Từ Microsoft Word
Word là công cụ ký pháp chữ in thông minh mạnh nhất trong số các ứng dụng phổ biến. Nó chuyển dấu ngoặc thẳng thành dấu ngoặc cong, dấu gạch đôi thành em dash và chèn khoảng trắng không ngắt dòng ở các vị trí cụ thể. Dán nội dung Word vào code, markdown hoặc CSV hầu như luôn cần Chuyển ngoặc kép cong thành thẳng và Gộp nhiều khoảng trắng thành một ở mức tối thiểu.
Từ PDF
PDF là nguồn lộn xộn nhất. Hãy chuẩn bị cho khoảng trắng thừa giữa các từ, các từ có dấu gạch ngang bị cắt đứt qua ranh giới dòng và các ký tự ẩn từ mã hóa nội bộ của PDF. Tổ hợp tốt nhất: Xóa ký tự ẩn + Gộp nhiều khoảng trắng thành một + Cắt khoảng trắng đầu/cuối dòng. Thêm Xóa dòng trống hoặc Giới hạn dòng trống liên tiếp (tối đa 1) tùy thuộc vào việc bạn có muốn giữ nguyên ngắt đoạn văn hay không.
Từ Excel hoặc Google Sheets
Các ô sao chép từ bảng tính mang theo ký tự tab giữa các cột và ngắt dòng trong ô. Dùng Gộp nhiều khoảng trắng thành một để chuẩn hóa khoảng trắng và Xóa dòng trống để dọn dẹp các hàng trống.
Ký Tự Kết Thúc Dòng: CRLF và LF
Mỗi dòng văn bản kết thúc bằng một hoặc nhiều ký tự điều khiển ẩn cho ứng dụng biết dòng kết thúc ở đâu:
- LF (
\n, U+000A): macOS, Linux, Unix — tiêu chuẩn hiện đại cho hầu hết môi trường phát triển. - CRLF (
\r\n, U+000D + U+000A): Windows và DOS — tiêu chuẩn cho các ứng dụng Windows và xuất file văn bản. - CR (
\r, U+000D): Các hệ thống Mac cũ (trước OS X) — hiếm gặp ngày nay.
Khi văn bản di chuyển giữa các nền tảng, ký tự \r gây ra các tàn dư hiển thị — ký hiệu ^M trong vim, số dòng sai trong script — hoặc lỗi âm thầm trong xử lý chuỗi. Công cụ này chuẩn hóa tất cả ký tự kết thúc dòng về LF tự động trước khi áp dụng bất kỳ tùy chọn nào khác, bất kể nền tảng nguồn.
Truyền dữ liệu bằng tham số URL
Bạn có thể điền sẵn ô đầu vào bằng tham số ?input=:
https://www.uprek.com/vi/tools/cong-cu-lam-sach-van-ban?input=xin%20%20chao
Với văn bản riêng tư, không nên chia sẻ URL có chứa chính nội dung đó.
Văn bản của bạn không bao giờ rời khỏi trình duyệt
Khi làm sạch văn bản chứa tài liệu nội bộ, dữ liệu khách hàng, API key hoặc thông tin liên lạc bảo mật, việc dán vào công cụ xử lý trên máy chủ tạo ra rủi ro bảo mật thực sự.
Triết lý của UPREK rất đơn giản: Dữ liệu của bạn là của bạn. Chúng tôi không muốn nó, không thu thập nó và không thể xem nó.
- 100% xử lý cục bộ: Tất cả thuật toán làm sạch và chuyển đổi chạy trực tiếp trên máy của bạn thông qua JavaScript engine của trình duyệt.
- Không tải lên máy chủ: Văn bản đầu vào không bao giờ được định tuyến qua, xử lý bởi hoặc tải lên máy chủ của chúng tôi.
- Không ghi log hay sao lưu: Chúng tôi không ghi log, lưu trữ hay sao lưu bất kỳ văn bản hoặc file nào bạn nhập vào công cụ này.
- Xóa ngay lập tức: Văn bản bạn làm việc chỉ tồn tại trong bộ nhớ hoạt động của trình duyệt. Đóng tab là dữ liệu biến mất.
- Bảo mật cấp doanh nghiệp: Vì chúng tôi không bao giờ sở hữu hay truyền dữ liệu của bạn, việc dùng UPREK giúp bạn hoàn toàn miễn nhiễm với các vụ rò rỉ dữ liệu phía máy chủ.
Trường hợp sử dụng thực tế
1. Làm sạch văn bản sao chép từ PDF
PDF nổi tiếng là hay chèn ký tự ẩn, khoảng trắng không ngắt dòng và xuống dòng bị vỡ khi sao chép văn bản. Bật Xóa ký tự ẩn, Gộp nhiều khoảng trắng thành một và Cắt khoảng trắng đầu/cuối dòng để nhanh chóng tạo ra văn bản sạch, dễ di chuyển từ bất kỳ đoạn trích PDF nào.
2. Xóa HTML từ nội dung xuất CMS
Khi xuất nội dung từ WordPress, Notion hoặc CMS rich-text bất kỳ, văn bản xuất thường đầy thẻ HTML inline. Dùng Xóa thẻ HTML để chuyển về văn bản thuần trước khi nhập vào nơi khác hoặc xử lý bằng script.
3. Chuẩn hóa dữ liệu trước khi nhập vào cơ sở dữ liệu
Văn bản do người dùng nhập thường đến với khoảng trắng không nhất quán, ngoặc kép cong và ký tự ẩn. Chạy qua công cụ làm sạch trước khi chèn vào cơ sở dữ liệu giúp tránh lỗi encoding, câu truy vấn bị hỏng và sai lệch chỉ mục tìm kiếm.
4. Sửa ngoặc kép cong trong code và Markdown
Trình xử lý văn bản và trình soạn thảo web tự động thay dấu ngoặc thẳng bằng dấu ngoặc cong kiểu chữ in. Điều này làm hỏng code, file YAML và Markdown. Dùng Chuyển ngoặc kép cong thành thẳng để chuyển về dấu " và ' an toàn cho ASCII chỉ trong một bước.
5. Xóa trùng lặp và làm sạch danh sách
Khi tổng hợp dữ liệu từ nhiều nguồn — kết quả tìm kiếm, hàng xuất, URL thu thập được — bạn thường có các mục trùng lặp hoặc định dạng không nhất quán. Kết hợp Xóa dòng trùng lặp, Cắt khoảng trắng đầu/cuối dòng và Xóa dòng trống để tạo danh sách chuẩn hóa, sẵn sàng xử lý tiếp.
6. Chuẩn bị đoạn log cho tài liệu
Log máy chủ và đầu ra debug thường chứa khoảng trắng thừa, carriage return và dấu phân cách dòng Unicode có thể hiển thị lạ trong tài liệu hoặc ticket. Công cụ chuẩn hóa tất cả kết thúc dòng và xóa ký tự nhiễu, tạo ra văn bản sạch sẵn sàng dán vào Jira, Confluence hoặc mô tả pull request.
Câu hỏi thường gặp
Văn bản tôi dán có thực sự được bảo mật không?
Có. Văn bản của bạn được xử lý hoàn toàn trong JavaScript engine của trình duyệt và không bao giờ được truyền đến bất kỳ máy chủ nào. UPREK không thể xem, truy cập hay lưu trữ văn bản bạn dán vào công cụ này.
Ký tự ẩn là gì và tại sao chúng quan trọng?
Ký tự ẩn là các code point Unicode không có ký tự hiển thị: khoảng trắng zero-width (U+200B), BOM (U+FEFF) và dấu gạch ngang mềm (U+00AD). Chúng được chèn vào một cách thầm lặng khi sao chép từ PDF, Word và trang web, có thể phá vỡ so sánh chuỗi, làm hỏng chỉ mục tìm kiếm và gây ra hành vi bất ngờ trong code mà không có dấu hiệu nhìn thấy nào.
Sự khác biệt giữa "Xóa dòng trống" và "Giới hạn dòng trống liên tiếp (tối đa 1)" là gì?
Xóa dòng trống xóa toàn bộ dòng trống, tạo ra khối văn bản liền mạch không có khoảng trống. Giới hạn dòng trống liên tiếp (tối đa 1) gộp các chuỗi hai dòng trống liên tiếp trở lên thành một dòng trống, giữ nguyên cấu trúc đoạn văn trong khi xóa khoảng cách thừa. Hai tùy chọn loại trừ lẫn nhau — bật tùy chọn này tự động tắt tùy chọn kia.
Công cụ có thay đổi nội dung văn bản thực sự của tôi không?
Chỉ theo cách bạn chọn. Cắt khoảng trắng, gộp khoảng trắng và xóa ký tự ẩn chỉ ảnh hưởng đến ký tự khoảng trắng và điều khiển — các từ và câu có thể đọc được không bị thay đổi. Xóa thẻ HTML xóa markup nhưng giữ nguyên nội dung văn bản. Chuyển ngoặc kép cong thành thẳng thay đổi chính ký tự ngoặc kép, đây là hành vi mong muốn cho đầu ra an toàn với code.
Có thể làm sạch file văn bản rất lớn không?
Có. Tất cả xử lý chạy trong trình duyệt của bạn và không bị giới hạn tải lên máy chủ. Hiệu suất phụ thuộc vào thiết bị của bạn, nhưng công cụ xử lý các file log thông thường và xuất tài liệu mà không gặp vấn đề.
Làm thế nào để xóa ký tự đặc biệt khỏi văn bản?
"Ký tự đặc biệt" thường có nghĩa là một trong ba thứ: dấu câu và ký hiệu hiển thị được (@, #, $), ký tự Unicode ngoài ASCII chuẩn, hoặc các ký tự điều khiển ẩn. Công cụ này nhắm vào loại thứ ba — các ký tự ẩn làm hỏng văn bản một cách âm thầm. Nó không xóa dấu câu hay ký hiệu hiển thị được, vì những thứ đó thường là một phần ý nghĩa của văn bản.
Ký tự BOM là gì và tại sao nó gây ra vấn đề?
BOM là viết tắt của Byte Order Mark (U+FEFF). Ban đầu nó được dùng để báo hiệu thứ tự byte của file UTF-16. Trong file UTF-8, BOM là không cần thiết và thường gây hại: nó kích hoạt lỗi "ký tự không hợp lệ" trong JSON parser, SQL import và các công cụ dòng lệnh không kỳ vọng nó ở đầu file. Ký tự BOM thường được chèn bởi Windows Notepad và một số xuất Excel. Bật Xóa ký tự ẩn để xóa chúng.
Tại sao văn bản từ PDF có khoảng cách lạ?
PDF lưu các ký tự ở tọa độ tuyệt đối trên trang thay vì như văn bản chảy. Khi bạn sao chép, trình đọc PDF ước tính ranh giới từ và dòng từ các tọa độ đó — một quá trình thường xuyên chèn thêm khoảng trắng giữa các từ, cắt đứt các từ có dấu gạch ngang qua ranh giới dòng và thêm các ký tự mã hóa ẩn. Dùng Gộp nhiều khoảng trắng thành một + Cắt khoảng trắng đầu/cuối dòng + Xóa ký tự ẩn cùng nhau để giải quyết các lỗi sao chép PDF phổ biến nhất.
Nhật ký thay đổi
v1.1.0 20 tháng 5, 2026
- Xây dựng lại giao diện với thanh số dòng, khung viền, thanh công cụ và bộ đếm kích thước
- Thêm bốn tùy chọn làm sạch mới: xóa ký tự vô hình, chỉnh thẳng dấu nháy thông minh, loại bỏ thẻ HTML, giới hạn dòng trống liên tiếp còn một
- Sửa tính năng thu gọn khoảng trắng để xử lý cả khoảng trắng không ngắt (U+00A0)
v1.0.0 10 tháng 5, 2026
- Xóa khoảng trắng thừa, cắt từng dòng, xóa dòng trống và loại bỏ dòng trùng lặp
- Tải lên file văn bản; sao chép hoặc tải xuống kết quả