ทดลองใช้งาน
ประมวลผล NLP ภาษาไทยทั้งหมดในเบราว์เซอร์ผ่าน WebAssembly — ไม่ต้องใช้เซิร์ฟเวอร์ ตัดคำ, ดู POS & NE tag, แบ่งประโยค หรือทดสอบการเทียบเสียง
Each sentence ends at a new line,
! ?,
. followed by a space, or Thai markers
ฯ ๚ ๛.
Thai text with no markers will appear as a single sentence.
Samples:
Splits on: newline · ! ? . · Thai markers ฯ ๚ ๛ · Plain Thai prose without punctuation stays as one sentence.
Phonetic Soundex
12 consonant groups · 4-char code · most widely used
Code —
vs
Code —
Try:
Text Normalizer
Collapses duplicate tone marks and composes nikhahit + sara aa into sara am (อำ).
Try:
Before
—
After
—
removed / collapsed
composed
ประเภท Token
- Thai · Named entity — ภาษาไทย
- Latin — ภาษาอังกฤษ
- Number — ตัวเลข
- Punctuation — เครื่องหมาย
- Emoji
FTS mode เพิ่มเติม
- POS — 13 หมวดหมู่ตาม ORCHID
- NE — บุคคล · สถานที่ · องค์กร
- Stop — stopword ในตัว
- Roman — แปลง RTGS
- Synonyms — ปรับตัวเลข
อัลกอริทึม Soundex
- LK82 — 12 กลุ่ม · 4 ตัวอักษร
- Udom83 — 14 กลุ่ม · แยก ล/ร ชัดเจน
- MetaSound — 3 ตัว/พยางค์
- ใช้สำหรับ fuzzy / phonetic FTS search