อ้างอิง API

v0.8.2

Public API ของ kham-core — ไลบรารี pure Rust แบบ no_std เอกสารฉบับเต็มอยู่ที่ docs.rs/kham-core

docs.rs/kham-core ↗ PyPI: kham ↗ npm: kham-wasm ↗ kham.h (C FFI) ↗

โมดูล / ประเภท	Path	คำอธิบาย
Tokenizer	`kham_core::Tokenizer`	ตัดคำภาษาไทยด้วย Maximal Matching บน DAWG dictionary ในตัว
Token / TokenKind	`kham_core::Token`	Token แบบ zero-copy พร้อม byte span, char span และประเภทอักษร
normalizer	`kham_core::normalizer`	ปรับมาตรฐานข้อความไทย: ลบวรรณยุกต์ซ้ำ, รวม sara am
FtsTokenizer	`kham_core::fts::FtsTokenizer`	pipeline FTS: stopwords, synonyms, POS, NE, soundex ในครั้งเดียว
PosTagger	`kham_core::pos::PosTagger`	POS tagger 13 หมวดหมู่ มาจาก ORCHID tagset
NeTagger	`kham_core::ne::NeTagger`	จดจำ Named Entity: บุคคล สถานที่ องค์กร
RomanizationMap	`kham_core::romanizer`	แปลงคำภาษาไทยเป็นอักษรโรมัน RTGS
number	`kham_core::number`	จัดการตัวเลขภาษาไทย: แปลงหลัก, อ่านจำนวน, ข้อความบาท
sentence	`kham_core::sentence`	ตรวจหาจุดสิ้นสุดประโยค แบ่งย่อหน้าเป็นประโยค
soundex	`kham_core::soundex`	Phonetic codes: lk82, udom83, MetaSound และ cross-language ไทย–อังกฤษ
SpellChecker	`kham_core::spell::SpellChecker`	แก้คำสะกดผิด: หา candidate ระยะ Levenshtein ≤ 2 จัดอันดับด้วย lk82 + TNC frequency
KeyExtractor	`kham_core::keyword::KeyExtractor`	สกัดคำสำคัญ: TF × inverse-corpus-frequency, ตัด stopword ออก

Tokenizer

docs.rs ↗

ตัวตัดคำหลักใช้ DAWG dictionary ในตัวและตารางความถี่ TNC ประมวลผลด้วยอัลกอริทึม newmm (maximal matching) ร่วมกับ TCC boundary Token ทุกตัวเป็น zero-copy slice ของ input string

use kham_core::Tokenizer;

let tok = Tokenizer::new();

// ง่าย — list ของ string
let words: Vec<&str> = tok.segment("กินข้าวกับปลา")
    .into_iter().map(|t| t.text).collect();
// ["กิน", "ข้าว", "กับ", "ปลา"]

// รายละเอียด — Token struct พร้อม span
let tokens = tok.segment("ธนาคาร100แห่ง");
for t in &tokens {
    println!("{:8} chars={}..{} kind={:?}", t.text,
        t.char_span.start, t.char_span.end, t.kind);
}

// dictionary เอง — merge กับ built-in
let tok2 = Tokenizer::builder()
    .dict_words("ปัญญาประดิษฐ์\nแมชชีนเลิร์นนิง\n")
    .build();

use kham_core::{Tokenizer, TokenStream};

let tok = Tokenizer::new();

// Streaming — consume one token at a time
let mut stream = tok.segment_stream("ธนาคาร100แห่ง");

// next_word() — skip whitespace
while let Some(t) = stream.next_word() {
    println!("{} ({:?})", t.text, t.kind);
}

// next_above_confidence(0.8) — skip low-confidence tokens
let mut stream = tok.segment_stream("ธนาคาร100แห่ง");
while let Some(t) = stream.next_above_confidence(0.8) {
    println!("{} conf={:.2}", t.text, t.confidence);
}

import kham

# ง่าย — list ของ string
words = kham.segment("กินข้าวกับปลา")
# ['กิน', 'ข้าว', 'กับ', 'ปลา']

# รายละเอียด — Token object (text, byte_start/end, char_start/end, kind)
for t in kham.segment_tokens("ธนาคาร100แห่ง"):
    print(t.text, t.char_start, t.char_end, t.kind)
# ธนาคาร  0  6  Thai
# 100      6  9  Number
# แห่ง     9 13  Thai

# normalize ก่อน segment
text = kham.normalize("ข้้าว")   # "ข้าว"
words = kham.segment(text)

# segment_above_confidence — เฉพาะ token ที่มี confidence ≥ threshold
for t in kham.segment_above_confidence("ธนาคาร100แห่ง", 0.8):
    print(t.text, t.confidence)

import init, { segment, segment_tokens, normalize, segment_above_confidence } from '/wasm/kham_wasm.js';
await init(); // เรียกครั้งเดียวตอน load

// ง่าย — JS Array ของ string
const words = segment("กินข้าวกับปลา");
// ["กิน", "ข้าว", "กับ", "ปลา"]

// รายละเอียด — Token (text, charStart, charEnd, byteStart, byteEnd, kind)
const tokens = segment_tokens("ธนาคาร100แห่ง");
for (const t of tokens) {
  console.log(t.text, t.char_start, t.char_end, t.kind);
}

// normalize ก่อน segment
const clean = normalize("ข้้าว");   // "ข้าว"
const toks  = segment(clean);

// segment_above_confidence — เฉพาะ token ที่มี confidence ≥ threshold
const high = segment_above_confidence("ธนาคาร100แห่ง", 0.8);
for (const t of high) console.log(t.text, t.confidence);

#include "kham.h"

// ง่าย — array ของ token string (legacy API)
KhamTokens *toks = kham_segment("กินข้าวกับปลา");
for (size_t i = 0; i < toks->len; i++)
    printf("%s\n", toks->words[i]);
kham_tokens_free(toks);

// รายละเอียด — KhamToken พร้อม byte/char span
KhamTokenList *list = kham_segment_tokens("ธนาคาร100แห่ง");
for (size_t i = 0; i < list->len; i++) {
    KhamToken t = list->tokens[i];
    printf("%s  chars=%zu..%zu  %s\n",
           t.text, t.char_start, t.char_end, t.kind);
}
kham_token_list_free(list);

Rust key methods: Tokenizer::new() Tokenizer::builder() .segment(&str) → Vec<Token>

Token / TokenKind

docs.rs ↗

แต่ละ Token มี text (slice ไม่คัดลอก), span (byte offset), char_span (Unicode offset) และ kind

use kham_core::{TokenKind, NamedEntityKind, Tokenizer};

let tok = Tokenizer::new();
let input = "ธนาคาร100แห่ง";
let tokens = tok.segment(input);

for t in &tokens {
    // t.text      — &str (zero-copy slice ของ input)
    // t.span      — Range<usize> byte offsets
    // t.char_span   — Range<usize> Unicode scalar-value offsets
    // t.kind        — TokenKind
    // t.confidence  — f32: 0.0 (Unknown) … 1.0 (dict match ที่มีความมั่นใจสูง)

    assert_eq!(&input[t.span.clone()], t.text);
}

// TokenKind variants:
// Thai | Latin | Number | Punctuation | Emoji | Whitespace | Unknown
// Named(NamedEntityKind::Person | Place | Org)  ← กำหนดโดย NeTagger

import kham

tokens = kham.segment_tokens("ธนาคาร100แห่ง")

for t in tokens:
    # t.text       — str
    # t.byte_start / t.byte_end  — UTF-8 byte offsets
    # t.char_start / t.char_end  — Unicode scalar-value offsets
    # t.kind        — str: "Thai" | "Latin" | "Number" | "Punctuation"
    #                       "Emoji" | "Whitespace" | "Unknown"
    #                       "Person" | "Place" | "Org"  (Named entities)
    # t.confidence  — float: 0.0 (Unknown) … 1.0 (dict match ที่มีความมั่นใจสูง)
    print(f"{t.text!r:12} kind={t.kind}  chars={t.char_start}..{t.char_end}  conf={t.confidence:.2f}")

import init, { segment_tokens } from '/wasm/kham_wasm.js';
await init();

const tokens = segment_tokens("ธนาคาร100แห่ง");

for (const t of tokens) {
  // t.text       — string
  // t.byte_start / t.byte_end  — UTF-8 byte offsets
  // t.char_start / t.char_end  — Unicode scalar-value offsets
  // t.kind        — "Thai" | "Latin" | "Number" | "Punctuation"
  //                 "Emoji" | "Whitespace" | "Unknown"
  //                 "Person" | "Place" | "Org"  (Named entities)
  // t.confidence  — number: 0.0 (Unknown) … 1.0
  console.log(t.text, t.kind, t.char_start, t.char_end, t.confidence);
}

#include "kham.h"

// KhamToken fields:
//   text       — char* (null-terminated UTF-8)
//   byte_start / byte_end  — size_t byte offsets
//   char_start / char_end  — size_t Unicode scalar-value offsets
//   kind       — char*: "Thai" | "Latin" | "Number" | "Punctuation"
//                       "Emoji" | "Whitespace" | "Unknown"
//                       "Person" | "Place" | "Org"  (FTS pipeline เท่านั้น)
//   confidence — float: 0.0 (Unknown) … 1.0

KhamTokenList *list = kham_segment_tokens("ธนาคาร100แห่ง");
for (size_t i = 0; i < list->len; i++) {
    KhamToken *t = &list->tokens[i];
    printf("%-10s  bytes=%zu..%zu  chars=%zu..%zu  kind=%s\n",
           t->text, t->byte_start, t->byte_end,
           t->char_start, t->char_end, t->kind);
}
kham_token_list_free(list);

normalizer

docs.rs ↗

ปรับมาตรฐานข้อความ 2 กฎ: (1) ลบวรรณยุกต์ซ้ำ เก็บตัวสุดท้าย; (2) รวม nikhahit (อํ U+0E4D) + sara aa (อา U+0E32) เป็น sara am (อำ U+0E33) ควรเรียกก่อน segment เมื่อ input อาจมาจากแป้นพิมพ์ผู้ใช้หรือ OCR

use kham_core::normalizer::normalize;

// กฎ 1 — ลบวรรณยุกต์ซ้ำ (เก็บตัวสุดท้าย)
assert_eq!(normalize("ข้้าว"), "ข้าว");   // mai tho ซ้ำ → ตัวเดียว
assert_eq!(normalize("ก่้"),   "ก้");      // mai ek + mai tho → mai tho

// กฎ 2 — รวม sara am
// nikhahit (U+0E4D) + sara aa (U+0E32) → sara am (U+0E33)
let decomposed = "\u{0E01}\u{0E4D}\u{0E32}"; // กํา (สอง codepoint)
assert_eq!(normalize(decomposed), "กำ");          // กำ  (หนึ่ง codepoint)

// canonical อยู่แล้ว — คืนค่าโดยไม่ allocate
assert_eq!(normalize("กินข้าว"), "กินข้าว");

import kham

# กฎ 1 — ลบวรรณยุกต์ซ้ำ
kham.normalize("ข้้าว")   # → "ข้าว"

# กฎ 2 — รวม sara am
# nikhahit (U+0E4D) + sara aa (U+0E32) → sara am (U+0E33)
kham.normalize("\u0e01\u0e4d\u0e32")  # กํา → กำ

# canonical อยู่แล้ว — คืนค่าเดิม
kham.normalize("กินข้าว")  # → "กินข้าว"

# วิธีใช้ทั่วไป: normalize ก่อน segment
words = kham.segment(kham.normalize(raw_input))

import init, { normalize, segment } from '/wasm/kham_wasm.js';
await init();

// กฎ 1 — ลบวรรณยุกต์ซ้ำ
normalize("ข้้าว");   // → "ข้าว"

// กฎ 2 — รวม sara am
// nikhahit (U+0E4D) + sara aa (U+0E32) → sara am (U+0E33)
normalize("\u0E01\u0E4D\u0E32");  // กํา → กำ

// canonical อยู่แล้ว — คืนค่าเดิม
normalize("กินข้าว");  // → "กินข้าว"

// วิธีใช้ทั่วไป: normalize ก่อน segment
const words = segment(normalize(rawInput));

#include "kham.h"

// kham_normalize คืน heap-allocated string — free ด้วย kham_string_free

char *out = kham_normalize("ข้้าว");   // "ข้าว"
printf("%s\n", out);
kham_string_free(out);

// รวม sara am: nikhahit + sara aa → sara am
char *out2 = kham_normalize("\xe0\xb8\x81\xe0\xb9\x8d\xe0\xb8\xb2"); // กํา
printf("%s\n", out2);   // กำ
kham_string_free(out2);

// วิธีใช้ทั่วไป: normalize แล้ว segment
char *norm = kham_normalize(raw_input);
KhamTokens *toks = kham_segment(norm);
kham_string_free(norm);
// ... ใช้ toks ...
kham_tokens_free(toks);

FtsTokenizer

docs.rs ↗

รวม NLP pipeline ในครั้งเดียว: normalize → segment → NE → stopwords → POS → synonyms → romanization ใน Python และ WASM นี่คือทางหลักในการเข้าถึง POS และ NE metadata

use kham_core::fts::FtsTokenizer;
use kham_core::soundex::SoundexAlgorithm;
use kham_core::synonym::SynonymMap;

// pipeline เริ่มต้น
let fts = FtsTokenizer::new();
let tokens = fts.segment_for_fts("นายกรัฐมนตรีกินข้าว");
for t in &tokens {
    println!("{:8} pos={:?} ne={:?} stop={}", t.text, t.pos, t.ne, t.is_stop);
}

// index_tokens: เก็บ position, กรอง stopword สำหรับ phrase search
let indexed = fts.index_tokens("กินข้าวกับปลา");

// lexemes: Vec<String> ของ text + synonyms + trigrams (สำหรับ tsvector)
let lexemes = fts.lexemes("กินข้าวกับปลา");

// pipeline กำหนดเอง
let fts2 = FtsTokenizer::builder()
    .synonyms(SynonymMap::from_tsv("รถ\tรถยนต์\tยานพาหนะ\n"))
    .soundex(SoundexAlgorithm::Lk82)
    .build();

import kham

# FtsToken fields: text, position, kind, is_stop, roman,
#                  pos, ne, synonyms (list), trigrams (list), confidence (float)
for t in kham.segment_fts("นายกรัฐมนตรีกินข้าว"):
    print(f"{t.text:10} pos={t.pos!r:15} ne={t.ne!r} stop={t.is_stop}")

# POS tags: "Noun" | "Verb" | "Adj" | "Adv" | "Particle" | "ProperNoun"
#           "Pronoun" | "Numeral" | "Classifier" | "Conjunction"
#           "Auxiliary" | "Determiner" | "Preposition"  (None ถ้า OOV)
# NE tags:  "Person" | "Place" | "Org"  (None ถ้าไม่อยู่ใน gazetteer)

# Romanization มีใน FtsToken ทุกตัว
for t in kham.segment_fts("กินข้าว"):
    print(t.text, "→", t.roman)   # กิน → kin

import init, { segment_fts } from '/wasm/kham_wasm.js';
await init();

// FtsToken properties: text, position, kind, is_stop, roman,
//                      pos (string|null), ne (string|null),
//                      synonyms (string[]), trigrams (string[]),
//                      confidence (number: 0.0…1.0)
const tokens = segment_fts("นายกรัฐมนตรีกินข้าว");
for (const t of tokens) {
  console.log(t.text, '| pos:', t.pos, '| ne:', t.ne,
              '| stop:', t.is_stop, '| roman:', t.roman);
}

// POS tags: "Noun" | "Verb" | "Adj" | "Adv" | "Particle" | "ProperNoun"
//           "Pronoun" | "Numeral" | "Classifier" | "Conjunction"
//           "Auxiliary" | "Determiner" | "Preposition"  (null ถ้า OOV)
// NE tags:  "Person" | "Place" | "Org"  (null ถ้าไม่อยู่ใน gazetteer)

#include "kham.h"

// KhamFtsToken fields:
//   text, position, kind, is_stop, roman (char*, ไม่เป็น NULL)
//   pos (char* หรือ NULL ถ้า OOV), ne (char* หรือ NULL)
//   synonyms / synonyms_len, trigrams / trigrams_len

KhamFtsTokenList *list = kham_fts_segment("นายกรัฐมนตรีกินข้าว");
for (size_t i = 0; i < list->len; i++) {
    KhamFtsToken *t = &list->tokens[i];
    printf("%-10s  pos=%-14s  ne=%-8s  stop=%d  roman=%s\n",
           t->text,
           t->pos  ? t->pos  : "(none)",
           t->ne   ? t->ne   : "(none)",
           t->is_stop, t->roman);
}
kham_fts_token_list_free(list);

// Flat lexeme array (สำหรับ PostgreSQL tsvector / SQLite FTS5)
size_t len;
char **lex = kham_fts_lexemes("กินข้าวกับปลา", &len);
for (size_t i = 0; i < len; i++) printf("%s\n", lex[i]);
kham_fts_lexemes_free(lex, len);

FtsToken fields: textpositionkindis_stopromanposnesynonymstrigramsconfidence

PosTagger

docs.rs ↗

POS tagger แบบ dictionary-lookup 13 หมวดหมู่ตาม ORCHID tagset ใน Python, WASM และ C เข้าถึง POS ผ่าน segment_fts() / kham_fts_segment() — สร้าง tagger โดยตรงได้เฉพาะ Rust

Tag	หมวดหมู่	ตัวอย่าง
NOUN	คำนาม	คน บ้าน ปลา
VERB	คำกริยา	กิน ทำ ไป
ADJ	คำคุณศัพท์	ดี ใหญ่ สวย
ADV	คำกริยาวิเศษณ์	มาก เร็ว เสมอ
PART	คำอนุภาค	ครับ ค่ะ นะ
PROPN	คำนามวิสามัญ	กรุงเทพ ไทย
PRON	คำสรรพนาม	ฉัน เขา เรา
NUM	คำตัวเลข	หนึ่ง สิบ ร้อย
CLAS	คำลักษณนาม	ตัว ใบ อัน
CONJ	คำสันธาน	และ หรือ แต่
AUX	คำช่วย	ได้ ต้อง กำลัง
DET	คำกำหนด	นี้ นั้น ทุก
PREP	คำบุพบท	ใน บน ตาม

use kham_core::pos::PosTagger;

let tagger = PosTagger::builtin();

// Tag คำเดี่ยว
if let Some(pos) = tagger.tag("กิน") {
    println!("{:?}", pos); // Verb
}

// TSV กำหนดเอง: คำ<TAB>POS_TAG
let custom = PosTagger::from_tsv("GPT\tNOUN\nแชทบอท\tNOUN\n");
assert_eq!(custom.tag("แชทบอท"), Some(kham_core::pos::PosTag::Noun));

import kham

# POS tagging เข้าถึงผ่าน segment_fts()
# t.pos คืน string tag หรือ None สำหรับ OOV / token ที่ไม่ใช่ภาษาไทย

for t in kham.segment_fts("นักเรียนกินข้าวกับปลา"):
    if t.pos:
        print(f"{t.text:8} → {t.pos}")
# นักเรียน → Noun
# กิน      → Verb
# ข้าว     → Noun
# กับ      → Preposition
# ปลา      → Noun

import init, { segment_fts } from '/wasm/kham_wasm.js';
await init();

// POS tagging เข้าถึงผ่าน segment_fts()
// t.pos คืน string tag หรือ null สำหรับ OOV / token ที่ไม่ใช่ภาษาไทย

const tokens = segment_fts("นักเรียนกินข้าวกับปลา");
for (const t of tokens) {
  if (t.pos) console.log(t.text, '→', t.pos);
}
// นักเรียน → Noun
// กิน      → Verb
// ข้าว     → Noun
// กับ      → Preposition
// ปลา      → Noun

#include "kham.h"

// POS tagging เข้าถึงผ่าน kham_fts_segment()
// t->pos เป็น NULL สำหรับ OOV / token ที่ไม่ใช่ภาษาไทย

KhamFtsTokenList *list = kham_fts_segment("นักเรียนกินข้าวกับปลา");
for (size_t i = 0; i < list->len; i++) {
    KhamFtsToken *t = &list->tokens[i];
    if (t->pos)
        printf("%-10s → %s\n", t->text, t->pos);
}
// นักเรียน → Noun
// กิน      → Verb
// ข้าว     → Noun
// กับ      → Preposition
// ปลา      → Noun
kham_fts_token_list_free(list);

NeTagger

docs.rs ↗

NER จาก gazetteer สามประเภท: Person (บุคคล), Place (สถานที่), Org (องค์กร) ใน Python, WASM และ C เข้าถึง NE ผ่าน segment_fts() / kham_fts_segment()

use kham_core::ne::NeTagger;
use kham_core::{TokenKind, Tokenizer};

let ne = NeTagger::builtin();
println!("{:?}", ne.tag("กรุงเทพ")); // Some(Place)

// post-process tokens จาก Tokenizer::segment
let tok = Tokenizer::new();
let src = "บริษัทไทยออยล์ก่อตั้งในกรุงเทพ";
let tokens = ne.tag_tokens(tok.segment(src), src);

for t in &tokens {
    if matches!(t.kind, TokenKind::Named(_)) {
        println!("{} → {:?}", t.text, t.kind);
    }
}

// gazetteer กำหนดเอง จาก TSV: คำ<TAB>NE_TAG  (PERSON | PLACE | ORG)
let custom = NeTagger::from_tsv("แอนโทรปิก\tORG\n");

import kham

# NE tagging เข้าถึงผ่าน segment_fts()
# t.ne คืน "Person" | "Place" | "Org" หรือ None

for t in kham.segment_fts("บริษัทไทยออยล์ก่อตั้งในกรุงเทพ"):
    if t.ne:
        print(f"{t.text:12} → {t.ne}")
# ไทยออยล์  → Org
# กรุงเทพ   → Place

import init, { segment_fts } from '/wasm/kham_wasm.js';
await init();

// NE tagging เข้าถึงผ่าน segment_fts()
// t.ne คืน "Person" | "Place" | "Org" หรือ null

const tokens = segment_fts("บริษัทไทยออยล์ก่อตั้งในกรุงเทพ");
for (const t of tokens) {
  if (t.ne) console.log(t.text, '→', t.ne);
}
// ไทยออยล์  → Org
// กรุงเทพ   → Place

#include "kham.h"

// NE tagging เข้าถึงผ่าน kham_fts_segment()
// t->ne เป็น NULL ถ้าไม่อยู่ใน NE gazetteer

KhamFtsTokenList *list = kham_fts_segment("บริษัทไทยออยล์ก่อตั้งในกรุงเทพ");
for (size_t i = 0; i < list->len; i++) {
    KhamFtsToken *t = &list->tokens[i];
    if (t->ne)
        printf("%-12s → %s\n", t->text, t->ne);
}
// ไทยออยล์  → Org
// กรุงเทพ   → Place
kham_fts_token_list_free(list);

RomanizationMap

docs.rs ↗

แปลงคำภาษาไทยเป็นอักษรโรมัน RTGS (Royal Thai General System) แบบ table-lookup สำหรับคำที่ไม่อยู่ใน vocabulary จะคืนข้อความไทยต้นฉบับ

use kham_core::romanizer::RomanizationMap;

let rom = RomanizationMap::builtin();

// lookup คำเดี่ยว
println!("{:?}", rom.romanize("กรุงเทพ"));   // Some("Krung Thep")
println!("{}", rom.romanize_or_raw("ปลา"));   // "pla"
println!("{}", rom.romanize_or_raw("zzz"));   // "zzz"  (OOV → passthrough)

// lookup แบบ batch
let roman = rom.romanize_tokens(&["กรุงเทพ", "ประเทศ", "ไทย"]);
println!("{:?}", roman); // ["Krung Thep", "prathet", "Thai"]

// Whole sentence romanization
let sentence = rom.romanize_sentence("กินข้าวกับปลา 100 บาท");
println!("{sentence}"); // kinkhaokapla 100 bat

import kham

# romanize() คืน list ของ RomanToken(text, roman)
for t in kham.romanize("กินข้าวกับปลา"):
    print(f"{t.text:6} → {t.roman}")
# กิน   → kin
# ข้าว  → khao
# กับ   → kap
# ปลา   → pla

# roman มีใน FtsToken ทุกตัวด้วย
for t in kham.segment_fts("กรุงเทพ"):
    print(t.text, t.roman)   # กรุงเทพ  Krung Thep

import init, { romanize } from '/wasm/kham_wasm.js';
await init();

// romanize() คืน array ของ RomanToken (text, roman)
const pairs = romanize("กินข้าวกับปลา");
for (const t of pairs) {
  console.log(t.text, '→', t.roman);
}
// กิน   → kin
// ข้าว  → khao
// กับ   → kap
// ปลา   → pla

// roman มีใน FtsToken ทุกตัวจาก segment_fts() ด้วย

#include "kham.h"

// kham_romanize คืน KhamRomanTokenList
// แต่ละ KhamRomanToken มี: text (char*), roman (char*)

KhamRomanTokenList *list = kham_romanize("กินข้าวกับปลา");
for (size_t i = 0; i < list->len; i++) {
    KhamRomanToken *t = &list->tokens[i];
    printf("%-6s → %s\n", t->text, t->roman);
}
// กิน   → kin
// ข้าว  → khao
// กับ   → kap
// ปลา   → pla
kham_roman_token_list_free(list);

// roman มีใน KhamFtsToken ทุกตัวจาก kham_fts_segment() ด้วย

number

docs.rs ↗

จัดการตัวเลขภาษาไทย: แปลงเลขไทย (๐–๙) เป็น ASCII, parse/สร้างคำตัวเลข และแสดงข้อความเงินบาท

use kham_core::number::{
    thai_digits_to_ascii, parse_thai_word, u64_to_thai_word,
    parse_thai_baht, to_thai_baht_text,
};

// เลขไทย → ASCII
assert_eq!(thai_digits_to_ascii("ราคา ๑๒๓ บาท"), "ราคา 123 บาท");

// อ่านตัวเลขจากคำ
assert_eq!(parse_thai_word("หนึ่งร้อยยี่สิบสาม"), Some(123));
assert_eq!(parse_thai_word("สองล้าน"),             Some(2_000_000));
assert_eq!(parse_thai_word("กินข้าว"),             None); // ไม่ใช่ตัวเลข

// ตัวเลข → คำไทย
println!("{}", u64_to_thai_word(42));        // "สี่สิบสอง"
println!("{}", u64_to_thai_word(1_000_000)); // "หนึ่งล้าน"

// ข้อความบาท
println!("{}", to_thai_baht_text(1234, 50));
// "หนึ่งพันสองร้อยสามสิบสี่บาทห้าสิบสตางค์"
if let Some(amt) = parse_thai_baht("หนึ่งร้อยบาทถ้วน") {
    println!("{} baht {} satang", amt.baht, amt.satang); // 100 0
}

import kham

# เลขไทย → ASCII
kham.thai_digits_to_ascii("ราคา ๑๒๓ บาท")   # "ราคา 123 บาท"

# คำไทย → ตัวเลข (คืน int หรือ None)
kham.thai_word_to_number("หนึ่งร้อยยี่สิบสาม")  # 123
kham.thai_word_to_number("สองล้าน")              # 2000000
kham.thai_word_to_number("กินข้าว")              # None

# ตัวเลข → คำไทย
kham.number_to_thai_word(42)          # "สี่สิบสอง"
kham.number_to_thai_word(1_000_000)   # "หนึ่งล้าน"

# ข้อความบาท
kham.number_to_baht_text(1234, 50)
# "หนึ่งพันสองร้อยสามสิบสี่บาทห้าสิบสตางค์"

amt = kham.parse_baht_text("หนึ่งร้อยบาทถ้วน")  # BahtAmount หรือ None
if amt:
    print(amt.baht, amt.satang)   # 100  0

import init, {
  thai_digits_to_ascii, thai_word_to_number, number_to_thai_word,
  number_to_baht_text, parse_baht_text,
} from '/wasm/kham_wasm.js';
await init();

// เลขไทย → ASCII
thai_digits_to_ascii("ราคา ๑๒๓ บาท");   // "ราคา 123 บาท"

// คำไทย → ตัวเลข (คืน decimal string; "" ถ้าไม่ใช่ตัวเลข)
thai_word_to_number("หนึ่งร้อยยี่สิบสาม");  // "123"
thai_word_to_number("กินข้าว");              // ""

// ตัวเลข → คำไทย (u64 เป็น BigInt — รองรับถึง 9,007,199,254,740,991)
number_to_thai_word(42n);              // "สี่สิบสอง"
number_to_thai_word(10_000_000_000n);  // "หนึ่งหมื่นล้าน"

// ข้อความบาท (baht เป็น BigInt)
number_to_baht_text(1234n, 50);
// "หนึ่งพันสองร้อยสามสิบสี่บาทห้าสิบสตางค์"

const r = parse_baht_text("หนึ่งร้อยบาทถ้วน");
if (r.valid) console.log(r.baht, r.satang);  // 100n  0

#include "kham.h"

// เลขไทย → ASCII (free ด้วย kham_string_free)
char *s = kham_thai_digits_to_ascii("ราคา ๑๒๓ บาท");
printf("%s\n", s);   // "ราคา 123 บาท"
kham_string_free(s);

// คำไทย → ตัวเลข
uint64_t n;
if (kham_thai_word_to_number("หนึ่งร้อยยี่สิบสาม", &n))
    printf("%llu\n", (unsigned long long)n);  // 123

// ตัวเลข → คำไทย (free ด้วย kham_string_free)
char *word = kham_number_to_thai_word(1000000);
printf("%s\n", word);   // "หนึ่งล้าน"
kham_string_free(word);

// ข้อความบาท (free ด้วย kham_string_free)
char *baht = kham_number_to_baht_text(1234, 50);
printf("%s\n", baht);
kham_string_free(baht);

// Parse บาท (free ด้วย kham_baht_amount_free)
KhamBahtAmount *amt = kham_parse_baht_text("หนึ่งร้อยบาทถ้วน");
if (amt) {
    printf("%llu baht %u satang\n",
           (unsigned long long)amt->baht, amt->satang);
    kham_baht_amount_free(amt);
}

sentence

docs.rs ↗

ตรวจหา sentence boundary แบ่งบน newline, เครื่องหมายไทย (ฯ ๚ ๛) และเครื่องหมายตะวันตก (! ? . ตามด้วยช่องว่าง) แต่ละประโยคมี char offset สำหรับ Python/JS string slicing

use kham_core::sentence::split_sentences;

let text = "คุณชอบอาหารไทยไหม? ผมชอบต้มยำกุ้ง!\nอาหารไทยรสเผ็ด";
let sents = split_sentences(text);

for (i, s) in sents.iter().enumerate() {
    println!("S{i}: {:?}  chars={}..{}", s.text, s.char_span.start, s.char_span.end);
}
// S0: "คุณชอบอาหารไทยไหม?"     chars=0..19
// S1: " ผมชอบต้มยำกุ้ง!"       chars=19..36
// S2: "\nอาหารไทยรสเผ็ด"       chars=36..50

import kham

# split_sentences() คืน list ของ Sentence(text, char_start, char_end)
text = "คุณชอบอาหารไทยไหม? ผมชอบต้มยำกุ้ง!\nอาหารไทยรสเผ็ด"
for i, s in enumerate(kham.split_sentences(text)):
    print(f"S{i}: {s.text!r}  chars={s.char_start}..{s.char_end}")

# ประกอบข้อความคืนจาก span:
reconstructed = "".join(s.text for s in kham.split_sentences(text))
assert reconstructed == text

import init, { split_sentences } from '/wasm/kham_wasm.js';
await init();

// split_sentences() คืน array ของ Sentence (text, char_start, char_end)
const text = "คุณชอบอาหารไทยไหม? ผมชอบต้มยำกุ้ง!\nอาหารไทยรสเผ็ด";
const sents = split_sentences(text);

for (const s of sents) {
  console.log(s.text, s.char_start, s.char_end);
}

// Slice string ด้วย char offset
// (ใช้ [...text] spread เพื่อให้ได้ Unicode scalar values)
const chars = [...text];
for (const s of sents) {
  console.log(chars.slice(s.char_start, s.char_end).join(''));
}

#include "kham.h"

// KhamSentence fields: text (char*), char_start, char_end (size_t)

const char *text = "คุณชอบอาหารไทยไหม? ผมชอบต้มยำกุ้ง!\nอาหารไทยรสเผ็ด";
KhamSentenceList *list = kham_split_sentences(text);

for (size_t i = 0; i < list->len; i++) {
    KhamSentence *s = &list->sentences[i];
    printf("S%zu: %s  (chars %zu..%zu)\n",
           i, s->text, s->char_start, s->char_end);
}
// S0: คุณชอบอาหารไทยไหม?  (chars 0..19)
// S1:  ผมชอบต้มยำกุ้ง!   (chars 19..36)
// S2: <newline>อาหารไทยรสเผ็ด  (chars 36..50)
kham_sentence_list_free(list);

soundex

docs.rs ↗

Phonetic encoding ภาษาไทย: lk82 (12 กลุ่ม, 4 ตัวอักษร), udom83 (14 กลุ่ม, 4 ตัวอักษร), MetaSound (3 ตัว/พยางค์) และ cross-language ไทย–อังกฤษ (Suwanvisat & Prasitjutrakul 1998)

use kham_core::soundex::{
    soundex, sounds_like, SoundexAlgorithm,
    thai_english_soundex, sounds_like_cross_lang,
};

// Thai soundex
println!("{}", soundex("กาน", SoundexAlgorithm::Lk82));      // "1600"
println!("{}", soundex("กาน", SoundexAlgorithm::Udom83));    // "1900"
println!("{}", soundex("กาน", SoundexAlgorithm::MetaSound)); // "112"

// เปรียบเทียบเสียง
assert!(sounds_like("กาน", "ขาน", SoundexAlgorithm::Lk82));   // กลุ่มเดียวกัน
assert!(!sounds_like("ลาน", "ราน", SoundexAlgorithm::Udom83)); // ล/ร แยกกัน

// Cross-language ไทย–อังกฤษ
println!("{}", thai_english_soundex("Somchai")); // เหมือนกับ thai_english_soundex("สมชาย")
assert!(sounds_like_cross_lang("สมชาย", "Somchai")); // true

import kham

# Thai soundex  (algo เริ่มต้น "lk82")
kham.soundex_word("กาน")              # "1600"  (lk82)
kham.soundex_word("กาน", "udom83")    # "1900"
kham.soundex_word("กาน", "metasound") # "112"

# เปรียบเทียบเสียง
kham.sounds_like("กาน", "ขาน")            # True  (กลุ่ม lk82 เดียวกัน)
kham.sounds_like("ลาน", "ราน", "udom83")  # False (ล/ร แยกกันใน udom83)

# Cross-language ไทย–อังกฤษ
kham.thai_english_soundex("Somchai")       # code เดียวกับ "สมชาย"
kham.sounds_like_cross_lang("สมชาย", "Somchai")   # True
kham.sounds_like_cross_lang("Robert",  "Rupert")   # True

import init, {
  soundex_word, sounds_like, thai_english_soundex, sounds_like_cross_lang,
} from '/wasm/kham_wasm.js';
await init();

// Thai soundex  (algo เริ่มต้น "lk82")
soundex_word("กาน");               // "1600"  (lk82)
soundex_word("กาน", "udom83");     // "1900"
soundex_word("กาน", "metasound");  // "112"

// เปรียบเทียบเสียง
sounds_like("กาน", "ขาน");             // true  (กลุ่ม lk82 เดียวกัน)
sounds_like("ลาน", "ราน", "udom83");   // false (ล/ร แยกกัน)

// Cross-language ไทย–อังกฤษ
thai_english_soundex("Somchai");        // code เดียวกับ "สมชาย"
sounds_like_cross_lang("สมชาย", "Somchai");   // true
sounds_like_cross_lang("Robert",  "Rupert");   // true

#include "kham.h"

// kham_soundex — algo: "lk82" (default/NULL), "udom83", "metasound"
// ผลลัพธ์ string ทั้งหมด free ด้วย kham_string_free

char *code = kham_soundex("กาน", NULL);       // "1600"  (lk82)
kham_string_free(code);
code = kham_soundex("กาน", "udom83");          // "1900"
kham_string_free(code);
code = kham_soundex("กาน", "metasound");       // "112"
kham_string_free(code);

// เปรียบเทียบเสียง (ไม่ allocate)
bool alike = kham_sounds_like("กาน", "ขาน", NULL);     // true  (lk82)
bool split = kham_sounds_like("ลาน", "ราน", "udom83"); // false

// Cross-language ไทย–อังกฤษ
char *eng = kham_thai_english_soundex("Somchai");
char *tha = kham_thai_english_soundex("สมชาย");
printf("match=%d\n", strcmp(eng, tha) == 0);  // 1
kham_string_free(eng);
kham_string_free(tha);

bool cross = kham_sounds_like_cross_lang("สมชาย", "Somchai");  // true

SpellChecker

docs.rs ↗

แก้คำสะกดผิดโดยค้นหาใน dictionary 62k คำที่มีในตัว คืน candidate ที่มี Levenshtein edit distance ≤ 2 จัดอันดับตาม lk82 phonetic similarity, edit distance และ TNC corpus frequency ตามลำดับ รับ คำเดียว — หาก input เป็นหลายคำ ให้ segment ก่อนแล้วตรวจแต่ละ Thai token

use kham_core::spell::SpellChecker;

// นำ checker มาใช้ซ้ำ — builtin() โหลด TNC frequency map ครั้งเดียว
let checker = SpellChecker::builtin();

let suggs = checker.suggestions("กีนข้าว", 5);
for s in &suggs {
    println!("{:12} edit={} soundex={} freq={}",
        s.word, s.edit_distance, s.soundex_match, s.freq_score);
}
// กินข้าว  edit=1  soundex=true  freq=…

// คำที่สะกดถูก → edit_distance = 0
let exact = checker.suggestions("กิน", 1);
assert_eq!(exact[0].word, "กิน");
assert_eq!(exact[0].edit_distance, 0);

// field ของ Suggestion:
// s.word          — String   คำ candidate จาก dictionary
// s.edit_distance — u8       Levenshtein distance (0–2)
// s.soundex_match — bool     lk82 code ตรงกัน
// s.freq_score    — u32      TNC corpus frequency (0 ถ้าไม่มีในตาราง)

// Single best correction
let checker = SpellChecker::builtin();
if let Some(corrected) = checker.did_you_mean("กีนข้าว") {
    println!("Did you mean: {corrected}");  // กินข้าว
}
// Correct whole text
let text = "กีนข้าวกับปลา";
let out = checker.correct_text(text);
println!("{out}");

import kham

# spell_suggestions(word, max_n) → list[SpellSuggestion]
suggs = kham.spell_suggestions("กีนข้าว", 5)
for s in suggs:
    print(f"{s.word:12} edit={s.edit_distance} soundex={s.soundex_match} freq={s.freq_score}")
# กินข้าว  edit=1  soundex=True  freq=…

# field ของ SpellSuggestion:
# s.word          — str    คำ candidate
# s.edit_distance — int    Levenshtein distance (0–2)
# s.soundex_match — bool   lk82 code ตรงกัน
# s.freq_score    — int    TNC corpus frequency (0 ถ้าไม่มี)

# คำที่สะกดถูก → edit_distance 0
top = kham.spell_suggestions("กิน", 1)
assert top[0].word == "กิน" and top[0].edit_distance == 0

import init, { spell_suggestions } from '/wasm/kham_wasm.js';
await init();

// spell_suggestions(word, maxN) → SpellSuggestion[]
const suggs = spell_suggestions("กีนข้าว", 5);
for (const s of suggs) {
  console.log(s.word, 'edit:', s.edit_distance,
              'soundex:', s.soundex_match, 'freq:', s.freq_score);
}
// กินข้าว  edit: 1  soundex: true  freq: …

// property ของ SpellSuggestion:
// s.word          — string   คำ candidate
// s.edit_distance — number   Levenshtein distance (0–2)
// s.soundex_match — boolean  lk82 code ตรงกัน
// s.freq_score    — number   TNC corpus frequency

#include "kham.h"

// kham_spell_suggestions(word, max_n) → KhamSpellList*
// free ด้วย kham_spell_list_free()

KhamSpellList *list = kham_spell_suggestions("กีนข้าว", 5);
for (size_t i = 0; i < list->len; i++) {
    KhamSpellSuggestion *s = &list->suggestions[i];
    printf("%-12s  edit=%u  soundex=%d  freq=%u\n",
           s->word, s->edit_distance, s->soundex_match, s->freq_score);
}
kham_spell_list_free(list);

// field ของ KhamSpellSuggestion:
//   word          — char*    คำ candidate (heap-allocated)
//   edit_distance — uint8_t  Levenshtein distance (0–2)
//   soundex_match — bool     lk82 code ตรงกัน
//   freq_score    — uint32_t TNC corpus frequency

หมายเหตุ: SpellChecker รับคำเดียว สำหรับข้อความหลายคำให้ segment ด้วย Tokenizer::segment() ก่อน แล้วตรวจ Thai token ทีละคำ

KeyExtractor

docs.rs ↗

สกัดคำสำคัญแบบ unsupervised ด้วย TF × inverse-corpus-frequency scoring คำที่หายากใน TNC corpus จะได้คะแนนสูงกว่าคำทั่วไป ตัด stopword และ token ที่มีตัวอักษรเดียวออกเสมอ ผลลัพธ์เรียงตาม score จากมากไปน้อย

use kham_core::keyword::KeyExtractor;

// นำ extractor มาใช้ซ้ำ — builtin() โหลด TNC freq + stopwords ครั้งเดียว
let extractor = KeyExtractor::builtin();

let text = "นักวิทยาศาสตร์ค้นพบดาวเคราะห์ใหม่ในระบบสุริยะ              ดาวดวงนี้โคจรอยู่ใกล้ดาวเคราะห์น้อย";

let keywords = extractor.extract(text, 5);
for kw in &keywords {
    println!("{:12} score={:.4} count={}", kw.word, kw.score, kw.count);
}

// field ของ Keyword:
// kw.word  — String  คำสำคัญ
// kw.score — f32     TF × (max_freq+1) / (corpus_freq+1)
// kw.count — usize   จำนวนครั้งที่ปรากฏในเอกสาร

let extractor = KeyExtractor::builtin();
let text = "นักพัฒนาซอฟต์แวร์เขียนโค้ดทุกวัน นักพัฒนาซอฟต์แวร์ใช้ภาษาต่าง ๆ";
let phrases = extractor.extract_phrases(text, 5);
for p in &phrases {
    println!("{:20} score={:.4} count={}", p.word, p.score, p.count);
}

import kham

# extract_keywords(text, max_n) → list[Keyword]
text = ("นักวิทยาศาสตร์ค้นพบดาวเคราะห์ใหม่ในระบบสุริยะ "
        "ดาวดวงนี้โคจรอยู่ใกล้ดาวเคราะห์น้อย")

keywords = kham.extract_keywords(text, 5)
for kw in keywords:
    print(f"{kw.word:12} score={kw.score:.4f} count={kw.count}")

# field ของ Keyword:
# kw.word  — str    คำสำคัญ
# kw.score — float  relevance score (TF × IDF_proxy)
# kw.count — int    จำนวนครั้งที่ปรากฏ

import init, { extract_keywords } from '/wasm/kham_wasm.js';
await init();

// extract_keywords(text, maxN) → Keyword[]
const text = "นักวิทยาศาสตร์ค้นพบดาวเคราะห์ใหม่ในระบบสุริยะ " +
             "ดาวดวงนี้โคจรอยู่ใกล้ดาวเคราะห์น้อย";

const keywords = extract_keywords(text, 5);
for (const kw of keywords) {
  console.log(kw.word, 'score:', kw.score.toFixed(4), 'count:', kw.count);
}

// property ของ Keyword:
// kw.word  — string  คำสำคัญ
// kw.score — number  relevance score (TF × IDF_proxy)
// kw.count — number  จำนวนครั้งที่ปรากฏ

#include "kham.h"

// kham_keywords(text, max_n) → KhamKeywordList*
// free ด้วย kham_keyword_list_free()

const char *text =
    "นักวิทยาศาสตร์ค้นพบดาวเคราะห์ใหม่ในระบบสุริยะ "
    "ดาวดวงนี้โคจรอยู่ใกล้ดาวเคราะห์น้อย";

KhamKeywordList *list = kham_keywords(text, 5);
for (size_t i = 0; i < list->len; i++) {
    KhamKeyword *kw = &list->keywords[i];
    printf("%-12s  score=%.4f  count=%zu\n",
           kw->word, kw->score, kw->count);
}
kham_keyword_list_free(list);

// field ของ KhamKeyword:
//   word  — char*   คำสำคัญ (heap-allocated)
//   score — float   TF × IDF_proxy relevance score
//   count — size_t  จำนวนครั้งที่ปรากฏ

← เริ่มต้นใช้งาน rustdoc ฉบับเต็มที่ docs.rs ↗ ↗