䀡碼源𧵑準化:2025 Revision/Principle

<big>'''Nguyên tắc lựa chọn chữ Hán Nôm chuẩn cho 500 chữ có tần suất cao nhất'''</big><br/>Principles for Selecting Standard Hán-Nôm Characters for the Top 500 Most Frequent Characters | 字频排序前500的标准汉喃字选定原则

Nguyên tắc tổng thể: Đối với các chữ Hán Nôm nằm trong top 1-500 theo thứ tự tần suất xuất hiện, yếu tố cốt lõi để xác định hình thể chữ tiêu chuẩn là tần suất sử dụng trong lịch sử, về nguyên tắc sẽ chọn hình thể có tần suất sử dụng cao nhất làm chữ tiêu chuẩn. Quy tắc lựa chọn cụ thể như sau:

<small>Overall Principle: For Hán-Nôm characters ranked 1-500 in frequency, the core consideration factor for determining the standard character form is historical usage frequency, with the principle of selecting the character form with the highest historical usage frequency as the standard form. The specific selection rules are as follows:

整体原则：对于字频排序位列1-500范围内的汉喃字，其标准字形确定的核心考量因素为历史使用频率，原则上选取历史使用频率最高者作为标准字形。具体选定规则如下：</small>

==Thiết lập cơ bản==
* Kho dữ liệu: ''Tự Điển Chữ Nôm Dẫn Giải'' (DG), ''Tự Điển Chữ Nôm Trích Dẫn'' (TD), ''Truyện Kiều'' (các bản 1866, 1870, 1871, 1872, 1902) và ''Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca'' (5Tk+Td). Hệ số trọng số của ba kho dữ liệu lần lượt là 48,6%, 33,3% và 18,1%.  
* "Nhóm chữ": Là tập hợp các hình thể chữ có cùng chữ chính thể, cùng cấu trúc và bộ phận, chỉ khác nhau về vị trí một hoặc một số bộ phận. Ví dụ: “𬁖” và “𣋀” tạo thành một nhóm chữ.
{{Hide|<small>English · 中文</small>|'''Basic Settings'''
*Database: ''Tự Điển Chữ Nôm Dẫn Giải'' (DG), ''Tự Điển Chữ Nôm Trích Dẫn'' (TD), ''Truyện Kiều'' (1866, 1870, 1871, 1872, 1902 editions) and ''Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca'' (5Tk+Td). The weighting coefficients of the three databases are 48.6%, 33.3%, and 18.1% respectively.
*"Character group": Refers to a collection of one or more character forms that correspond to the same standard character, have the same structure and components, but differ only in component positions. For example, "𬁖" and "𣋀" constitute one character group.<br/>
'''基础设定'''
*资料库：《字典𡨸喃引解》（DG）、《字典𡨸喃摘引》（TD）、《翘传》（1866、1870、1871、1872、1902年版本）及《嗣德圣制字学解义歌》（5Tk+Td）。三个资料的权重系数分别为48.6%、33.3%、18.1%。
*“字组”：指对应正体字相同，且具有相同结构和部件，仅部件位置存在差异的一个或多个字形的集合。例如，“𬁖”和“𣋀”构成一个字组。}}

==Bước 1: Sàng lọc nhóm chữ ứng viên==
*Thiết lập đường cơ sở: Đối với các chữ nằm trong top 1-500, chỉ những chữ có tần suất đạt từ 2/3 tần suất cao nhất trong lịch sử trở lên mới được đưa vào danh sách ứng viên tiêu chuẩn.  
*Loại bỏ các chữ không hợp lệ: Bao gồm các chữ không có mã Unicode, chữ gây nhầm lẫn, hoặc chữ có cấu trúc cực kỳ không hài hòa.
{{Hide|<small>English · 中文</small>|'''Step 1: Candidate Character Group Screening'''
*Setting baseline: For characters with frequency rankings in the 1-500 range, the baseline for becoming standard character candidates is set at two-thirds or more of the highest historical frequency count.
*Excluding unqualified characters: Unqualified character forms include non-Unicode encoded characters, ambiguous characters, and characters with extremely uncoordinated structures.<br/>
'''第1步：候选字组筛选'''
*设定基准线：对于字频排位在1-500范围内的字，可成为标准字候选的基准线设定为历史最高频字频数的三分之二或以上。
*排除不合格字形：不合格字形包括非Unicode编码字、歧义字、结构极端不协调的字。}}

==Bước 2: Xác định nhóm chữ chuẩn==
*Nếu sau khi loại bỏ các nhóm chữ không hợp lệ mà trên đường cơ sở không còn nhóm chữ nào, thì hạ ngưỡng xuống mức thứ hai (tần suất đạt từ 1/3 tần suất cao nhất trở lên); nếu vẫn không có nhóm chữ nào, mở rộng ra toàn bộ phạm vi. Trong phạm vi ứng viên xác định, ưu tiên chọn chữ giống nhất với hình thể không hợp lệ đã bị loại (ở đây “giống nhất” nghĩa là giữ được toàn bộ hoặc bộ phận cốt lõi của chữ bị loại, dễ liên tưởng đến chữ bị loại). Nếu có nhiều chữ cùng mức độ tương đồng, sử dụng bảng điểm (xem phía sau) để đánh giá định lượng, chọn nhóm chữ có điểm cao nhất làm tiêu chuẩn.
*Nếu sau khi loại bỏ các nhóm chữ không hợp lệ mà trên đường cơ sở chỉ còn một nhóm chữ, thì trực tiếp chọn nhóm chữ đó.
*Nếu sau khi loại bỏ các nhóm chữ không hợp lệ mà trên đường cơ sở còn nhiều hơn một nhóm chữ, thì trước tiên loại bỏ chữ gốc (tức ưu tiên chữ phân hóa. Ví dụ: “𣾼” là chữ phân hóa của “越”, “𡥵” là chữ phân hóa của “昆”); nếu sau khi loại bỏ chữ gốc vẫn còn nhiều nhóm chữ, thì sử dụng bảng điểm để đánh giá định lượng và lựa chọn.
{{Hide|<small>English · 中文</small>|'''Step 2: Standard Character Group Determination'''
*If after excluding unqualified character groups, there are no selectable character groups above the baseline, adjust the candidate range to the second baseline (one-third or more of the highest historical frequency count); if there are still no selectable character groups above the second baseline, expand to the entire range. Within the determined candidate range, prioritize selecting character(s) most similar to the excluded unqualified character ("most similar" here means having the complete character or core components of the excluded character, most likely to evoke association with the excluded character). If there are multiple characters similar to the excluded character within the candidate range, use a scoring table (see later) to conduct quantitative evaluation of each candidate character group, selecting the highest-scoring one as the standard character group.
*If after excluding unqualified character groups, only one character group remains above the baseline, directly select that character group.
*If after excluding unqualified character groups, multiple character groups remain above the baseline, first exclude original characters (i.e., prioritize derivative characters. Examples of "original characters" and "derivative characters": "𣾼" is a derivative character of "越", "𡥵" is a derivative character of "昆"); if multiple character groups still remain after excluding original characters, use the scoring table for quantitative evaluation and selection.<br/>
'''第2步：标准字组确定'''
*若排除不合格字组后，基准线以上无可选字组，则将候选范围调整至第二基准线（历史最高频字频数的三分之一或以上）；若第二基准线上仍无可选字组，则扩展至全部范围。在确定的候选范围内，优先选取与被排除不合格字形最相似的字形（这里的“最相似”指具有被排除字形的整字或核心部件，最能使人联想到被排除字形的字）。若候选范围内存在多个与被排除字形最相似的字，则采用评分表（见后）对各字形进行量化评估，选取得分最高者作为标准字组。
*若排除不合格字组后，基准线以上仅存一个字组，则直接选定该字组。
*若排除不合格字组后，基准线以上存在多个字组，则先排除本字（即分化字优先。“本字”与“分化字”的例子："𣾼"为"越"的分化字，"𡥵"为"昆"的分化字）；若排除本字后仍存在多个字组，则采用评分表进行量化评估选取。}}

==Bước 3: Lựa chọn trong nhóm chữ (nếu áp dụng)==
* Sau khi xác định được nhóm chữ chuẩn, tiến hành so sánh lựa chọn giữa các chữ trong nhóm.  
* Nguyên tắc so sánh: Ưu tiên chọn những chữ có cấu trúc chữ hình, bộ thủ hợp lý, nếu đều tương đương nhau thì chọn chữ có tần suất sử dụng cao.
{{Hide|<small>English · 中文</small>|'''Step 3: Single Character Selection Within Groups (if applicable)'''
*After determining the standard character group, conduct selection of individual characters within the group.
*Comparison principle: Give priority to those with reasonable glyph structure,  components and radicals. If they are similar, choose the one with higher frequency of use.<br/>
'''第3步：字组内单字优选（如适用）'''
*确定标准字组后，对字组内各单字进行比较选择。
*比较原则：优先选择字形结构、偏旁部首合理的，如果都差不多，选择使用频率高的。}}

==Bảng điểm==
Tổng điểm của một chữ bằng '''Điểm bộ phận biểu ý (A) × Điểm bộ phận biểu âm (B)'''.

*'''Điểm bộ phận biểu ý (A)'''
{| class="wikitable"
! colspan="2"| Từ thực
! colspan="2"| Từ hư
|-
| Bộ thủ thông thường
| 6.00
| Bộ thủ thông thường
| 6.00
|-
| Bộ thủ phân hóa
| 4.90
| Bộ thủ phân hóa
| 4.90
|-
| Chữ đơn thể
| 3.80
| Không có bộ ý
| 3.80
|-
| Không phải chữ đơn thể và không phải chữ hình thanh
| 2.70
| Chữ đơn thể
| 2.70
|-
| Không phải chữ đơn thể nhưng là chữ hình thanh
| 1.60
| Không phải chữ đơn thể và không phải chữ hình thanh
| 1.60
|-
| Không có bộ ý
| 0.50
| Không phải chữ đơn thể nhưng là chữ hình thanh
| 0.50
|-
| rowspan="2" style="vertical-align:middle;" | Mức độ phổ biến (Tần suất)
| Cao
| Trung bình
| Thấp
|-
| 4.00
| 2.25
| 0.50
|-
| ''Biểu âm (nếu có)''
| colspan="3"| ''-0.50''
|}

*'''Điểm bộ phận biểu âm (B)'''
{| class="wikitable"
! Thanh mẫu so với âm Hán Việt
| Giống nhau
| 1.25
| Tương tự
| 0.73
| Không giống
| 0.20
|-
! Nguyên âm so với âm Hán Việt
| Giống nhau
| 1.50
| Tương tự
| 0.85
| Không giống
| 0.20
|-
! Thanh điệu so với âm Hán Việt
| Giống nhau
| 1.25
| Tương tự
| 0.90
| Không giống
| 0.20
|-
! Chữ hình thanh
| Không
| 3.00
| colspan="2"| Có
| colspan="2" | 0.20
|-
! Mức độ phổ biến (Tần suất)
| Cao
| 3.00
| Trung bình
| 1.60
| Thấp
| 0.20
|-
! ''Chức năng biểu ý (nếu có)''
| colspan="6"| ''Bỏ qua điểm số trên, sử dụng trực tiếp hệ thống chấm điểm “bộ phận biểu ý”''
|}

-----
'''Scoring table'''

A character's total score is equal to '''Semantic Component Score (A) × Phonetic Component Score (B)'''.

*'''Semantic Component Score (A)'''
{| class="wikitable"
! colspan="2"| Content Words
! colspan="2"| Function Words
|-
| Regular Radical
| 6.00
| Regular Radical
| 6.00
|-
| Differentiated Radical
| 4.90
| Differentiated Radical
| 4.90
|-
| Single-structure Character
| 3.80
| No Semantic Component
| 3.80
|-
| Non-single-structure and Non-phonetic-semantic Character
| 2.70
| Single-structure Character
| 2.70
|-
| Non-single-structure but Phonetic-semantic Character
| 1.60
| Non-single-structure and Non-phonetic-semantic Character
| 1.60
|-
| No Semantic Component
| 0.50
| Non-single-structure but Phonetic-semantic Character
| 0.50
|-
| rowspan="2" style="vertical-align:middle;" | Frequency Level
| High
| Medium
| Low
|-
| 4.00
| 2.25
| 0.50
|-
| ''Phonetic (if any)''
| colspan="3"| ''-0.50''
|}

*'''Phonetic Component Score (B)'''
{| class="wikitable"
|-
! Initial consonant vs. the Sino-Vietnamese pronunciation
| Identical
| 1.25
| Similar
| 0.73
| Different
| 0.20
|-
! Vowel vs. the Sino-Vietnamese pronunciation
| Identical
| 1.50
| Similar
| 0.85
| Different
| 0.20
|-
! Tone vs. the Sino-Vietnamese pronunciation
| Identical
| 1.25
| Similar
| 0.90
| Different
| 0.20
|-
! Phono-semantic compound character
| No
| 3.00
| colspan="2"| Yes
| 0.20
|-
! Frequency
| High
| 3.00
| Medium
| 1.60
| Low
| 0.20
|-
! ''Semantic function (if any)''
| colspan="6"| ''Ignore the above scores, directly use the “semantic component” scoring system''
|}

-----
'''打分表'''

某个字的总评分等于'''义旁得分（A）×声旁得分（B）'''。

*'''义旁得分（A）'''
{| class="wikitable"
! colspan="2"| 实词
! colspan="2"| 虚词
|-
| 普通部首
| 6.00
| 普通部首
| 6.00
|-
| 分化部首
| 4.90
| 分化部首
| 4.90
|-
| 独体字
| 3.80
| 无义旁
| 3.80
|-
| 非独体字且非形声字
| 2.70
| 独体字
| 2.70
|-
| 非独体字且为形声字
| 1.60
| 非独体字且非形声字
| 1.60
|-
| 无义旁
| 0.50
| 非独体字且为形声字
| 0.50
|-
| rowspan="2" style="vertical-align:middle;" | 常见程度
| 高频
| 中频
| 低频
|-
| 4.00
| 2.25
| 0.50
|-
| ''表音 (如有)''
| colspan="3"| ''-0.50''
|}

*'''声旁得分（B）'''
{| class="wikitable"
|-
! 声母与该字汉越音
| 一致
| 1.25
| 类似
| 0.73
| 不一致
| 0.20
|-
! 韵母与该字汉越音
| 一致
| 1.50
| 类似
| 0.85
| 不一致
| 0.20
|-
! 声调与该字汉越音
| 一致
| 1.25
| 类似
| 0.90
| 不一致
| 0.20
|-
! 形声字
| 否
| 3.00
| colspan="2"| 是
| 0.20
|-
! 常见程度
| 高频
| 3.00
| 中频
| 1.60
| 低频
| 0.20
|-
! ''表意功能 (如有)''
| colspan="6"| ''忽略上述得分, 直接使用“义旁”打分制''
|}