恪別𡧲版𢯢𢷮𧵑「準化:2025 Revision/Principle」

𣳔1：

<big>'''Nguyên tắc lựa chọn chữ Hán Nôm chuẩn cho 500 chữ có tần suất cao nhất'''</big>

<big>'''Nguyên tắc lựa chọn chữ Hán Nôm chuẩn cho 500 chữ có tần suất cao nhất'''</big> Principles for Selecting Standard Hán-Nôm Characters for the Top 500 Most Frequent Characters | 字频排序前500的标准汉喃字选定原则

Nguyên tắc tổng thể: Đối với các chữ Hán Nôm nằm trong top 1-500 theo thứ tự tần suất xuất hiện, yếu tố cốt lõi để xác định hình thể chữ tiêu chuẩn là tần suất sử dụng trong lịch sử, về nguyên tắc sẽ chọn hình thể có tần suất sử dụng cao nhất làm chữ tiêu chuẩn. Quy tắc lựa chọn cụ thể như sau:

{{Hide|English · 中文|Overall Principle: For Hán-Nôm characters ranked 1-500 in frequency, the core consideration factor for determining the standard character form is historical usage frequency, with the principle of selecting the character form with the highest historical usage frequency as the standard form. The specific selection rules are as follows:

整体原则：对于字频排序位列1-500范围内的汉喃字，其标准字形确定的核心考量因素为历史使用频率，原则上选取历史使用频率最高者作为标准字形。具体选定规则如下：}}

==Thiết lập cơ bản==

* ~~Cấu thành kho~~ dữ liệu: Tự Điển Chữ Nôm Dẫn Giải (DG), Tự Điển Chữ Nôm Trích Dẫn (TD), Truyện Kiều (các bản 1866, 1870, 1871, 1872, 1902) và Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca (5Tk+Td). Hệ số trọng số của ba kho dữ liệu lần lượt là 48,6%, 33,3% và 18,1%.

* Kho dữ liệu: Tự Điển Chữ Nôm Dẫn Giải (DG), Tự Điển Chữ Nôm Trích Dẫn (TD), Truyện Kiều (các bản 1866, 1870, 1871, 1872, 1902) và Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca (5Tk+Td). Hệ số trọng số của ba kho dữ liệu lần lượt là 48,6%, 33,3% và 18,1%.

* ~~Định nghĩa nhóm~~ chữ: Là tập hợp các hình thể chữ có cùng chữ chính thể, cùng cấu trúc và bộ phận, chỉ khác nhau về vị trí một hoặc một số bộ phận. Ví dụ: “𬁖” và “𣋀” tạo thành một nhóm chữ.

* "Nhóm chữ": Là tập hợp các hình thể chữ có cùng chữ chính thể, cùng cấu trúc và bộ phận, chỉ khác nhau về vị trí một hoặc một số bộ phận. Ví dụ: “𬁖” và “𣋀” tạo thành một nhóm chữ.{{Hide|English · 中文|'''Basic Settings'''

*Database: "Tự Điển Chữ Nôm Dẫn Giải" (DG), "Tự Điển Chữ Nôm Trích Dẫn" (TD), "Truyện Kiều" (1866, 1870, 1871, 1872, 1902 editions) and "Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca" (5Tk+Td). The weighting coefficients of the three databases are 48.6%, 33.3%, and 18.1% respectively.

*"Character group": Refers to a collection of one or more character forms that correspond to the same standard character, have the same structure and components, but differ only in component positions. For example, "𬁖" and "𣋀" constitute one character group. '''基础设定'''

*资料库：《字典𡨸喃引解》（DG）、《字典𡨸喃摘引》（TD）、《翘传》（1866、1870、1871、1872、1902年版本）及《嗣德圣制字学解义歌》（5Tk+Td）。三个资料的权重系数分别为48.6%、33.3%、18.1%。

*“字组”：指对应正体字相同，且具有相同结构和部件，仅部件位置存在差异的一个或多个字形的集合。例如，“𬁖”和“𣋀”构成一个字组。}}

==Bước 1: Sàng lọc nhóm chữ ứng viên==

- Thiết lập đường cơ sở: Đối với các chữ nằm trong top 1-500, chỉ những chữ có tần suất đạt từ 2/3 tần suất cao nhất trong lịch sử trở lên mới được đưa vào danh sách ứng viên tiêu chuẩn.

*Thiết lập đường cơ sở: Đối với các chữ nằm trong top 1-500, chỉ những chữ có tần suất đạt từ 2/3 tần suất cao nhất trong lịch sử trở lên mới được đưa vào danh sách ứng viên tiêu chuẩn.

- Loại bỏ các ~~hình thể~~ không hợp lệ: Bao gồm các chữ không có mã Unicode, chữ ~~đa nghĩa~~ gây nhầm lẫn, chữ có số nét quá nhiều, hoặc chữ có cấu trúc cực kỳ không hài hòa.

*Loại bỏ các chữ không hợp lệ: Bao gồm các chữ không có mã Unicode, chữ gây nhầm lẫn, chữ có số nét quá nhiều, hoặc chữ có cấu trúc cực kỳ không hài hòa. {{Hide|English · 中文|'''Step One: Candidate Character Group Screening'''

*Setting baseline: For characters with frequency rankings in the 1-500 range, the baseline for becoming standard character candidates is set at two-thirds or more of the highest historical frequency count.

*Excluding unqualified characters: Unqualified character forms include non-Unicode encoded characters, ambiguous characters, characters with excessive strokes, and characters with extremely uncoordinated structures. '''第一步：候选字组筛选'''

*设定基准线：对于字频排位在1-500范围内的字，可成为标准字候选的基准线设定为历史最高频字频数的三分之二或以上。

*排除不合格字形：不合格字形包括非Unicode编码字、歧义字、笔画数过多的字、结构极端不协调的字。}}

==Bước 2: Xác định nhóm chữ tiêu chuẩn==

@@ 𣳔1： / 𣳔1： @@
-<big>'''Nguyên tắc lựa chọn chữ Hán Nôm chuẩn cho 500 chữ có tần suất cao nhất'''</big>
+<big>'''Nguyên tắc lựa chọn chữ Hán Nôm chuẩn cho 500 chữ có tần suất cao nhất'''</big><br/>Principles for Selecting Standard Hán-Nôm Characters for the Top 500 Most Frequent Characters | 字频排序前500的标准汉喃字选定原则
 Nguyên tắc tổng thể: Đối với các chữ Hán Nôm nằm trong top 1-500 theo thứ tự tần suất xuất hiện, yếu tố cốt lõi để xác định hình thể chữ tiêu chuẩn là tần suất sử dụng trong lịch sử, về nguyên tắc sẽ chọn hình thể có tần suất sử dụng cao nhất làm chữ tiêu chuẩn. Quy tắc lựa chọn cụ thể như sau:
+{{Hide|<small>English · 中文</small>|Overall Principle: For Hán-Nôm characters ranked 1-500 in frequency, the core consideration factor for determining the standard character form is historical usage frequency, with the principle of selecting the character form with the highest historical usage frequency as the standard form. The specific selection rules are as follows:<br/>
+整体原则：对于字频排序位列1-500范围内的汉喃字，其标准字形确定的核心考量因素为历史使用频率，原则上选取历史使用频率最高者作为标准字形。具体选定规则如下：}}
 ==Thiết lập cơ bản==
-* Cấu thành kho dữ liệu: Tự Điển Chữ Nôm Dẫn Giải (DG), Tự Điển Chữ Nôm Trích Dẫn (TD), Truyện Kiều (các bản 1866, 1870, 1871, 1872, 1902) và Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca (5Tk+Td). Hệ số trọng số của ba kho dữ liệu lần lượt là 48,6%, 33,3% và 18,1%.
+* Kho dữ liệu: Tự Điển Chữ Nôm Dẫn Giải (DG), Tự Điển Chữ Nôm Trích Dẫn (TD), Truyện Kiều (các bản 1866, 1870, 1871, 1872, 1902) và Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca (5Tk+Td). Hệ số trọng số của ba kho dữ liệu lần lượt là 48,6%, 33,3% và 18,1%.
-* Định nghĩa nhóm chữ: Là tập hợp các hình thể chữ có cùng chữ chính thể, cùng cấu trúc và bộ phận, chỉ khác nhau về vị trí một hoặc một số bộ phận. Ví dụ: “𬁖” và “𣋀” tạo thành một nhóm chữ.
+* "Nhóm chữ": Là tập hợp các hình thể chữ có cùng chữ chính thể, cùng cấu trúc và bộ phận, chỉ khác nhau về vị trí một hoặc một số bộ phận. Ví dụ: “𬁖” và “𣋀” tạo thành một nhóm chữ.{{Hide|<small>English · 中文</small>|'''Basic Settings'''
+*Database: "Tự Điển Chữ Nôm Dẫn Giải" (DG), "Tự Điển Chữ Nôm Trích Dẫn" (TD), "Truyện Kiều" (1866, 1870, 1871, 1872, 1902 editions) and "Tự Đức Thánh Chế Tự Học Giải Nghĩa Ca" (5Tk+Td). The weighting coefficients of the three databases are 48.6%, 33.3%, and 18.1% respectively.
+*"Character group": Refers to a collection of one or more character forms that correspond to the same standard character, have the same structure and components, but differ only in component positions. For example, "𬁖" and "𣋀" constitute one character group.<br/>'''基础设定'''
+*资料库：《字典𡨸喃引解》（DG）、《字典𡨸喃摘引》（TD）、《翘传》（1866、1870、1871、1872、1902年版本）及《嗣德圣制字学解义歌》（5Tk+Td）。三个资料的权重系数分别为48.6%、33.3%、18.1%。
+*“字组”：指对应正体字相同，且具有相同结构和部件，仅部件位置存在差异的一个或多个字形的集合。例如，“𬁖”和“𣋀”构成一个字组。}}
 ==Bước 1: Sàng lọc nhóm chữ ứng viên==
-- Thiết lập đường cơ sở: Đối với các chữ nằm trong top 1-500, chỉ những chữ có tần suất đạt từ 2/3 tần suất cao nhất trong lịch sử trở lên mới được đưa vào danh sách ứng viên tiêu chuẩn.
+*Thiết lập đường cơ sở: Đối với các chữ nằm trong top 1-500, chỉ những chữ có tần suất đạt từ 2/3 tần suất cao nhất trong lịch sử trở lên mới được đưa vào danh sách ứng viên tiêu chuẩn.
-- Loại bỏ các hình thể không hợp lệ: Bao gồm các chữ không có mã Unicode, chữ đa nghĩa gây nhầm lẫn, chữ có số nét quá nhiều, hoặc chữ có cấu trúc cực kỳ không hài hòa.
+*Loại bỏ các chữ không hợp lệ: Bao gồm các chữ không có mã Unicode, chữ gây nhầm lẫn, chữ có số nét quá nhiều, hoặc chữ có cấu trúc cực kỳ không hài hòa. {{Hide|<small>English · 中文</small>|'''Step One: Candidate Character Group Screening'''
+*Setting baseline: For characters with frequency rankings in the 1-500 range, the baseline for becoming standard character candidates is set at two-thirds or more of the highest historical frequency count.
+*Excluding unqualified characters: Unqualified character forms include non-Unicode encoded characters, ambiguous characters, characters with excessive strokes, and characters with extremely uncoordinated structures.<br/>'''第一步：候选字组筛选'''
+*设定基准线：对于字频排位在1-500范围内的字，可成为标准字候选的基准线设定为历史最高频字频数的三分之二或以上。
+*排除不合格字形：不合格字形包括非Unicode编码字、歧义字、笔画数过多的字、结构极端不协调的字。}}
 ==Bước 2: Xác định nhóm chữ tiêu chuẩn==