词库转换器

功能描述

转换词库文件的格式和拼音编码方式。

支持的词库格式:
  • 搜狗输入法细胞词库 (.scel) (仅支持导入)
  • 百度输入法分类词库 (.bdict) (仅支持导入)
  • QQ 输入法细胞词库 (.qcel) (仅支持导入)
  • Gboard 个人字典 (.zip)

    注意:Gboard 个人字典导入和导出的就是一个 .zip 压缩文件,不要解压。

  • 微软拼音用户自定义短语 (.dat)
  • macOS 键盘自定义短语 (.plist)
  • Fcitx5(小企鹅输入法)文本词库 (.txt)

    Fcitx5 有两种类型的词库:.txt 格式的文本词库和 .dict 格式的二进制词库。 本工具仅支持文本词库,文本词库可直接导入到 Fcitx5 中。 如需在文本词库和二进制词库间转换,可使用 Fcitx5 自带的命令行工具:

    # 将文本词库转换为二进制词库
    libime_pinyindict 文本词库.txt 二进制词库.dict
    # 将二进制词库转换为文本词库
    libime_pinyindict -d 二进制词库.dict 文本词库.txt

  • Rime(中州韵、小狼毫、鼠须管)词库 (.dict.yaml)
  • CSV 文件 (.csv)

    格式示例:

    词组,拼音
    第一个,di yi ge
    第二个,di er ge

    根据导入词库的不同,导出的 CSV 文件中可能包含例如“词频”等附加信息,这些信息同样可以编辑和重新导入,例如:

    词组,拼音,候选词位置,词频
    第一个,di yi ge,2,0
    第二个,di er ge,3,999

    但这些附加信息不一定被所有导出格式支持。例如“候选词位置”信息,只有在导出为“微软拼音用户自定义短语”时生效;“词频”信息,只有在导出为“Fcitx5 文本词库”时生效。

    TXT 文件 (.txt)

    格式示例:

    第一个
    第二个
支持的拼音编码:
  • 全拼
  • 双拼
    • 自然码
    • 小鹤双拼
    • 微软双拼
    • 拼音加加
    • 智能 ABC
    • 紫光双拼
    • 搜狗双拼
    • 国标双拼
转换说明:
  • 如果需要对词库进行编辑、过滤,可以先导出为 CSV 文件进行编辑,然后将编辑后的 CSV 文件重新导入。
  • 拼音解析或转换失败的词条,会在附加信息中有失败的原因。 只有导出 CSV 文件时会包含转换失败的结果,其他格式只会导出转换成功的结果。
  • 如果导入的是自定义短语类型的词库(例如:Gboard 用户字典、微软拼音用户自定义词库、macOS 键盘自定义短语), 但导出的不是自定义短语类型的词库,且导入的拼音编码方式全拼,将尝试所有可能的拼音分割情况。 例如,“fangan”会分割成“fan gan”和“fang an”两种情况。
  • 如果导入的是 TXT 文件,且存在多音字,将会组合出多音字每个音的组合。 如果组合数超过 10 个,将保留前 10 个。 例如,“长大”会组合出:“chang da”、“chang dai”、“zhang da”、“zhang dai”四种情况。
  • 部分词库有例如“词频”等附加信息,目前支持的附加信息和对应的词库格式如下:
    • 候选词位置:微软拼音用户自定义短语
    • 词频:Fcitx5 文本词库、Rime(中州韵、小狼毫、鼠须管)词库
    CSV 文件支持导入和导出所有附加信息。
  • 全拼转双拼时,lue/nue 和 lve/nve 都能正常转换;双拼转全拼时,只能转换成 lue/nue:

    按照汉语拼音方案,ü 只有在 j/q/x 后面的时候可以写作 u,因此虽然 lüe/nüe 写作 lue/nue 不会与其他音冲突,但依然要写作 lüe/nüe。

    按照汉语拼音方案最终组合出来的音节中,只有 lü/nü/lüe/nüe 四个音节会带有 ü。

    其中 lü/nü 如果写作 lu/nu,会和其他音节冲突,因此在输入法中必须使用 lv/nv 代替;而 lüe/nüe 写作 lue/nue 不会和其他音节冲突,因此在大部分全拼输入法中,使用 lue/nue 或 lve/nve 都可以。

    汉语拼音方案中,并没有规定可以用 v 来表示 ü,只是在电脑输入法中,键盘上没有 ü 键,又刚好有个 v 键在汉语拼音方案中没有使用。

    在护照等正式场景 ,又必须使用 26 个英文字母,不能出现 ü 时,需要使用 LYU/NYU 表示 lü/nü,使用 LUE/NUE 来表示 lüe/nüe。

词库转换

选择导入的词库文件

选择导入的拼音编码

选择导出的拼音编码

选择导出的词库格式

转换结果


词组拼音结果附加信息
0%