ragflow中的pyicu安装与测试
1. PyICU 简介
PyICU 是 ICU (International Components for Unicode) 库的 Python 绑定。ICU 是 Unicode 联盟开发的一套用于国际化的开源 C/C++ 和 Java 库,提供了强大的 Unicode 支持、区域设置、日期时间格式化、文本处理等功能。PyICU 让 Python 开发者能够轻松使用这些功能。
2. 安装 ICU 和 PyICU
2.1 安装 ICU 库
在安装 PyICU 之前,需要先安装 ICU 库。以下是在 Ubuntu 系统上安装 ICU 库的步骤:
# 下载 ICU 库
wget https://github.com/unicode-org/icu/releases/tag/release-77-1/icu4c-77_1-Ubuntu22.04-x64.tgz# 解压文件
tar -xzf icu4c-77_1-Ubuntu22.04-x64.tgz
将解压出的文件复制到系统目录
sudo cp -r /path/to/extracted/icu/usr/local/* /usr/local/
/path/to/extracted/替换为icu的位置
更新动态链接库缓存
sudo ldconfig
创建符号链接
cd /usr/local/lib
sudo ln -sf libicudata.so.77.1 libicudata.so
sudo ln -sf libicui18n.so.77.1 libicui18n.so
sudo ln -sf libicuio.so.77.1 libicuio.so
sudo ln -sf libicutest.so.77.1 libicutest.so
sudo ln -sf libicutu.so.77.1 libicutu.so
sudo ln -sf libicuuc.so.77.1 libicuuc.so
验证 ICU 安装
/usr/local/bin/icuinfo
/usr/local/bin/icu-config --version
2.2 安装 PyICU
安装 ICU 库后,可以使用 pip 或 uv 安装 PyICU:
uv pip install PyICU
# 或者
pip install PyICU
3. PyICU 基本功能
3.1 区域设置 (Locale)
区域设置是 ICU 的核心概念,用于表示特定的语言、国家/地区和变体组合。
import icudef demonstrate_locale():print("\n=== 区域设置(Locale)演示 ===")# 创建不同的区域设置us_locale = icu.Locale("en_US")cn_locale = icu.Locale("zh_CN")jp_locale = icu.Locale("ja_JP")# 显示区域名称print(f"美国英语: {us_locale.getDisplayName()}")print(f"中文(中国): {cn_locale.getDisplayName()}")print(f"日语(日本): {jp_locale.getDisplayName()}")# 获取语言名称print(f"中文区域的语言名称: {cn_locale.getDisplayLanguage()}")print(f"日本区域的国家名称: {jp_locale.getDisplayCountry()}")demonstrate_locale()
输出结果:
=== 区域设置(Locale)演示 ===
美国英语: English (United States)
中文(中国): Chinese (China)
日语(日本): Japanese (Japan)
中文区域的语言名称: Chinese
日本区域的国家名称: Japan
3.2 文字转换 (Transliteration)
PyICU 提供了强大的文字转换功能,可以将一种文字系统转换为另一种。
import icudef demonstrate_transliteration():print("\n=== 文字转换(Transliteration)演示 ===")# 创建转换器greek_to_latin = icu.Transliterator.createInstance("Greek-Latin")cyrillic_to_latin = icu.Transliterator.createInstance("Cyrillic-Latin")any_to_latin = icu.Transliterator.createInstance("Any-Latin")# 希腊文转拉丁文greek_text = "Ψάπφω"latin_result = greek_to_latin.transliterate(greek_text)print(f"希腊文 '{greek_text}' 转换为拉丁文: '{latin_result}'")# 西里尔文转拉丁文cyrillic_text = "Привет мир"latin_result = cyrillic_to_latin.transliterate(cyrillic_text)print(f"西里尔文 '{cyrillic_text}' 转换为拉丁文: '{latin_result}'")# 中文转拉丁文chinese_text = "你好世界"latin_result = any_to_latin.transliterate(chinese_text)print(f"中文 '{chinese_text}' 转换为拉丁文: '{latin_result}'")# 创建复合转换器 (转ASCII)to_ascii = icu.Transliterator.createInstance("Any-Latin; Latin-ASCII")result = to_ascii.transliterate(chinese_text)print(f"中文直接转ASCII: '{result}'")demonstrate_transliteration()
3.3 日期和时间格式化
PyICU 提供了强大的日期和时间格式化功能,可以根据不同区域的习惯格式化日期和时间。
import icu
from datetime import datetimedef demonstrate_date_formatting():print("\n=== 日期格式化演示 ===")now = datetime.now()# 不同区域的日期格式化locales = ["en_US", "zh_CN", "ja_JP", "fr_FR", "de_DE"]for locale_str in locales:locale = icu.Locale(locale_str)date_format = icu.DateFormat.createDateTimeInstance(icu.DateFormat.LONG, icu.DateFormat.MEDIUM, locale)formatted_date = date_format.format(now)print(f"{locale.getDisplayName()}: {formatted_date}")demonstrate_date_formatting()
3.4 文本分析 (Break Iterator)
PyICU 的 BreakIterator 可以分析文本的字符、单词和句子边界。
def demonstrate_break_iterator():print("\n=== 文本分析(Break Iterator)演示 ===")# 创建一个辅助函数来迭代断点def iterate_breaks(text, break_iterator):break_iterator.setText(text)start = 0results = []while True:end = break_iterator.nextBoundary() # 修改这里:使用nextBoundary()而不是next()if end == icu.BreakIterator.DONE:breakresults.append(text[start:end])start = endreturn results# 测试文本text = "PyICU提供了强大的国际化支持。它可以处理Unicode文本、日期格式化和区域设置。"# 创建不同类型的断点迭代器word_iterator = icu.BreakIterator.createWordInstance(icu.Locale("zh"))sentence_iterator = icu.BreakIterator.createSentenceInstance(icu.Locale("zh"))# 获取单词边界words = iterate_breaks(text, word_iterator)print(f"单词/标记: {words}")# 获取句子边界sentences = iterate_breaks(text, sentence_iterator)print(f"句子: {sentences}")demonstrate_break_iterator()
3.5 排序 (Collation)
PyICU 的排序功能可以根据不同语言的排序规则对字符串进行排序。
import icudef demonstrate_collation():print("\n=== 排序(Collation)演示 ===")# 创建不同区域的排序器en_collator = icu.Collator.createInstance(icu.Locale("en_US"))de_collator = icu.Collator.createInstance(icu.Locale("de_DE"))zh_collator = icu.Collator.createInstance(icu.Locale("zh_CN"))# 测试字符串列表strings = ["café", "cafe", "apple", "äpfel", "Zebra", "中国", "美国", "日本"]# 使用不同排序器排序en_sorted = sorted(strings, key=en_collator.getSortKey)de_sorted = sorted(strings, key=de_collator.getSortKey)zh_sorted = sorted(strings, key=zh_collator.getSortKey)print(f"英语排序: {en_sorted}")print(f"德语排序: {de_sorted}")print(f"中文排序: {zh_sorted}")demonstrate_collation()
4. 完整示例
以下是一个完整的示例,展示了 PyICU 的多种功能:
import icu
from datetime import datetime# 显示ICU版本
print(f"ICU 版本: {icu.ICU_VERSION}")# 区域设置演示
def demonstrate_locale():print("\n=== 区域设置(Locale)演示 ===")us_locale = icu.Locale("en_US")cn_locale = icu.Locale("zh_CN")jp_locale = icu.Locale("ja_JP")print(f"美国英语: {us_locale.getDisplayName()}")print(f"中文(中国): {cn_locale.getDisplayName()}")print(f"日语(日本): {jp_locale.getDisplayName()}")print(f"中文区域的语言名称: {cn_locale.getDisplayLanguage()}")print(f"日本区域的国家名称: {jp_locale.getDisplayCountry()}")# 文字转换演示
def demonstrate_transliteration():print("\n=== 文字转换(Transliteration)演示 ===")greek_to_latin = icu.Transliterator.createInstance("Greek-Latin")any_to_latin = icu.Transliterator.createInstance("Any-Latin")to_ascii = icu.Transliterator.createInstance("Any-Latin; Latin-ASCII")greek_text = "Ψάπφω"chinese_text = "你好世界"print(f"希腊文 '{greek_text}' 转换为拉丁文: '{greek_to_latin.transliterate(greek_text)}'")print(f"中文 '{chinese_text}' 转换为拉丁文: '{any_to_latin.transliterate(chinese_text)}'")print(f"中文直接转ASCII: '{to_ascii.transliterate(chinese_text)}'")# 日期格式化演示
def demonstrate_date_formatting():print("\n=== 日期格式化演示 ===")now = datetime.now()locales = ["en_US", "zh_CN", "ja_JP"]for locale_str in locales:locale = icu.Locale(locale_str)date_format = icu.DateFormat.createDateTimeInstance(icu.DateFormat.LONG, icu.DateFormat.MEDIUM, locale)print(f"{locale.getDisplayName()}: {date_format.format(now)}")# 执行演示
demonstrate_locale()
demonstrate_transliteration()
demonstrate_date_formatting()