当前位置: 首页 > news >正文

将扩展的DuckDB自定义函数整合到一个程序

前段时间在DeepSeek的辅助下,先后实现了:

  • deepseek辅助编写的支持gmp高精度运算duckdb客户端
  • 利用DeepSeek编写能在DuckDB中读PostgreSQL表的表函数
  • 使用DeepSeek编写DuckDB支持中文字符集编码的read_csv表函数
  • 让DeepSeek参照libxls的xls2csv例子实现的DuckDB read_xls表函数
  • DeepSeek辅助编写的将DuckDB查询结果写多种格式文件的通用类

但使用不同功能要调用不同的程序很麻烦,而且有的程序没有输入SQL语句的界面,每次改变语句都要重新编译,不实用,所以将它们整合到一个带有交互式界面的程序。

整合的步骤其实很机械,在主程序中添加相应函数的注册代码,以及用某种方式将实现该函数的cpp程序加入编译,后者既可以用#include "源代码.cpp"的方式,也可以用#include "源代码.h"的方式再将源代码.cpp加入编译命令行,前一种更简单,不过后一种更规范。

修改后的主程序的增加部分如下:
包含头文件和源代码

#include "readpg5.cpp" //读取符合postgresql协议的数据库中的表
#include "csv_reader2.hpp" //读取中文字符集csv
#include "copy_files2.cpp" //将查询结果写入xls电子表格文件和docx文档文件,支持中文
#include "read_xls2.cpp" //读取xls电子表格文件

在注册程序void registerGMPFunctions()中添加如下行

    duckdb::DatabaseInstance& db_instance = *db_->instance;//注册read_pg自定义函数duckdb::ExtensionUtil::RegisterFunction(db_instance, PGTableFunction::GetFunction());//注册read_csv_e自定义函数duckdb::ExtensionUtil::RegisterFunction(db_instance, duckdb::ReadCSVEFunction::GetFunction());//注册read_xls自定义函数ExtensionUtil::RegisterFunction(db_instance, ReadXLSFunction::GetFunction());//注册copy to自定义函数, 支持xls和docx格式duckdb::RegisterMultiFormatCopyFunction(db_instance);

因为有同名冲突,修改了两处
1.在copy_files2.cpp中重新定义unsigned64_t后再包含xlslib.h,再取消

#define unsigned64_t xls_unsigned64_t
#include "xlslib.h"
#undef unsigned64_t

2.在read_xls2.cpp中将结构体XLSGlobalState改名为ReadXLSGlobalState,并同步修改两处对它的使用。

struct ReadXLSGlobalState {xlsWorkBook* workbook;xlsWorkSheet* worksheet;unsigned int current_row;bool finished;
};struct XLSFunctionGlobalState : public GlobalTableFunctionState {duckdb::unique_ptr<ReadXLSGlobalState> xls_state;
};unique_ptr<GlobalTableFunctionState> ReadXLSFunction::InitGlobal(ClientContext &context, TableFunctionInitInput &input) {auto result = make_uniq<XLSFunctionGlobalState>();auto &bind_data = (BindData &)*input.bind_data;result->xls_state = make_uniq<ReadXLSGlobalState>();

用如下命令行编译通过,注意xlslib是用的是修改后的支持中文的版本

export LIBRARY_PATH=/par:/usr/local/lib:/par/duck/build/src
export LD_LIBRARY_PATH=/par:/usr/local/lib:/par/duck/build/srcg++ csv_reader2.cpp minidocx-0.6.0/src/minidocx.cpp minidocx-0.6.0/3rdparty/pugixml-1.13/*.cpp minidocx-0.6.0/3rdparty/zip-0.2.1/*.c  ducksql2.cpp -o ducksql2  -lduckdb -lxls -I /par/duck/src/include -I /par/xlslib/xlslib/src -I minidocx-0.6.0/src -I minidocx-0.6.0/3rdparty/pugixml-1.13 -I minidocx-0.6.0/3rdparty/zip-0.2.1  -I xlslib/src -std=c++17 -lgmp -lpqxx -lpq -liconv -lxlsreader -O3

这里将minidocx-0.6.0的代码直接链接到二进制文件中,而没有使用动态链接库,如果使用后者,可以自行修改。

为了验证我们加入的自定义函数,可以采取以下步骤。
用官方duckdb CLI新建一个数据库,将系统函数列表存入一个表中

 ./duckdb130 duck130.db
DuckDB v1.3.0 (Ossivalis) 71c5c07cdd
Enter ".help" for usage hints.
D create table tduckdb_functions as select * from duckdb_functions();
D select * from tduckdb_functions limit 1;
┌───────────────┬──────────────┬─────────────┬───────────────┬──────────┬───────────────┬─────────────┬───┬──────────────────┬──────────────────┬──────────┬──────────────┬───────────┬───────────┬────────────┐
│ database_name │ database_oid │ schema_name │ function_name │ alias_of │ function_type │ description │ … │ macro_definition │ has_side_effects │ internal │ function_oid │ examples  │ stability │ categories │
│    varcharvarcharvarcharvarcharvarcharvarcharvarchar   │   │     varcharbooleanboolean  │    int64     │ varchar[]varcharvarchar[]  │
├───────────────┼──────────────┼─────────────┼───────────────┼──────────┼───────────────┼─────────────┼───┼──────────────────┼──────────────────┼──────────┼──────────────┼───────────┼───────────┼────────────┤
│ system        │ 0            │ main        │ duckdb_views  │ NULLtableNULL        │ … │ NULLNULLtrue72[]NULL[]         │
├───────────────┴──────────────┴─────────────┴───────────────┴──────────┴───────────────┴─────────────┴───┴──────────────────┴──────────────────┴──────────┴──────────────┴───────────┴───────────┴────────────┤
│ 1 rows                                                                                                                                                                                 20 columns (14 shown) │
└──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
D

然后用程序打开同一个数据库,将现在的函数列表与原有的备份比较,找出新增的

./ducksql2 duck130.db
DuckDB GMP Shell (enter 'exit;' to quit, 'read file.sql' to execute script)
Type 'timi on/off' to enable/disable timing
=============================================
duckdb> select function_name, function_type from duckdb_functions() where function_name not in(select function_name from tduckdb_functions);
┌───────────────┬───────────────┐
│ function_name │ function_type │
│    varcharvarchar    │
├───────────────┼───────────────┤
│ read_csv_e    │ table         │
│ read_xls      │ table         │
│ read_pg       │ table         │
│ mpz_add       │ scalar        │
│ mpz_div       │ scalar        │
│ mpz_mul       │ scalar        │
│ mpz_root      │ scalar        │
│ mpz_sub       │ scalar        │
│ mpz_sum       │ aggregate     │
└───────────────┴───────────────┘

可见,新增的copy to函数不在其中,但其实它们存在,当加载官方excel插件时,报了如下错误

duckdb> install excel;
duckdb> load excel;
Error: Invalid Input Error: Initialization function "excel_init" from file "/root/.duckdb/extensions/v1.3.0/linux_amd64/excel.duckdb_extension" threw an exception: "Catalog write-write conflict on create with "xlsx""

而把copy_files2.cpp中涉及xlsx格式的内容完全删除以后,重新编译执行,以上错误消失,证明我们原有的copy_files2.cpp确实处理了xlsx格式,虽然它实际上就是把xls文件改个后缀名,但duckdb还是不允许。
加载excel插件后的新增函数列表如下,现在我们的程序和它和平共处了。

duckdb> load excel;
duckdb> select function_name, function_type from duckdb_functions() where function_name not in(select function_name from tduckdb_functions);
┌───────────────┬───────────────┐
│ function_name │ function_type │
│    varcharvarchar    │
├───────────────┼───────────────┤
│ read_pg       │ table         │
│ read_xls      │ table         │
│ read_xlsx     │ table<--
│ read_csv_e    │ table         │
│ mpz_div       │ scalar        │
│ mpz_add       │ scalar        │
│ mpz_mul       │ scalar        │
│ mpz_root      │ scalar        │
│ mpz_sub       │ scalar        │
│ text          │ scalar        │<--
│ excel_text    │ scalar        │<--
│ mpz_sum       │ aggregate     │
├───────────────┴───────────────┤
│ 12 rows             2 columns │
└───────────────────────────────┘

各个函数的用法在引用的文章中都有,就不重复了。
另外,将程序输出结果的部分做了如下修改,使得explain语句能像官方CLI那样输出,而不是输出explain_value表的结果。

                std::string lower;lower.resize(query.size()); transform(query.begin(), query.end(), lower.begin(), ::tolower);if (lower.find("explain ") ==  std::string::npos)std::cout << result->ToBox(context, config) << std::endl; //正常语句输出else //explain语句输出std::cout <<result->GetValue(1,0)<< std::endl;

修改前

duckdb> explain select 1 a;
┌───────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│  explain_key  │                                                                                         explain_value                                                                                         │
│    varcharvarchar                                                                                            │
├───────────────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤
│ physical_plan │ ┌───────────────────────────┐\n│         PROJECTION        │\n│    ────────────────────   │\n│             a             │\n│                           │\n│          ~1 Rows          │\n└…  │
└───────────────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

修改后

duckdb> explain select 1 a;
┌───────────────────────────┐
│         PROJECTION        │
│    ────────────────────   │
│             a             │
│                           │
│          ~1 Rows          │
└─────────────┬─────────────┘
┌─────────────┴─────────────┐
│         DUMMY_SCAN        │
└───────────────────────────┘

其他语句,现在的输出看起来不错,比如copy to返回写入的行数,就没有修改,如有需要也可以自行修改。

duckdb> copy (select mpz_mul('111111111111111111111111','222222222222222222222222')) to 'mpz_mul.docx';
┌───────┐
│ Count │
│ int64 │
├───────┤
│     1 │
└───────┘
http://www.xdnf.cn/news/1055359.html

相关文章:

  • 三极管综述
  • Thinkless:基于RL让LLM自适应选择长/短推理模式,显著提升推理效率和准确性!!
  • 爆肝整理,python接口自动化测试整理,基础进阶一套打通...
  • 数据治理域——数据应用设计
  • Unity中的transform.Translate
  • centos7 安装 docker
  • PKIX path building failed
  • 数据库第一章复习:数据库的三级模式
  • 易采集EasySpider v0.6.3 便携版
  • 【Linux】设备模拟器概念
  • Vite:下一代前端构建工具的革命性突破
  • scikit-image (skimage) 完整API参考文档
  • MySql多表查询完全指南:从基础概念到实战应用
  • java.uitl.Scanner 这个叫jar包吗?
  • 【Docker管理工具】安装Docker磁盘使用仪表板Doku
  • PG靶机复现 Mice
  • windows server部署.net项目(nopcommerce)
  • Luckfox Pico Pro Max SD 卡镜像扩容方法
  • Spark核心概念与DAG执行原理笔记
  • Skip-Gram CBOW
  • 通达信 玄学首板 抓首版指标
  • 深入探索Joomla子模板:解决模板更新覆盖问题的终极方案​
  • 调和级数 发散 P级数判别法
  • git 开源平台网站推荐 (2025-06 更新)
  • hot100 -- 14.贪心算法
  • 土建施工安全管理难?免费AI系统 24h 监控预警
  • Android16变更
  • NodeJS哪些情况下会造成内存泄漏和避免方法
  • Unity3D仿星露谷物语开发63之NPC移动
  • 多模态大语言模型arxiv论文略读(122)