当前位置: 首页 > news >正文

Java 日期解析与格式化:从标准格式到自然语言解析

使用 Java 搭配 Apache Commons Lang3 和 Natty 库,实现灵活高效的日期解析与格式化。


一、背景

将不同格式的日期统一成一个格式。日期格式可能有以下几种类型:

  • 标准格式:2024-02-2814/05/20222002年5月6日
  • 非英文月份缩写:02 NIS 201826 AGO 2018(西班牙语)
  • 自然语言:next Mondaytwo days ago

二、依赖介绍

使用的版本是 jdk8。使用以下两个日期解析库:

1. Apache Commons Lang3

Apache Commons Lang3 提供了丰富的工具类,能够严格地解析各种标准日期格式。

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.12.0</version>
</dependency>

2. Natty

Natty 是一个专门用于解析自然语言日期的 Java 库,支持英文描述的各种日期表达方式。

<dependency><groupId>com.joestelmach</groupId><artifactId>natty</artifactId><version>0.13</version>
</dependency>

三、核心实现代码

定义一个工具类,提供统一的日期解析方法:

完整代码示例:

import org.apache.commons.lang3.time.DateUtils;
import com.joestelmach.natty.Parser;
import org.apache.log4j.Level;import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.*;/**** @title* @author shijiangyong* @date 2025/5/14 14:18**/
public class SmartDateParser {// 允许解析的日期格式private static final String[] DATE_PATTERNS = {"yyyy-MM-dd", "yyyy/M/d", "dd/MM/yyyy", "yyyy年M月d日","dd MMM yyyy", "MMM dd yyyy", "dd MM yyyy","yyyyMMdd", "yyyy.MM.dd", "yyyy年MM月dd日", "d MMM yyyy","EEE, dd MMM yyyy"};// 处理非标准月份缩写(主要针对西班牙语、法语等)private static final Map<String, String> MONTH_CORRECTIONS = new HashMap<>();static {MONTH_CORRECTIONS.put("NIS", "APR");  // 可能是 AprilMONTH_CORRECTIONS.put("ABR", "APR");  // 西班牙语 AprilMONTH_CORRECTIONS.put("AGO", "AUG");  // 西班牙语 August}/*** 解析日期并转换为 yyyy-M-d 格式*/public static String parseDate(String input) {if (input == null || input.trim().isEmpty()) {return "Invalid Date";}input = input.trim().replaceAll("[,,]", "");// 修正月份缩写for (Map.Entry<String, String> entry : MONTH_CORRECTIONS.entrySet()) {if (input.contains(entry.getKey())) {input = input.toUpperCase().replace(entry.getKey(), entry.getValue());}}// 1. 明确格式优先处理for (String pattern : DATE_PATTERNS) {try {SimpleDateFormat sdf = new SimpleDateFormat(pattern, Locale.ENGLISH);// 严格校验日期sdf.setLenient(false);Date date = sdf.parse(input);return formatToStandard(date);} catch (ParseException ignored) {}}// 1. 使用 Apache Commons Lang3 解析try {Date date = DateUtils.parseDateStrictly(input, Locale.ENGLISH, DATE_PATTERNS);return formatToStandard(date);} catch (ParseException ignored) {}// 2. 使用 Natty 解析 (适用于 `next Monday`, `19 AUG 2019`)try {Parser parser = new Parser();List<com.joestelmach.natty.DateGroup> groups = parser.parse(input);if (!groups.isEmpty()) {List<Date> dates = groups.get(0).getDates();if (!dates.isEmpty()) {return formatToStandard(dates.get(0));}}} catch (Exception ignored) {}return "Unrecognized: " + input;}/*** 统一转换日期为 yyyy-MM-dd 格式*/private static String formatToStandard(Date date) {Calendar cal = Calendar.getInstance();cal.setTime(date);int year = cal.get(Calendar.YEAR);int month = cal.get(Calendar.MONTH) + 1;int day = cal.get(Calendar.DAY_OF_MONTH);return String.format("%04d-%02d-%02d", year, month, day);}public static void main(String[] args) {org.apache.log4j.Logger.getRootLogger().setLevel(Level.ERROR);List<String> testDates = Arrays.asList("02 NIS 2018", "2028-4-219", "19 AUG 2019", "2019-8-19","2002年5月6日", "2005/02/03", "03 SEP 1985", "14/05/2022","20 FEB 1991", "26 AGO 2018", "08 ABR 1975", "01 09 1988","next Monday", "yesterday", "two days ago", "2024.02.28","Wed, 19 Aug 2019");for (String dateStr : testDates) {System.out.println("输入: " + dateStr + " → 解析: " + parseDate(dateStr));}}
}

解析结果:

输入: 02 NIS 2018 → 解析: 2018-04-02
输入: 2028-4-219 → 解析: 2028-04-21
输入: 19 AUG 2019 → 解析: 2019-08-19
输入: 2019-8-19 → 解析: 2019-08-19
输入: 2002年5月6日 → 解析: 2002-05-06
输入: 2005/02/03 → 解析: 2005-02-03
输入: 03 SEP 1985 → 解析: 1985-09-03
输入: 14/05/2022 → 解析: 2022-05-14
输入: 20 FEB 1991 → 解析: 1991-02-20
输入: 26 AGO 2018 → 解析: 2018-08-26
输入: 08 ABR 1975 → 解析: 1975-04-08
输入: 01 09 1988 → 解析: 1988-09-01
输入: next Monday → 解析: 2025-05-19
输入: yesterday → 解析: 2025-05-13
输入: two days ago → 解析: 2025-05-12
输入: 2024.02.28 → 解析: 2024-02-28
输入: Wed, 19 Aug 2019 → 解析: 2019-08-19

要求的日期格式都正确解析了。

http://www.xdnf.cn/news/448057.html

相关文章:

  • 【Bootstrap V4系列】学习入门教程之 组件-分页(Pagination)
  • 如何利用 Java 爬虫获得京东(JD)商品详情:实战指南
  • windows10 安装 QT
  • 国产之光--腾讯云推出AI编程智能助手CodeBuddy
  • HPE ProLiant DL360 Gen11 服务器,配置 RAID 5 教程!
  • Linux篇 第2章Linux基础指令
  • 【FFmpeg】介绍+安装+VisualStudio配置FFMpeg库
  • 序列化和反序列化:从理论到实践的全方位指南
  • c++STL——哈希表封装:实现高效unordered_map与unordered_set
  • teneo自动机器人部署教程
  • 固定步长和变步长的LMS自适应滤波器算法
  • [Spring]-组件的生命周期
  • 【Linux网络】传输层协议TCP
  • TypeScript泛型:从入门到精通的全方位指南
  • Linux下的c/c++开发之操作Redis数据库
  • 上网行为审计软件系统说明书:上网行为审计是什么?是干啥的?哪家好?
  • AI世界的崩塌:当人类思考枯竭引发数据生态链断裂
  • new optimizers for dl
  • 在Unity中制作拥有36年历史的游戏系列新作《桃太郎电铁世界》
  • 通过宝塔配置HTTPS证书
  • Python爬虫实战:研究拦截器,实现逆向解密
  • UI 原型设计:交互规则的三要素——重要性、原则与实践
  • 【Liblib】基于LiblibAI自定义模型,总结一下Python开发步骤
  • 小说所有设定(v3.0 preview)
  • Qml自定义组件之车辆风扇展示
  • 【Linux】掌握 setsid:让进程脱离终端独立运行
  • 三种映射方式总结
  • 第二十九节:直方图处理-直方图均衡化
  • ET ProcessInnerSender类(实体) 分析
  • ultralytics中tasks.py---parse_model函数解析