码迷,mamicode.com
首页 > 其他好文 > 详细

Hive 自定义函数

时间:2020-09-17 21:51:10      阅读:35      评论:0      收藏:0      [点我收藏+]

标签:int   return   exe   cat   ber   创建   pack   tag   加载   

Hive的SQL可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF)。

UDF、UDAF、UDTF的区别:

UDF(User-Defined-Function)一进一出

UDAF(User-Defined Aggregation Funcation)聚集函数,多进一出

UDTF(User-Defined Table-Generating Functions)一进多出,如lateral view explore()

用户自定义函数(user defined function),针对单条记录。编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hive。同时用户是可以重载evaluate方法的。Hive会像Java的方法重载一样,自动选择匹配的方法.

 

一、应用案例

1)全角转半角

技术图片
package com.sjck.hive.udf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * 全角转半角
 * @author Administrator
 *
 */
public class ToSingleByte extends UDF {

  public static String evaluate(String val) {
    if(StringUtils.isNotBlank(val)){
      char c[] = val.toCharArray();
            for (int i = 0; i < c.length; i++) {
              if (c[i] == ‘\u3000‘) {
                c[i] = ‘ ‘;
              } else if (c[i] > ‘\uFF00‘ && c[i] < ‘\uFF5F‘) {
                c[i] = (char) (c[i] - 65248);

              }
            }
            String returnString = new String(c);
       
            return returnString;
    }
    return "";
  }

}
View Code

 

2)身份证信息验证

技术图片
package com.sjck.hive.udf.util;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * <p>
 * 身份证合法性校验
 * </p>
 * 
 * <pre>
 * --15位身份证号码:第7、8位为出生年份(两位数),第9、10位为出生月份,第11、12位代表出生日期,第15位代表性别,奇数为男,偶数为女。
 * --18位身份证号码:第7、8、9、10位为出生年份(四位数),第11、第12位为出生月份,第13、14位代表出生日期,第17位代表性别,奇数为男,偶数为女。
 *    最后一位为校验位
 * </pre>
 * 
 * @author 313921
 */
public class IdCardUtil {
    
    private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class);
     
        /**
         * <pre>
         * 省、直辖市代码表:
         *     11 : 北京  12 : 天津  13 : 河北       14 : 山西  15 : 内蒙古  
         *     21 : 辽宁  22 : 吉林  23 : 黑龙江  31 : 上海  32 : 江苏  
         *     33 : 浙江  34 : 安徽  35 : 福建       36 : 江西  37 : 山东  
         *     41 : 河南  42 : 湖北  43 : 湖南       44 : 广东  45 : 广西      46 : 海南  
         *     50 : 重庆  51 : 四川  52 : 贵州       53 : 云南  54 : 西藏  
         *     61 : 陕西  62 : 甘肃  63 : 青海       64 : 宁夏  65 : 新疆  
         *     71 : 台湾  
         *     81 : 香港  82 : 澳门  
         *     91 : 国外
         * </pre>
         */
        private static String[] cityCode = { "11", "12", "13", "14", "15", "21",
                "22", "23", "31", "32", "33", "34", "35", "36", "37", "41", "42",
                "43", "44", "45", "46", "50", "51", "52", "53", "54", "61", "62",
                "63", "64", "65", "71", "81", "82", "91" };
     
        /**
         * 每位加权因子
         */
        private static int power[] = { 7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5,
                8, 4, 2 };
     
        /**
         * 验证所有的身份证的合法性
         * 
         * @param idcard
         *            身份证
         * @return 合法返回true,否则返回false
         */
        public static boolean isValidatedAllIdcard(String idcard) {
            if (idcard == null || "".equals(idcard)) {
                return false;
            }
            int s=15;
            if (idcard.length() == s) {
                return validate15IDCard(idcard);
            }
            int s1=18;
            if(idcard.length()==s1) {
                return validate18Idcard(idcard);
            }
            return false;
            
        }
     
        /**
         * <p>
         * 判断18位身份证的合法性
         * </p>
         * 根据〖中华人民共和国国家标准GB11643-1999〗中有关公民身份号码的规定,公民身份号码是特征组合码,由十七位数字本体码和一位数字校验码组成。
         * 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。
         * <p>
         * 顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同 日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配 给女性。
         * </p>
         * <p>
         * 1.前1、2位数字表示:所在省份的代码; 2.第3、4位数字表示:所在城市的代码; 3.第5、6位数字表示:所在区县的代码;
         * 4.第7~14位数字表示:出生年、月、日; 5.第15、16位数字表示:所在地的派出所的代码;
         * 6.第17位数字表示性别:奇数表示男性,偶数表示女性;
         * 7.第18位数字是校检码:也有的说是个人信息码,一般是随计算机的随机产生,用来检验身份证的正确性。校检码可以是0~9的数字,有时也用x表示。
         * </p>
         * <p>
         * 第十八位数字(校验码)的计算方法为: 1.将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4
         * 2 1 6 3 7 9 10 5 8 4 2
         * </p>
         * <p>
         * 2.将这17位数字和系数相乘的结果相加。
         * </p>
         * <p>
         * 3.用加出来和除以11,看余数是多少
         * </p>
         * 4.余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 6 5 4 3
         * 2。
         * <p>
         * 5.通过上面得知如果余数是2,就会在身份证的第18位数字上出现罗马数字的Ⅹ。如果余数是10,身份证的最后一位号码就是2。
         * </p>
         * 
         * @param idcard
         * @return
         */
        public static boolean validate18Idcard(String idcard) {
            if (idcard == null) {
                return false;
            }
     
            // 非18位为假
            int s=18;
            if (idcard.length() != s) {
                logger.error("身份证位数不正确!");
                return false;
            }
            // 获取前17位
            String idcard17 = idcard.substring(0, 17);
     
            // 前17位全部为数字
            if (!isDigital(idcard17)) {
                return false;
            }
     
            String provinceid = idcard.substring(0, 2);
            // 校验省份
            if (!checkProvinceid(provinceid)) {
                return false;
            }
     
            // 校验出生日期
            String birthday = idcard.substring(6, 14);
     
            SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");
     
            try {
                Date birthDate = sdf.parse(birthday);
                String tmpDate = sdf.format(birthDate);
                // 出生年月日不正确
                if (!tmpDate.equals(birthday)) {
                    return false;
                }
     
            } catch (ParseException e1) {
     
                return false;
            }
     
            // 获取第18位
            String idcard18Code = idcard.substring(17, 18);
     
            char c[] = idcard17.toCharArray();
     
            int bit[] = converCharToInt(c);
     
            int sum17 = 0;
     
            sum17 = getPowerSum(bit);
     
            // 将和值与11取模得到余数进行校验码判断
            String checkCode = getCheckCodeBySum(sum17);
            if (null == checkCode) {
                return false;
            }
            // 将身份证的第18位与算出来的校码进行匹配,不相等就为假
            if (!idcard18Code.equalsIgnoreCase(checkCode)) {
                return false;
            }
     //System.out.println("正确");
            return true;
        }
     
        /**
         * 校验15位身份证
         * 
         * <pre>
         * 只校验省份和出生年月日
         * </pre>
         * 
         * @param idcard
         * @return
         */
        public static boolean validate15IDCard(String idcard) {
            if (idcard == null) {
                return false;
            }
            // 非15位为假
            int s=15;
            if (idcard.length() != s) {
                return false;
            }
     
            // 15全部为数字
            if (!isDigital(idcard)) {
                return false;
            }
     
            String provinceid = idcard.substring(0, 2);
            // 校验省份
            if (!checkProvinceid(provinceid)) {
                return false;
            }
     
            String birthday = idcard.substring(6, 12);
     
            SimpleDateFormat sdf = new SimpleDateFormat("yyMMdd");
     
            try {
                Date birthDate = sdf.parse(birthday);
                String tmpDate = sdf.format(birthDate);
                // 身份证日期错误
                if (!tmpDate.equals(birthday)) {
                    return false;
                }
     
            } catch (ParseException e1) {
     
                return false;
            }
     
            return true;
        }
     
        /**
         * 将15位的身份证转成18位身份证
         * 
         * @param idcard
         * @return
         */
        public static String convertIdcarBy15bit(String idcard) {
            if (idcard == null) {
                return null;
            }
     
            // 非15位身份证
            int s=15;
            if (idcard.length() != s) {
                return null;
            }
     
            // 15全部为数字
            if (!isDigital(idcard)) {
                return null;
            }
     
            String provinceid = idcard.substring(0, 2);
            // 校验省份
            if (!checkProvinceid(provinceid)) {
                return null;
            }
     
            String birthday = idcard.substring(6, 12);
     
            SimpleDateFormat sdf = new SimpleDateFormat("yyMMdd");
     
            Date birthdate = null;
            try {
                birthdate = sdf.parse(birthday);
                String tmpDate = sdf.format(birthdate);
                // 身份证日期错误
                if (!tmpDate.equals(birthday)) {
                    return null;
                }
     
            } catch (ParseException e1) {
                return null;
            }
     
            Calendar cday = Calendar.getInstance();
            cday.setTime(birthdate);
            String year = String.valueOf(cday.get(Calendar.YEAR));
     
            String idcard17 = idcard.substring(0, 6) + year + idcard.substring(8);
     
            char c[] = idcard17.toCharArray();
            String checkCode = "";
     
            // 将字符数组转为整型数组
            int bit[] = converCharToInt(c);
     
            int sum17 = 0;
            sum17 = getPowerSum(bit);
     
            // 获取和值与11取模得到余数进行校验码
            checkCode = getCheckCodeBySum(sum17);
     
            // 获取不到校验位
            if (null == checkCode) {
                return null;
            }
            // 将前17位与第18位校验码拼接
            idcard17 += checkCode;
            return idcard17;
        }
     
        /**
         * 校验省份
         * 
         * @param provinceid
         * @return 合法返回TRUE,否则返回FALSE
         */
        private static boolean checkProvinceid(String provinceid) {
            for (String id : cityCode) {
                if (id.equals(provinceid)) {
                    return true;
                }
            }
            return false;
        }
     
        /**
         * 数字验证
         * 
         * @param str
         * @return
         */
        private static boolean isDigital(String str) {
            return str.matches("^[0-9]*$");
        }
     
        /**
         * 将身份证的每位和对应位的加权因子相乘之后,再得到和值
         * 
         * @param bit
         * @return
         */
        private static int getPowerSum(int[] bit) {
     
            int sum = 0;
     
            if (power.length != bit.length) {
                return sum;
            }
     
            for (int i = 0; i < bit.length; i++) {
                for (int j = 0; j < power.length; j++) {
                    if (i == j) {
                        sum = sum + bit[i] * power[j];
                    }
                }
            }
            return sum;
        }
     
        /**
         * 将和值与11取模得到余数进行校验码判断
         * 
         * @param checkCode
         * @param sum17
         * @return 校验位
         */
        private static String getCheckCodeBySum(int sum17) {
            String checkCode = null;
            switch (sum17 % 11) {
            case 10:
                checkCode = "2";
                break;
            case 9:
                checkCode = "3";
                break;
            case 8:
                checkCode = "4";
                break;
            case 7:
                checkCode = "5";
                break;
            case 6:
                checkCode = "6";
                break;
            case 5:
                checkCode = "7";
                break;
            case 4:
                checkCode = "8";
                break;
            case 3:
                checkCode = "9";
                break;
            case 2:
                checkCode = "x";
                break;
            case 1:
                checkCode = "0";
                break;
            case 0:
                checkCode = "1";
                break;
            default:
            }
            return checkCode;
        }
     
        /**
         * 将字符数组转为整型数组
         * 
         * @param c
         * @return
         * @throws NumberFormatException
         */
        private static int[] converCharToInt(char[] c) throws NumberFormatException {
            int[] a = new int[c.length];
            int k = 0;
            for (char temp : c) {
                a[k++] = Integer.parseInt(String.valueOf(temp));
            }
            return a;
        }
     
    
    }
View Code
技术图片
package com.sjck.hive.udf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;

import com.sjck.hive.udf.util.IdCardUtil;

/**
 * 身份证信息验证
 * @author Administrator
 *
 */
public class VerifiyCardNo  extends UDF {

    public static String evaluate(String idcard,String returnType) {
        if(StringUtils.isNotBlank(idcard)){
            boolean validated= IdCardUtil.isValidatedAllIdcard(idcard);
            if(validated){
                String gender="未知";
                String birthday="未知";
                String birthday_region="未知";
                idcard=idcard.length()==15?IdCardUtil.convertIdcarBy15bit(idcard):idcard;
                String checkCode = String.valueOf(idcard.charAt(16));
                int parseInt = Integer.parseInt(checkCode);
                gender=parseInt%2==0?"女":"男";
                returnType=returnType.toUpperCase();
            if(StringUtils.isNotBlank(returnType)){
                if("BIRTHDAY".equals(returnType)){
                    birthday= idcard.substring(6, 14);
                    return birthday;
                }else if("GENDER".equals(returnType)){
                    return gender;
                }else if("BIRTHDAY_REGION".equals(returnType)){
                    birthday_region=idcard.substring(0, 6);
                    return birthday_region;
                }
            }
            }
        }
        return "未知";
    }
     public static void main(String[] args) {
          
            System.out.println(VerifiyCardNo.evaluate("412721199507105418","BIRTHDAY"));
            System.out.println(VerifiyCardNo.evaluate("412721199507105418","GENDER"));
            System.out.println(VerifiyCardNo.evaluate("51010720001205584X","BIRTHDAY"));
        }
     
}  
View Code

 

二、添加jar的三种方式

1)使用add jar jarpath/hive-udf.jar;方法加入

该方法的缺点是每次启动Hive的时候都要从新加入,退出hive就会失效。

2)通过设置hive的配置文件hive-site.xml 加入

在配置文件中增加配置
<property>
<name>hive.aux.jars.path</name>
<value>file:///jarpath/hive-udf1.jar,file:///jarpath/hive-udf2.jar</value>
</property>
保存即可

该方法比第一种方法方便很多。不需要每次启动Hive执行命令加入,只是配置稍微复杂一些

3)在${HIVE_HOME}下创建auxlib目录,将UDF文件放到该目录中,这样hive在启动时会将其中的jar文件加载到classpath中 

这种方法,方便快捷,不需要重启HVIE服务

三、 函数声明:

//创建临时函数

create temporary function toSingleByte as ‘com.sjck.hive.udf.ToSingleByte‘;

//创建永久函数

create function toSingleByte as ‘com.sjck.hive.udf.ToSingleByte‘;

create function  verifiyCardNo as  ‘com.sjck.hive.udf.VerifiyCardNo‘;

删除永久函数

drop  function toSingleByte;

drop function verifiyCardNo;

 

个人是hive的udf 放在 hdfs上

hadoop fs  -mkdir/user/hive/udf

hadoop fs -put hive-udf.jar /user/hive/udf/

 

create functionto singlebyte AS ‘com.sjck.hive.udf.ToSingleByte‘ using jar ‘hdfs://master01:8020/user/hive/udf/hive-udf.jar‘;

create function verifiycardno AS ‘com.sjck.hive.udf.VerifiyCardNo‘using jar ‘hdfs://master01:8020/user/hive/udf/hive-udf.jar‘;

 

Hive 自定义函数

标签:int   return   exe   cat   ber   创建   pack   tag   加载   

原文地址:https://www.cnblogs.com/kopao/p/13650868.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!