新年10个Flag实现中~
访问量
1.4M
文章数
144
运行天
982
前言《百面》第二章「类别型特征」,提出一个问题:在对数据进行预处理时,应该怎样处理类别型特征?仔细研究才发现,这里面竟然有很多以前从未听过的知识——毕竟研究生不会有人手把手教你这么系统地去学,只有老板给什么就去实现什么而已……那么开始吧~什么是类别型特征看名字就知道,是机器学习的输入数据中,表示类别的特征。比如:数据ID|性别|学历|出生城市|10年内深圳买房(y)1|男|博士|深圳|是2|女|硕士|重庆|否3|男|大学|哈尔滨|否4|女|高中|成都|是5|男|初中|湖南|是这些数据需要被通过某种方法转换为数字,也就是所谓的编码,才能更好地被那些机器学习算法中建立的各种数学模型来使用。我以前的转换手段就是暴力的:女=0,男=1初中=0,高中=1,大学=2,硕士=3,博士=4深圳=0,重庆=1
1