数据描述
对于内容型行业的场景,我们需要准备3张数据表
- 内容表(item):最近场景内全部可以被推荐的内容的全量表。由于item数量受quota限制,建议您上传前做去重处理。item_id|item_type唯一。
- 用户表(user):最近系统的全部注册用户表。由于user数量受quota限制,建议您上传前做去重处理。user_id唯一。
- 行为表(behavior):最近一段时间场景的行为数据。我们建议您提供一到两周的数据。如果是全新场景,没有历史数据;或者因为技术原因无法提供行为数据,可以使用我们提供的测试数据,但是在开始一段时间(大约两周)内,模型的效果会不太理想,但随着数据的积累,会逐渐上升并最终稳定。对于这三张表的选填字段,我们建议您尽量上传,这些选填字段越多越准确,模型的效果越好。但是缺失部分选填字段也不会使服务不可用。
表结构
item
字段名 | 字段类型 | 是否必需 | 字段含义 | 字段值枚举 | 字段值说明 | 字段值示例 |
---|---|---|---|---|---|---|
item_id | string | 必需 | 内容唯一标识ID | 用户自填 | item_id+item_type作为一条数据的唯一标识 | 34513 |
item_type | string | 必需 | 内容的类型 | image article video shortvideo item recipe audio (如当前类型不满足,请联系技术人员沟通解决方案) |
必须与示例中的类型相匹配,否则会混排失效 | article |
status | string | 必需 | 物品状态是否可推荐 | 0 1 |
1:可推荐, 0:不可推荐 (用于实时干预) |
1 |
duration | string | 视频类型必填,其它推荐 | 时长,秒 | 用户自填 | 视频总时长 | 1000 |
title | string | 推荐 | 内容标题 | 用户自填 | 用于语义层面深入分析,置空会损失部分算法效果,建议填写 | 数字时代是最大机遇 |
scene_id | string | 必需 | 物品可被投放的子场景ID | 用户自填 | 1、英文逗号分隔的若干场景ID 2、场景ID中不能含有英文冒号 3、场景ID不能为-102(内部预留值) 4、当推荐不分子场景时,该字段置1。 (用于不同投放页面,使用方式) |
1001,1002 |
weight | string | 推荐 | item加权权重1-100 | 用户自填 | 1、置空后,默认值为1,不可全部为0 2、设置了高权重的物品,会有更高的概率优先推荐出来 |
1 |
pub_time | string | 推荐 | 发布时间的时间戳,单位s | 用户自填 | 对有时效性需求的用户,必填。(用于新品的推荐策略) | 1520327038 |
expire_time | string | 推荐 | 内容失效时间戳,单位s | 用户自填 | 1、当前服务器时间大于该字段时,item将不被继续推荐。 2、如果所有数据均失效,服务无法启动。 3、置为空代表永不失效 |
1520327038 |
last_modify_time | string | 推荐 | 内容信息的最后修改时间戳,单位s | 用户自填 | 如果用户对已经发布了的商品做了较大的更新,又有时效性的需求,可以更新此字段。同pub time功能类似,共同作用于新品链路。 | 1520327038 |
category_level | string | 推荐 | 类目层级数,例如3级类目 | 用户自填 | 如果和category_path数据不匹配,会影响打散功能 | 3 |
category_path | string | 推荐 | 类目路径,下划线联接 | 用户自填 | 1、类目路径,支持多级类目,用下划线联接 2、不可出现英文逗号,英文冒号 (用于打散策略) |
12_1024_56 |
tags | string | 推荐 | 标签,多个标签使用英文逗号分隔 | 用户自填 | 1、主要用于描述物品的特征,由业务方自行运营物品的标签库 2、算法模型会基于标签进行特征分析,根据行为训练用户热点分布。 3、标签池总个数不能超过50000 |
数字化,人工智能,AI |
author | string | 推荐 | 作者表,多个标签使用英文逗号分隔 | 用户自填 | ||
content | string | 可选 | 内容正文 | 用户自填 | 通常为正文关键片段,最长5000个中英文字符,主要用于语义分析 | 北京时间6月10日晚,联合国发布全球数字经济未来发展纲领性报告——《数字相互依存的时代——联合国数字合作高级别小组报告》。联合国数字合作高级别小组联合主席马云表示:“我相信数字时代是我们面临的最大机遇。我相信这个新时代的最大风险是错失机会的风险。” |
channel | string | 可选 | 频道,多个标签使用英文逗号分隔 | 用户自填 | ||
organization | string | 可选 | 机构列表,多个标签使用英文逗号分隔 | 用户自填 | ||
pv_cnt | string | 可选 | 一个月内曝光次数 | 用户自填 | 启动时,如果当前场景行为数据比较稀疏,可以将平台其他场景的行为统计数据放入这些字段,不要求实时性。模型稳定后,如果维护这些字段成本较高,可以低优先级处理 | 100000 |
click_cnt | string | 可选 | 一个月内点击次数 | 用户自填 | 不要求实时性,优先级可以放低 | 1000 |
like_cnt | string | 可选 | 一个月内点赞次数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
unlike_cnt | string | 可选 | 一个月内踩次数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
comment_cnt | string | 可选 | 一个月内评论次数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
collect_cnt | string | 可选 | 一个月内收藏次数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
share_cnt | string | 可选 | 一个月内分享次数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
download_cnt | string | 可选 | 一个月内下载次数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
tip_cnt | string | 可选 | 一个月内打赏数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
subscribe_cnt | string | 可选 | 一个月内关注数 | 用户自填 | 不要求实时性,优先级可以放低 | 100 |
source_id | string | 可选 | 物料经由哪个平台进入场景 | 用户自填 | 比如天猫,淘宝等,这个字段可以是平台的id,例如淘宝1,天猫2 | 1 |
country | string | 可选 | 国家编码 | 用户自填 | ISO3166-1alpha-3 编码 | “CHN”(中国) |
city | string | 可选 | 城市名称 | 用户自填 | 杭州、上海 | |
features | string | 可选 | 物料特征 | 用户自填 | 英文逗号分隔的物料特征;该特征是描述性的 | |
num_features | string | 可选 | 物料特征 | 用户自填 | 英文逗号分隔的数值型物料特征;必须保证所有物料的该字段逗号个数一致,且字段对齐 |
user
字段名 | 字段类型 | 是否必需 | 字段含义 | 字段值枚举 | 字段值说明 | 字段值示例 |
---|---|---|---|---|---|---|
user_id | string | 必需 | 用户唯一ID | 用户自填 | 1、注册用户必填 2、user_id + user_id_type作为一条数据唯一标识 |
1234567 |
user_id_type | string | 必需 | 用户注册类型 | 1 2 3 4 |
1:app注册账号,2:手机号,3:微信号,4:其它 | 2 |
imei | string | 推荐 | 安卓:MD5(imei),IOS:MD5(idfa) | 用户自填 | 1、非注册用户必填 2、按照指定要求,mac地址,设备号等无效,会无法使用内部用户画像信息,仅保留曝光过滤功能 3、32位MD5值 |
e2fcdb0f4dce45e35fe2823d797333ec |
third_user_name | string | 推荐 | 第三方用户名称 | 用户自填 | jack | |
third_user_type | string | 推荐 | 第三方平台名称 | 用户自填 | ||
phone_md5 | string | 推荐 | 用户手机号的md5值 | 用户自填 | d41d8cd98f00b204e9800998ecf8427e | |
gender | string | 推荐 | 性别 | male female unknown |
male | |
age | string | 推荐 | 年龄 | 用户自填 | 22 | |
age_group | string | 推荐 | 年龄段 | 用户自填 | 20-25 | |
country | string | 推荐 | 国家编码 | 用户自填 | ISO3166-1 alpha-3 编码 | “CHN”(中国) |
city | string | 推荐 | 城市名称 | 用户自填 | 杭州、上海 | |
ip | string | 推荐 | 最后登录IP | 用户自填 | 202.113.34.16 | |
device_model | string | 推荐 | 设备型号 | 用户自填 | iphoneX | |
tags | string | 推荐 | 用户tags,多个tag使用英文逗号分隔 | 用户自填 | 对用户的标签描述 | 足球,健身,户外 |
source | string | 推荐 | 用户来源 | 用户自填 | 今日头条引流 | |
content | string | 可选 | 用户描述 | 用户自填 | ||
register_time | string | 可选 | 注册时间戳,单位s | 用户自填 | 1520007038 | |
last_login_time | string | 可选 | 上次登录时间戳,单位s | 用户自填 | 1520017038 | |
last_modify_time | string | 可选 | 用户信息的最后修改时间戳,单位s | 用户自填 | 1520327038 | |
features | string | 可选 | 用户特征 | 用户自填 | 英文逗号分隔的用户描述性特征,比如画像等 | |
num_features | string | 可选 | 用户特征 | 用户自填 | 英文逗号分隔的数值型用户特征;必须保证所有物料的该字段逗号个数一致,且字段对齐 |
behavior
字段名 | 字段类型 | 是否必需 | 字段含义 | 字段值枚举 | 字段值说明 | 字段值示例 |
---|---|---|---|---|---|---|
item_id | string | 必需 | 内容ID | 用户自填 | 需要与item表中的item_id想匹配 | 34513 |
item_type | string | 必需 | 内容的类型 | image article video shortvideo item recipe audio |
需要与item表中的item_type想匹配 | image |
bhv_type | string | 必需 | 行为类型,例如曝光、停留、点击、收藏、下载等 | expose click |
正利数据click的条数需要小于负利数据expose的条数,否则系统会判断数据异常,无法启动服务 | expose |
trace_id | string | 必需 | 请求追踪/埋点ID。用于在AB实验时区分 调用了阿里推荐引擎 | Alibaba selfhold |
1、调用了阿里推荐引擎而产生的行为数据,填Alibaba;没有调用阿里推荐引擎而产生的行为数据,填selfhold 2、主要用于控制台报表分析,效果对比 |
Alibaba |
trace_info | string | 必需 | 请求埋点信息。一次推荐接口调用时会返回该信息,日志记录时带上即可 | 用户自填 | 1、阿里流量必需,其它流量置空 2、智能推荐的查询接口返回中,会有trace_info字段,原样返回即可 |
阿里流量必需 |
bhv_time | string | 必需 | 行为发生的时间戳,单位s | 用户自填 | 用户实际产生行为的时间 | 1520327038 |
scene_id | string | 必需 | 场景ID | 用户自填 | 1、用户产生行为的场景,在对应的item的场景ID中,单值 2、无场景区分需求,默认填1,若无法追踪到行为的具体场景ID,填-102。 |
1001 |
bhv_value | string | 推荐 | 行为详情,例如点击次数,停留时长,购买件数等 | 用户自填 | 1、点击行为填1即可 2、曝光行为视业务需求,也可不填 3、其它行为类型请联系技术开发 |
500 |
user_id | string | 推荐 | 用户ID | 用户自填 | 1、注册用户需要与user表中相匹配 2、未登录用户访问可不填 |
1234567 |
platform | string | 可选 | 客户端平台。 | 用户自填 | ios/andriod/h5 | ios |
imei | string | 可选 | 安卓:MD5(imei),IOS:MD5(idfa) | 用户自填 | 1、非注册用户必填 2、按照指定要求,mac地址,设备号等无效,会无法使用内部用户画像信息,仅保留曝光过滤功能 3、32位MD5值 |
e2fcdb0f4dce45e35fe2823d797333ec |
app_version | string | 可选 | app的版本号 | 用户自填 | 4.1.10 | |
net_type | string | 可选 | 网络型号 | 用户自填 | 2G/3G/4G/WIFI | 4G |
ip | string | 可选 | 客户端IP信息 | 用户自填 | 234.45.13.14 | |
login | string | 可选 | 是否登录用户 | 0 1 |
0:未登录 1:登录 |
1 |
report_src | string | 可选 | 上报来源类型 | 1 2 |
1:服务端,2:客户端。 | 2 |
device_model | string | 可选 | 设备型号 | 用户自填 | iphoneX | |
longitude | string | 可选 | 位置经度 | 用户自填 | 128.4 | |
latitude | string | 可选 | 位置纬度 | 用户自填 | 78.1 | |
module_id | string | 可选 | 模块ID | 用户自填 | 114 | |
page_id | string | 可选 | 页面ID | 用户自填 | 4 | |
position | string | 可选 | 内容所在的位置信息 | 用户自填 | 5 |
behavior type
expose | 曝光 |
---|---|
click | 点击 |
like | 点赞 |
unlike | 踩 |
comment | 评论 |
collect | 收藏 |
stay | 停留时长 |
share | 分享 |
download | 下载 |
tip | 打赏 |
subscribe | 关注 |
原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/33737.html