内容勘误汇总贴

目的

为了之后与GitHub上的资料同步,记录一下所有修改过的地方。欢迎大家遇到问题及时跟我们反馈,我们也会及时更正

勘误汇总

赛题理解+Baseline

2020年11月23日:

  1. 获取 用户 - 文章 - 点击时间字典 之前里面是一个字典,正确的应该是一个列表
    image

  2. itemCF 的文章推荐注释及代码问题,之前直接是将元素和元组进行比较,下面是修改过后的
    在item_based_recommend函数中增加了第17行的代码,修改了第22行的代码,修改了第该函数第6行的参数解释!
    image

  3. 导包问题
    image

2020年11月23日:

  1. 数据分析jupyter开头部分的建议有两个错别字(天池和本论坛都修改完成)
  2. 总结部分第一条最后一部分,删除了两个字,之前描述的不是很准确(天池和本论坛都修改完成)
  3. 总结部分最后一条,排版问题,(天池和本论坛都修改完成)

多路召回

2020年11月23日:

  1. 获取 用户 - 文章 - 点击时间字典 注释问题,之前里面是一个字典,正确的应该是一个列表
    image
  2. 获取文章-用户-时间函数 注释问题 之前里面是一个字典,正确的应该是一个列表
    image
  3. itemCF recall 注释和代码问题
    image
  4. userCF召回 修改一些注释
    image

2020年12月2日:

  1. 多路召回合并函数保存合并结果字典有问题
 # 将多路召回后的最终结果字典保存到本地
pickle.dump(final_recall_items_dict, open(os.path.join(save_path, 'final_recall_items_dict.pkl'),'wb'))

修改后:

 # 将多路召回后的最终结果字典保存到本地
pickle.dump(final_recall_items_dict_rank, open(os.path.join(save_path, 'final_recall_items_dict.pkl'),'wb'))

特征工程

2020年12月2日:

  1. 划分训练和验证集,读取线下验证数据有问题
    if offline:
        click_trn_data = pd.read_csv(data_path+'train_click_log.csv')  # 训练集用户点击日志
        click_trn_data = reduce_mem(click_trn_data)
        click_trn, click_val, val_ans = trn_val_split(all_click_df, sample_user_nums)

修改后:

    if offline:
        click_trn_data = pd.read_csv(data_path+'train_click_log.csv')  # 训练集用户点击日志
        click_trn_data = reduce_mem(click_trn_data)
        click_trn, click_val, val_ans = trn_val_split(click_trn_data , sample_user_nums)

排序模型+模型融合

在训练DIN那里
history = model.fit(x_trn, y_trn, verbose=1, epochs=2, batch_size=256)

InvalidArgumentError: indices[0,0] = 17 is not in [0, 9)
[[node model/sparse_emb_click_os/embedding_lookup (defined at /usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py:1751) ]] [Op:__inference_distributed_function_5729]

Function call stack:
distributed_function

我这边使用tf1.14和tf2.0.0测试都没问题,你看看是不是tf版本导致的