当我尝试合并两个数据帧时,一直得到一个keyerror.代码:
c = pd.merge(a, b, on='video_id', how='left')
基于互联网研究,我仔细检查了dtype并强制转换为int:
a = pd.read_csv(filename, index_col=False, dtype={'video_id': np.int64}, low_memory=False) b = pd.read_csv(videoinfo, index_col=False, dtype={'video_id': np.int64})
重命名列(以确保它们匹配):
a.columns.values[2] = "video_id" b.columns.values[0] = "video_id"
强制到df:
c = pd.merge(pd.DataFrame(a), pd.DataFrame(b), on='video_id', how='left')
出于想法为什么我仍然得到了keyerror.它始终是"KeyError:'video_id'"
您要小心不要使用df.columns.values
重命名列.这样做会使用列名称上的索引进行拧紧.
如果您知道要替换的列名称,可以尝试以下方法:
a.rename(columns={'old_col_name':'video_id'}, inplace = True) b.rename(columns={'old_col_name':'video_id'}, inplace = True)
如果您提前不知道列名,可以尝试:
col_names_a = a.columns col_names_a[index] = 'video_id' a.columns = col_names_a
请记住,您实际上不需要在两个数据帧上使用相同的列名称.Pandas允许您在每个数据帧中指定各个名称
pd.merge(a, b, left_on = 'a_col', right_on = 'b_col', how = 'left')