Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Objetivos de aprendizagem
Neste módulo, você vai aprender a:
Investigar possíveis problemas subjacentes a conjuntos de dados brutos ou processados, incluindo
problemas de coleta e qualidade.
Identifique vieses, inferências inválidas e racionalizações.
Encontrar problemas comuns na análise de dados, incluindo correlação,
relação e irrelevância.
Examinar um gráfico em busca de problemas comuns, percepções equivocadas e
escolhas enganosas de exibição e design.
Motivação do ML
Embora não sejam tão glamourosos quanto as arquiteturas de modelo e outros modelos downstream,
exploração, documentação e pré-processamento de dados são fundamentais para
o trabalho do ML. Os profissionais de ML podem cair no que Nithya Sambasivan et al. chamava
cascatas de dados
no artigo da ACM de 2021
se não entendem profundamente:
as condições em que os dados são coletados
a qualidade, as características e as limitações
o que os dados podem e não podem mostrar
É muito caro treinar modelos com dados ruins
só descobriram problemas quando tiverem saídas de baixa qualidade
com os dados. Da mesma forma, a falha em compreender as limitações dos dados,
vieses na coleta de dados ou no erro de correlação de causalidade,
pode resultar em resultados muito promissores e insuficientes, o que pode levar
perda de confiança.
Este curso apresenta armadilhas de dados comuns, mas sutis, que o ML e os dados
que os profissionais podem encontrar no trabalho.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-07-26 UTC."],[[["This module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models."],["Understanding data limitations and collection conditions is crucial to avoid \"data cascades\" that lead to poor model performance and wasted resources."],["The module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows."],["By recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation."]]],[]]