Colossal Clear Crawled Corpus (C4), um conjunto de dados de IA usado por grandes empresas de tecnologia, contém dados de vários websites relacionados à criptografia.
O conjunto de dados C4 é extraído de websites criptográficos
The Washington Publish e o Allen Institute for AI analisado recentemente o conjunto de dados C4, classificando websites pelo número de “tokens” ou trechos de texto retirados de cada fonte.
A Comissão de Valores Mobiliários dos EUA – que em parte contém conteúdo sobre regulamentação de criptomoedas – estava entre as maiores fontes do conjunto de dados. Seu web site (sec.gov) ficou em 39º lugar e foi responsável por 36 milhões, ou 0,02%, dos tokens do C4.
Bitcointalk.org, um fórum de discussão blockchain criado por Satoshi Nakamoto, classificado em # 780. Ele representou 6,1 milhões, ou 0,004%, dos tokens do C4.
Websites de notícias e agregação de criptomoedas, como Cointelegraph e Coinmarketcap.com, também foram representados. Oito desses websites representaram coletivamente pelo menos 0,008% dos tokens do C4, embora outros websites provavelmente aumentem o complete actual.
Websites relacionados a criptomoedas e exchanges específicas também foram representados no conjunto de dados, mas representaram uma quantidade insignificante de tokens.
Dois websites cripto adjacentes também tiveram uma classificação alta. IPFS (ipfs.io) ficou em 16º lugar, enquanto Steemit (steemit.com) ficou em 594º lugar. O primeiro web site é uma rede distribuída da empresa de blockchain Protocol Labs, enquanto o segundo faz uso direto do blockchain. No entanto, esses websites não necessariamente contêm conteúdo relacionado à criptomoeda.
Websites mainstream encabeçaram a lista
O conjunto de dados C4 é usado em modelos de linguagem AI de grandes empresas de tecnologia, incluindo do Google T5 e do Fb LLaMA, de acordo com o Washington Publish.
Embora os websites acima estejam entre os websites relacionados a cripto mais significativos da C4, eles são superados por websites e fontes de notícias convencionais, que geralmente cobrem tópicos de criptomoeda e provavelmente são a fonte primária de todos os dados relacionados a cripto.
O C4 também foi criticado por conter discurso de ódio e dados piratas. Embora o nome do conjunto de dados sugira que ele foi “limpo”, seus montadores usaram apenas uma lista de 400 palavras para censurar um conteúdo específico, o que significa que o conteúdo controverso permanece intacto.
A presença de websites criptográficos, bem como a presença de dados controversos, pode afetar o nível de viés observado no conteúdo produzido por chatbots de IA.