developer tip

대규모 공개 데이터 세트?

optionbox 2020. 11. 21. 14:14
반응형

대규모 공개 데이터 세트?


특히 다음과 같은 대규모 공개 데이터 세트를 찾고 있습니다.

  1. 익명화 된 대규모 샘플 웹 서버 로그.

  2. 데이터베이스 성능 벤치마킹에 사용되는 데이터 세트.

대규모 공개 데이터 세트에 대한 다른 링크는 감사하겠습니다. http://aws.amazon.com/publicdatasets/ 에서 Amazon의 공개 데이터 세트에 대해 이미 알고 있습니다.


1. 익명화 된 대규모 샘플 웹 서버 로그.

다음과 같이 작동합니다.

이보다 더 많은 데이터 세트를 사용할 수 있지만 (다른 답변의 범위 참조) 이것은 원래 기준을 충족하는 가장 낮은 매달려있는 과일입니다. 보너스로, 그들이 알고있을 수있는 특정 요구 사항이있는 경우 연락처 링크 가 있습니다.

2. 데이터베이스 성능 벤치마킹에 사용되는 데이터 세트.

잘 정의 된 알고리즘 문제 를 설명하는 경험적 데이터 세트를 요구하기 때문에 잘못된 이름처럼 들립니다 . 특히, 다양한 데이터베이스 시스템을 실시간으로 테스트하고 벤치마킹하는 데 사용할 수있는 데이터 세트를 찾으려고하는 것처럼 들립니다.이를 결정하기위한 테스트 케이스 세트로 사용할 수있는 잘 정의되고 정규화 된 관계형 데이터를 사용하여 귀하의 요구를 충족하는 가장 효율적인 솔루션입니다.

나는이 접근 방식에 동의하지 않습니다. 수많은 데이터베이스 시스템과 미리 준비된 구현을 찾는 대신 이러한 시스템 알고리즘 보장 을 첫 번째 호출 포트로 탐색하는 것이 훨씬 좋습니다 . 요구 사항을 충족하는 알고리즘 제약 조건을 결정한 후에는 인덱싱, 정렬, 검색, 삽입, 삭제 및 검색과 같은 효율성을 벤치마킹 할 수있는 미리 준비된 솔루션 집합을 연마 할 수 있습니다.

Wikipedia는 성능 벤치마킹을위한 테스트 케이스를 결정하고 작성하는 데 사용할 수있는 데이터베이스 테스트 개념에 대한 간결한 기사를 제공 합니다 . 예를 들어 JDBCJDBC 벤치 마크같은 독립적 인 데이터 액세스 인터페이스 를 사용하여 각 작업의 상대적 타이밍을 결정할 수 있습니다. 여기에서 올바른 솔루션을 찾을 수 있습니다.

요컨대, 데이터베이스 보장을 결정하기 위해 먼저 연구 로 이동 하십시오 . 후보 솔루션 세트가 식별되면 원하는 각 작업의 일정한 시간 성능을 테스트 (또는 결정)하여 솔루션 중에서 선택할 수 있습니다.


Quora 답변 과 내 연구의 개인 컬렉션을 기반으로 멋진 공개 데이터 세트 저장소가 생성되고 GitHub에서 활발하게 업데이트되었습니다.

아래는이 목록의 스냅 샷 버전입니다. 최신 목록을 보려면 Github 를 방문하십시오 .

이 공개 데이터 소스 목록은 블로그, 답변 및 사용자 응답에서 수집 및 정리됩니다. 아래 나열된 대부분의 데이터 세트는 무료이지만 일부는 그렇지 않습니다. 이 목록은 https://github.com/caesar0301/awesome-public-datasets 에서 가져 왔습니다 .

기후

경제학

재원

생물학

물리학

보건 의료

GeoSpace

교통

정부

데이터 문제

기계 학습

자연어

이미지 처리

시계열

사회 과학

복잡한 네트워크

컴퓨터 네트워크

데이터 SE

Public Doamins

Complementary Collections


Here are several. Have fun.

http://archive.ics.uci.edu/ml/

http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

http://crawdad.org/

http://data.austintexas.gov

http://data.cityofchicago.org

http://data.govloop.com

http://data.gov.uk/

http://data.medicare.gov

http://data.seattle.gov

http://data.sfgov.org

http://data.sunlightlabs.com

https://datamarket.azure.com/

http://ftp.ncbi.nih.gov/

http://gettingpastgo.socrata.com

http://books.google.com/ngrams/

http://linkeddata.org/

http://medihal.archives-ouvertes.fr

http://public.resource.org/

http://rechercheisidore.fr

http://reddit.com/r/datasets

http://timetric.com/public-data/

http://www2.jpl.nasa.gov/srtm

http://www.bls.gov/

http://www.crunchbase.com/

http://www.dartmouthatlas.org/

http://www.data.gov/

http://www.datakc.org

http://www.factual.com/

http://www.freebase.com/

http://www.infochimps.com

http://www.kaggle.com/

http://build.kiva.org/

http://www.imdb.com/interfaces

http://dbpedia.org


Just a thought:


Well for the web server logs you could always just generate them for the format you need. If you are going to test code against it etc. it will have to be tailored to the fields you want to store/parse.

For the datasets used for database performance benchmarking, you'll probably want to look at a tool that can generate data for you. Red Gate has a great one for not too much money.


Google Fusion Tables has a few.

http://tables.googlelabs.com/


Datasets available here as well.


Kaggle.com frequently has datamining challenges. The datasets cover a wide range of fienlds: healthcare provider data to credit history information. Perhaps something there is what you're after.


http://Quandl.com has over 10 million data sets gleaned from all over the internet. The great thing about this resource is that it gives a single way to access all of the data. The site has a free Excel plug in or there are libraries in R, Python, Ruby, etc.


http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public


I am surprised no one mentioned Google N-Grams. More on N-Grams at http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html


Perhaps some databases used as training sets for face recognition algorithms: face-rec.org


Well, this one is new and there is a challenge behind it:

Million song dataset challenge

참고URL : https://stackoverflow.com/questions/381806/large-public-datasets

반응형